私たちの最初のプルーフ提出

English 中文 Español

OpenAI Feb 20, 2026

OpenAIは、AIが検証可能な専門分野の証明を生成する能力をテストするため、困難な「First Proof」数学コンテストへの証明の試みを共有しました。

全文を読む

概要

OpenAIは、AIが正確でエンドツーエンドの検証可能な専門分野の議論を生成できるかをテストするために設計された研究レベルの数学コンテストである「First Proof」への証明の試みを公開しました。モデルは全10問に挑戦し、専門家のフィードバックに基づき、OpenAIは少なくとも5つの提出物（問題4、5、6、9、10）が正しい可能性が高いと考えていますが、問題2については当初の評価を修正しました。同社は、標準的なベンチマークを超えた能力、例えば長鎖推論の維持や曖昧さの処理などを評価するために、「First Proof」のようなフロンティアチャレンジが極めて重要であると考えています。このプロセスには、再試行の提案や検証のためのChatGPTの使用など、限定的な人間の監督が含まれており、OpenAIはこのスプリントが完全に制御されたものではなかったことを認めています。この取り組みは、国際数学オリンピック（IMO）の成績やGPT-5のケーススタディを含む、フロンティア推論モデルにおける以前の成果を基にしており、OpenAIは将来の厳密な評価に向けてコミュニティとの関与を期待しています。

(出典：OpenAI)

English 中文 Español

全文を読む

TechCrunch Apr 30, 2026

ソフトバンクはデータセンターを建設するロボット企業を設立し、すでに1000億ドルのIPOを視野に入れている

Gizmodo Apr 30, 2026

Anthropicが次回の資金調達ラウンドでOpenAIの評価額を上回る計画との報道

TechCrunch Apr 30, 2026

Amazonのクラウド事業が急成長、同時に設備投資も急増

TechCrunch Apr 30, 2026

情報筋：Anthropicが9000億ドルの評価額で500億ドルの資金調達ラウンドを検討中

The Verge Apr 30, 2026