私たちの最初のプルーフ提出
概要
OpenAIは、AIが正確でエンドツーエンドの検証可能な専門分野の議論を生成できるかをテストするために設計された研究レベルの数学コンテストである「First Proof」への証明の試みを公開しました。モデルは全10問に挑戦し、専門家のフィードバックに基づき、OpenAIは少なくとも5つの提出物(問題4、5、6、9、10)が正しい可能性が高いと考えていますが、問題2については当初の評価を修正しました。同社は、標準的なベンチマークを超えた能力、例えば長鎖推論の維持や曖昧さの処理などを評価するために、「First Proof」のようなフロンティアチャレンジが極めて重要であると考えています。このプロセスには、再試行の提案や検証のためのChatGPTの使用など、限定的な人間の監督が含まれており、OpenAIはこのスプリントが完全に制御されたものではなかったことを認めています。この取り組みは、国際数学オリンピック(IMO)の成績やGPT-5のケーススタディを含む、フロンティア推論モデルにおける以前の成果を基にしており、OpenAIは将来の厳密な評価に向けてコミュニティとの関与を期待しています。
(出典:OpenAI)