SWE-bench Verified がフロンティアコーディング能力を測定しなくなった理由
概要
作成者は、SWE-bench Verified ベンチマークが自律的なソフトウェアエンジニアリングにおける最先端モデルの進捗を測定する信頼できる指標ではなくなったため、スコアの報告を中止しました。分析により、主に2つの問題が明らかになりました。監査された問題の少なくとも59.4%には、機能的に正しい提出物を却下する欠陥のあるテストケースが存在し(テストが狭すぎるか広すぎるため)、最先端モデルには訓練データ汚染の証拠が見られ、元の人間が書いた「ゴールドパッチ」や問題の詳細を逐語的に再現できました。この汚染は、パフォーマンスの向上は真の現実世界のソフトウェア開発能力よりも、訓練時にベンチマークにどれだけ晒されたかを反映していることを示唆しています。その結果、代わりに SWE-bench Pro の使用を推奨し、GDPVal のような新しく汚染されていない評価への投資を進めています。
(出典:OpenAI)