SWE-bench Verified がフロンティアコーディング能力を測定しなくなった理由

English 中文 Español

OpenAI Feb 23, 2026

SWE-bench Verified は、不備のあるテストと訓練データ汚染によりスコアが水増しされ、真の能力向上を覆い隠すため、廃止されます。

全文を読む

概要

作成者は、SWE-bench Verified ベンチマークが自律的なソフトウェアエンジニアリングにおける最先端モデルの進捗を測定する信頼できる指標ではなくなったため、スコアの報告を中止しました。分析により、主に2つの問題が明らかになりました。監査された問題の少なくとも59.4%には、機能的に正しい提出物を却下する欠陥のあるテストケースが存在し（テストが狭すぎるか広すぎるため）、最先端モデルには訓練データ汚染の証拠が見られ、元の人間が書いた「ゴールドパッチ」や問題の詳細を逐語的に再現できました。この汚染は、パフォーマンスの向上は真の現実世界のソフトウェア開発能力よりも、訓練時にベンチマークにどれだけ晒されたかを反映していることを示唆しています。その結果、代わりに SWE-bench Pro の使用を推奨し、GDPVal のような新しく汚染されていない評価への投資を進めています。

(出典：OpenAI)

English 中文 Español

全文を読む

TechCrunch Apr 30, 2026

ソフトバンクはデータセンターを建設するロボット企業を設立し、すでに1000億ドルのIPOを視野に入れている

Gizmodo Apr 30, 2026

Anthropicが次回の資金調達ラウンドでOpenAIの評価額を上回る計画との報道

TechCrunch Apr 30, 2026

Amazonのクラウド事業が急成長、同時に設備投資も急増

TechCrunch Apr 30, 2026

情報筋：Anthropicが9000億ドルの評価額で500億ドルの資金調達ラウンドを検討中

The Verge Apr 30, 2026