为什么 SWE-bench Verified 不再衡量前沿编码能力

OpenAI
SWE-bench Verified 被弃用,因为它有缺陷的测试和训练数据污染会夸大分数,掩盖了真正的能力提升。

内容摘要

作者已停止报告 SWE-bench Verified 的分数,因为该基准测试不再是衡量前沿模型在自主软件工程方面进展的可靠指标。分析显示了两个主要问题:至少 59.4% 经过审计的问题存在有缺陷的测试用例,会拒绝功能正确的解决方案(因为测试过于严格或范围过广);并且前沿模型显示出训练数据污染的证据,因为它们能够复现最初的人工编写的“黄金补丁”或逐字的问题细节。这种污染表明,性能提升越来越多地反映了训练期间对基准测试的接触,而不是真正的现实世界软件开发能力。因此,他们建议改用 SWE-bench Pro,并正在投资开发新的、未受污染的评估(如 GDPVal)。

(来源:OpenAI)