为什么 SWE-bench Verified 不再衡量前沿编码能力

English 日本語 Español

OpenAI 2026年02月23日

SWE-bench Verified 被弃用，因为它有缺陷的测试和训练数据污染会夸大分数，掩盖了真正的能力提升。

阅读全文

内容摘要

作者已停止报告 SWE-bench Verified 的分数，因为该基准测试不再是衡量前沿模型在自主软件工程方面进展的可靠指标。分析显示了两个主要问题：至少 59.4% 经过审计的问题存在有缺陷的测试用例，会拒绝功能正确的解决方案（因为测试过于严格或范围过广）；并且前沿模型显示出训练数据污染的证据，因为它们能够复现最初的人工编写的“黄金补丁”或逐字的问题细节。这种污染表明，性能提升越来越多地反映了训练期间对基准测试的接触，而不是真正的现实世界软件开发能力。因此，他们建议改用 SWE-bench Pro，并正在投资开发新的、未受污染的评估（如 GDPVal）。

(来源：OpenAI)

English 日本語 Español

阅读全文

TechCrunch 2026年04月30日

软银正创建一家建造数据中心的机器人公司——并已瞄准1000亿美元的首次公开募股

Gizmodo 2026年04月30日

据报道 Anthropic 计划在下一轮融资中超越 OpenAI 的估值

TechCrunch 2026年04月30日

亚马逊的云业务正在飙升——其资本支出也在飙升

TechCrunch 2026年04月30日

消息人士：Anthropic 可能以 9000 亿美元的估值进行 500 亿美元的新一轮融资

The Verge 2026年04月30日