科学家构建了有史以来最难的人工智能测试，结果令人惊讶

English 日本語 Español

ScienceDaily 2026年03月16日

研究人员创建了包含2500个问题的“人类的最后考试”（HLE），因为现有AI基准测试太简单了。

阅读全文

内容摘要

随着先进的人工智能模型在现有学术基准测试（如MMLU）上得分过高，近1000名国际研究人员开发了一种新的、严格的评估工具，名为“人类的最后考试”（HLE）。该考试包含2500个问题，涵盖古语言和高等数学等专业领域，其问题旨在需要深入、可验证的人类专业知识，并能抵御简单的互联网搜索。任何被领先AI模型答对的问题都被移除，以确保测试的难度。早期测试结果显示，即使是最强大的模型也表现不佳，GPT-4o仅得2.7%的分数，最好的模型准确率也仅在40%到50%之间。德州农工大学的Tung Nguyen博士指出，HLE衡量的是超越模式识别的深度和背景知识，强调准确的评估工具对政策制定者理解AI的真实能力和风险至关重要。HLE旨在成为一个持久的基准，大部分问题被保密以防模型死记硬背，突显了当前AI与真正人类专业知识之间仍然存在的巨大差距。

(来源：ScienceDaily)

English 日本語 Español

阅读全文

TechCrunch 2026年04月30日

Meta 表示其商业 AI 每周促成 1000 万次对话

The Verge 2026年04月30日

Meta 上个季度损失了 2000 万用户

The Verge 2026年04月30日

OpenAI的新安全模型仅面向“关键网络防御者”

The Verge 2026年04月30日

年轻人使用AI越多，就越讨厌它

TechCrunch 2026年04月30日