科学家构建了有史以来最难的人工智能测试,结果令人惊讶

ScienceDaily
研究人员创建了包含2500个问题的“人类的最后考试”(HLE),因为现有AI基准测试太简单了。

内容摘要

随着先进的人工智能模型在现有学术基准测试(如MMLU)上得分过高,近1000名国际研究人员开发了一种新的、严格的评估工具,名为“人类的最后考试”(HLE)。该考试包含2500个问题,涵盖古语言和高等数学等专业领域,其问题旨在需要深入、可验证的人类专业知识,并能抵御简单的互联网搜索。任何被领先AI模型答对的问题都被移除,以确保测试的难度。早期测试结果显示,即使是最强大的模型也表现不佳,GPT-4o仅得2.7%的分数,最好的模型准确率也仅在40%到50%之间。德州农工大学的Tung Nguyen博士指出,HLE衡量的是超越模式识别的深度和背景知识,强调准确的评估工具对政策制定者理解AI的真实能力和风险至关重要。HLE旨在成为一个持久的基准,大部分问题被保密以防模型死记硬背,突显了当前AI与真正人类专业知识之间仍然存在的巨大差距。

(来源:ScienceDaily)