科学者が史上最も難しいAIテストを構築、その結果は驚くべきものだった

ScienceDaily
研究者たちは、既存のAIベンチマークが簡単すぎるため、「人類最後の試験」(HLE)という2,500問のテストを作成しました。

概要

先進的なAIモデルがMMLUなどの既存の学術ベンチマークで高得点を取るようになったため、国際的な研究者約1,000人が「人類最後の試験」(HLE)という、新しく厳格な評価テストを開発しました。この2,500問の試験は、古代言語や高度な数学など専門分野を網羅しており、単純なインターネット検索では対応できない、深く検証可能な人間の専門知識を要求するように設計されています。主要なAIモデルが正解できた問題は除外され、テストの難易度が維持されました。初期テストの結果、GPT-4oが2.7%のスコアを記録するなど、最先端のモデルでさえ苦戦し、最高のモデルでも正答率は40%から50%程度にとどまりました。テキサスA&M大学のTung Nguyen博士は、HLEがパターン認識を超えた深さと文脈を測定しており、AIの真の能力とリスクを理解するために正確な評価ツールが不可欠であると指摘しています。HLEは永続的なベンチマークとして設計されており、モデルが答えを暗記するのを防ぐために大部分の問題は非公開にされており、現在のAIと真の人間の専門知識との間のギャップが依然として大きいことを示しています。

(出典:ScienceDaily)