科学者が史上最も難しいAIテストを構築、その結果は驚くべきものだった

English 中文 Español

ScienceDaily Mar 16, 2026

研究者たちは、既存のAIベンチマークが簡単すぎるため、「人類最後の試験」（HLE）という2,500問のテストを作成しました。

全文を読む

概要

先進的なAIモデルがMMLUなどの既存の学術ベンチマークで高得点を取るようになったため、国際的な研究者約1,000人が「人類最後の試験」（HLE）という、新しく厳格な評価テストを開発しました。この2,500問の試験は、古代言語や高度な数学など専門分野を網羅しており、単純なインターネット検索では対応できない、深く検証可能な人間の専門知識を要求するように設計されています。主要なAIモデルが正解できた問題は除外され、テストの難易度が維持されました。初期テストの結果、GPT-4oが2.7%のスコアを記録するなど、最先端のモデルでさえ苦戦し、最高のモデルでも正答率は40%から50%程度にとどまりました。テキサスA&M大学のTung Nguyen博士は、HLEがパターン認識を超えた深さと文脈を測定しており、AIの真の能力とリスクを理解するために正確な評価ツールが不可欠であると指摘しています。HLEは永続的なベンチマークとして設計されており、モデルが答えを暗記するのを防ぐために大部分の問題は非公開にされており、現在のAIと真の人間の専門知識との間のギャップが依然として大きいことを示しています。

(出典：ScienceDaily)

English 中文 Español

全文を読む

TechCrunch Apr 30, 2026

Meta、ビジネス向けAIが週1000万件の会話を促進していると発表

The Verge Apr 30, 2026

Metaは前四半期に2000万人のユーザーを失った

The Verge Apr 30, 2026

OpenAIの新しいセキュリティモデルは「重要なサイバーディフェンダー」専用

The Verge Apr 30, 2026

若者がAIを使うほど、AIを嫌うようになる

TechCrunch Apr 30, 2026