意図的にAIを破壊する:研究者が人工知能をより安全にする方法
概要
フロリダ大学CISE学部のSumit Kumar Jha教授と彼のチームは、意図的にAIを破壊する、つまり脆弱性を発見・悪用することでAIのセキュリティ強化に取り組んでいます。彼らの研究論文「Jailbreaking the Matrix: Nullspace Steering for Controlled Model Subversion」で詳述されているアプローチは、外部からのプロンプト操作だけに頼るのではなく、大規模言語モデル(LLM)の内部的な「意思決定経路」を調査することに焦点を当てています。彼らはヘッドマスクド・ヌルスペース・ステアリング(HMNS)という手法を開発し、LLMの応答プロセスにおけるアクティブなコンポーネント(「ヘッド」)を特定し、それを無効化し、他のコンポーネントを誘導して出力の変化を観察します。MetaやMicrosoftのシステムに適用されたこの内部ストレステストは、成功率と計算効率の両方で業界ベンチマークの最先端手法を上回る高い効果を示しました。研究者たちは、この研究は悪用を可能にするためではなく、開発者がAIを病院や銀行などの重要インフラで安全に広く展開するために必要な、より堅牢な防御を構築できるよう、故障モードを明らかにするためのものであると強調しています。
(出典:News Ufl Edu)