意図的にAIを破壊する：研究者が人工知能をより安全にする方法

English 中文 Español

News Ufl Edu Feb 19, 2026

研究者たちは、AIモデルの内部セキュリティ防御を強化するために、意図的にモデルを破壊するヘッドマスクド・ヌルスペース・ステアリング（HMNS）を開発しました。

全文を読む

概要

フロリダ大学CISE学部のSumit Kumar Jha教授と彼のチームは、意図的にAIを破壊する、つまり脆弱性を発見・悪用することでAIのセキュリティ強化に取り組んでいます。彼らの研究論文「Jailbreaking the Matrix: Nullspace Steering for Controlled Model Subversion」で詳述されているアプローチは、外部からのプロンプト操作だけに頼るのではなく、大規模言語モデル（LLM）の内部的な「意思決定経路」を調査することに焦点を当てています。彼らはヘッドマスクド・ヌルスペース・ステアリング（HMNS）という手法を開発し、LLMの応答プロセスにおけるアクティブなコンポーネント（「ヘッド」）を特定し、それを無効化し、他のコンポーネントを誘導して出力の変化を観察します。MetaやMicrosoftのシステムに適用されたこの内部ストレステストは、成功率と計算効率の両方で業界ベンチマークの最先端手法を上回る高い効果を示しました。研究者たちは、この研究は悪用を可能にするためではなく、開発者がAIを病院や銀行などの重要インフラで安全に広く展開するために必要な、より堅牢な防御を構築できるよう、故障モードを明らかにするためのものであると強調しています。

(出典：News Ufl Edu)

English 中文 Español

全文を読む

TechCrunch Apr 30, 2026

ソフトバンクはデータセンターを建設するロボット企業を設立し、すでに1000億ドルのIPOを視野に入れている

Gizmodo Apr 30, 2026

Anthropicが次回の資金調達ラウンドでOpenAIの評価額を上回る計画との報道

TechCrunch Apr 30, 2026

Amazonのクラウド事業が急成長、同時に設備投資も急増

TechCrunch Apr 30, 2026

情報筋：Anthropicが9000億ドルの評価額で500億ドルの資金調達ラウンドを検討中

The Verge Apr 30, 2026