ゴブリンはどこから来たのか
概要
OpenAIは、GPT-5.1以降の言語モデルにおいて、ゴブリンやグレムリンといった生物を比喩に用いる頻度が増加していることを特定しました。調査の結果、この原因は「オタク(Nerdy)」な性格付け機能にあり、強化学習中にそれらの生物を用いた比喩が高く評価されたことがきっかけであることが判明しました。強化学習による行動は意図した範囲を超えて汎化しやすいため、この語彙の癖がプロンプト設定に関わらずモデル全体に波及しました。OpenAIは、報酬信号の削除や学習データのフィルタリングを行うことで対処し、報酬信号がいかに予期せぬ方法でAIの振る舞いを形成し得るかという重要な教訓を得ました。
(出典:OpenAI)