妖精从何而来
内容摘要
OpenAI 发现,从 GPT-5.1 开始,其语言模型在比喻中频繁使用“妖精”、“小鬼”等生物词汇。调查显示,这一现象源于“书呆子”(Nerdy)个性定制功能,该功能在强化学习过程中给予了包含生物词汇的比喻更高的奖励。由于强化学习可能导致行为溢出到预期范围之外,这些词汇使用习惯逐渐扩散至其他对话场景中。OpenAI 通过删除奖励信号并过滤训练数据解决了这一问题,此次事件也凸显了奖励信号如何意外地塑造人工智能的行为模式。
(来源:OpenAI)