#OpenAI | cosine - 前端人の日常频道

#优质博文 #AI #NLP #LLM #OpenAI
Why language models hallucinate

AI 摘要：本文由 OpenAI 团队撰写，深入探讨了大语言模型(LLM)产生“幻觉”的根本原因，指出是现有训练与评估机制奖励了“猜测”而非“不确定性表达”。作者通过统计学视角分析幻觉来源，强调优化 eval (评估机制) 比单纯提升模型规模更关键，并提出需惩罚“自信的错误”，奖励恰当的不确定性表达，以推动模型更可靠和更安全。

[以下是方便搜索索引的大纲(AI 生成)，请读原文]
1. 幻觉(hallucinations)的定义与案例
• 幻觉是语言模型生成的“貌似合理但错误”的信息。
• 案例：模型对作者的博士论文题目或生日给出多个版本，全部错误。

2. 评估体系的问题 (“Teaching to the test”)
• 现有 eval 大多单纯以“准确率”为指标，导致模型倾向于胡乱作答，而不是坦率回答“不知道”。
• 类似选择题考试：盲目猜测在统计上可能比“空白不答”获得更高分数，因此模型被激励去猜。
• OpenAI 强调“谦逊”(humility)，并提出评分机制应惩罚错误多于不答，并鼓励表达不确定性。

3. 幻觉的来源机制：下一词预测 (next-word prediction)
• 预训练阶段仅基于预测下一个词，没有“真/假”标注，导致难以区分真伪信息。
• 高频模式(如拼写规则)能被可靠学习，但低频事实(如生日)因缺乏规律难以预测，从而引发幻觉。
• 低频信息与统计不可预测性导致某些类型的幻觉难以通过规模化完全消除。

4. 常见误解与澄清
• “准确率提升后幻觉会消失”：错误，因为真实世界存在无法回答的问题，因此准确率永远无法达 100%。
• “幻觉无法避免”：错误，模型可以选择“不回答”。
• “避免幻觉需更大模型”：错误，小模型有时更容易知晓自身局限。
• “幻觉是神秘 bug”：并非，已有对其统计学成因的理解。
• “仅需开发新的幻觉评测方法”：不够，只有重构主流 eval，奖励不确定性才能系统性减少幻觉。

5. 结论与未来方向
• 幻觉是评估体系与预测机制共同作用的必然产物。
• 通过惩罚“自信错误”、奖励“不确定性表达”，可以有效降低幻觉发生概率。
• OpenAI 新模型 (如 GPT‑5) 显著减少幻觉，但该问题仍是 LLM 的核心挑战，研究仍在持续推进。

author OpenAI

Openai

Why language models hallucinate

OpenAI’s new research explains why language models hallucinate. The findings show how improved evaluations can enhance AI reliability, honesty, and safety.