呜啦!日常碎碎念,偶尔掉落优质前端博文推荐、学习资源等
网页:https://tg.cosine.ren
本频道的搜索Bot 来辣 👉 @cosSearchBot
私聊直接发消息就可以搜索啦~
🔖tags
#优质博文 #资源推荐 #博客更新 #碎碎念 #项目更新 #手工 #书摘 #阮一峰的科技周刊 #新动态

图频:Cosine 🎨 Gallery @CosineGallery
猫片: @cosine_cat
联系频道主:@cosine_yu
#优质博文 #AI #NLP #LLM #OpenAI
Why language models hallucinate

AI 摘要:本文由 OpenAI 团队撰写,深入探讨了大语言模型(LLM)产生“幻觉”的根本原因,指出是现有训练与评估机制奖励了“猜测”而非“不确定性表达”。作者通过统计学视角分析幻觉来源,强调优化 eval (评估机制) 比单纯提升模型规模更关键,并提出需惩罚“自信的错误”,奖励恰当的不确定性表达,以推动模型更可靠和更安全。

[以下是方便搜索索引的大纲(AI 生成),请读原文]
1. 幻觉(hallucinations)的定义与案例
• 幻觉是语言模型生成的“貌似合理但错误”的信息。
• 案例:模型对作者的博士论文题目或生日给出多个版本,全部错误。

2. 评估体系的问题 (“Teaching to the test”)
• 现有 eval 大多单纯以“准确率”为指标,导致模型倾向于胡乱作答,而不是坦率回答“不知道”。
• 类似选择题考试:盲目猜测在统计上可能比“空白不答”获得更高分数,因此模型被激励去猜。
• OpenAI 强调“谦逊”(humility),并提出评分机制应惩罚错误多于不答,并鼓励表达不确定性。

3. 幻觉的来源机制:下一词预测 (next-word prediction)
• 预训练阶段仅基于预测下一个词,没有“真/假”标注,导致难以区分真伪信息。
• 高频模式(如拼写规则)能被可靠学习,但低频事实(如生日)因缺乏规律难以预测,从而引发幻觉。
• 低频信息与统计不可预测性导致某些类型的幻觉难以通过规模化完全消除。

4. 常见误解与澄清
• “准确率提升后幻觉会消失”:错误,因为真实世界存在无法回答的问题,因此准确率永远无法达 100%。
• “幻觉无法避免”:错误,模型可以选择“不回答”。
• “避免幻觉需更大模型”:错误,小模型有时更容易知晓自身局限。
• “幻觉是神秘 bug”:并非,已有对其统计学成因的理解。
• “仅需开发新的幻觉评测方法”:不够,只有重构主流 eval,奖励不确定性才能系统性减少幻觉。

5. 结论与未来方向
• 幻觉是评估体系与预测机制共同作用的必然产物。
• 通过惩罚“自信错误”、奖励“不确定性表达”,可以有效降低幻觉发生概率。
• OpenAI 新模型 (如 GPT‑5) 显著减少幻觉,但该问题仍是 LLM 的核心挑战,研究仍在持续推进。


author OpenAI Why language models hallucinate
#优质博文 #AI #RAG #NodeJS #向量检索 #NLP
浅谈 RAG 并基于 NodeJS 实现基础向量检索服务

本文系统介绍了 RAG(Retrieval-Augmented Generation,检索增强生成)模型的基本原理、实际应用场景及其在 NodeJS 环境下的基础实现。作者围绕文本数据的预处理、向量化、向量检索、多路召回、召回重排,以及 LLMs(大语言模型)在流程中的作用展开,详细讲解了如何以轻量级工具搭建一个实用的 RAG 检索服务,并讨论了分片策略、编码方法、检索优化及与开箱即用方案的取舍,为构建定制化AI知识问答系统提供了开源思路和技术参考。

1. RAG 简介与应用场景
• RAG 是结合检索(Retrieval)与生成(Generation)的 AI 架构,能提升对专业领域、高时效性内容的问答、代码生成等场景的回答质量。
• 适用于最新知识获取、特定领域知识补充、提升透明度与可解释性、长尾数据检索、垂直智能问答等实际需求。
• RAG 以内容检索为核心,兼容多种方式(如向量检索、倒排索引、图谱检索等),并与 LLMs 配合工作。

2. 文本向量化流程设计
• 数据预处理包括文本清洗和分片,分片方式有固定长度、overlap 重叠、句段分割、结构分片等,应兼顾语义完整性与检索效率。
• 分片时建议结合元信息(如标题、作者、时间等)以辅助召回与重排。
• 编码方式的演变从 one-hot,TF-IDF,到更先进的 Word2Vec、Transformer-based Embedding。实际项目推荐使用现成高效模型如 all-MiniLM-L6-v2。
• 分片及编码细节优化显著影响检索召回质量和成本。

3. 向量检索与多路召回机制
• 检索的核心是计算 Query 与候选文本的向量相似度,常用余弦相似度(Cosine Similarity),因其只关注方向信息,适合高维稀疏空间。
• 采用 hnswlib-node 快速完成高维向量检索,实际实现还需与实际内容并行存储,便于元数据同步。
• 多路召回建议综合关键词检索、向量召回、图谱召回等互补方式,通过加权、融合、重排序等策略提升检索全面性和精度。

4. 召回重排(Re-Ranking)及其优化
• 初次召回后需对候选结果做重排,提升真正相关内容在前,常见方法如下:
• 传统交叉编码器(如 BERT NSP)精排。
• LLMs 或专门 ReRanker 模型(如 BGE-Reranker)基于上下文深度理解排序。
• 分片元信息和人工打标可进一步增强重排效果,提升系统最终响应准确性和相关性。
• 重排虽可提升体验,但不可避免加大系统复杂度和响应耗时,需按场景权衡。

5. LLMs 在 RAG 流程中的多重角色
• 查询改写:修正拼写、分解多意图、格式化表达、扩展关键词等,显著提高召回精准度。
• 输入优化:用LLMs提升分片、编码智能化水平,以及用于多模态信息抽取、知识图谱构建等。
• 生成增强:将高相关检索片段作为上下文,辅助 LLMs 生成更自然、连贯、有据可溯的答案,并可提升系统的可用性与信任度。
• LLMs 贯穿流程多环节,兼具结构化与半结构化内容的处理与优化能力。

6. 方案总结与工程实践建议
• RAG 作为 AI Infra 基础模块,值得深入学习和灵活定制。开箱服务适用于通用场景,复杂定制或增量优化建议自行实现。
• 流程各节点(分片、编码、检索、重排、生成)都可精调优化,针对需求选择技术方案、服务模型和参数设定。
• RAG 在提升 LLMs 时效性、知识深度、成本控制等方面具备不可替代优势。


author WindRunnerMax
 
 
Back to Top