1 核心定义与原始论文
RAG(Retrieval-Augmented Generation)由Facebook AI Research团队于2020年提出,核心思想是将参数化记忆(预训练语言模型)与非参数化记忆(外部知识库检索)结合,解决大模型的知识静态性与幻觉问题。
原始论文信息:
Lewis, P., Perez, E., et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. Advances in Neural Information Processing Systems 33 (NeurIPS 2020), pp. 9459-9474.
论文地址:https://arxiv.org/abs/2005.11401
代码开源:https://github.com/huggingface/transformers/tree/main/examples/research_projects/rag
该论文首次提出两种边缘化范式:
- RAG-Sequence:整个输出序列基于同一组检索文档生成,公式为:
p RAG-Seq ( y ∣ x ) ≈ ∑ z ∈ top-k p η ( z ∣ x ) p θ ( y ∣ x , z ) p_{\text{RAG-Seq}}(y|x) \approx \sum_{z \in \text{top-k}} p_\eta(z|x) p_\theta(y|x,z) pRAG-Seq(y∣x)≈z∈top-k∑pη(z∣x)pθ(y∣x,z) - RAG-Token:每个token生成时可选择不同文档,灵活性更高:
p RAG-Token ( y ∣ x ) ≈ ∏ i N ∑ z ∈ top-k p η ( z ∣ x ) p θ ( y i ∣ x , z , y 1 : i − 1 ) p_{\text{RAG-Token}}(y|x) \approx \prod_i^N \sum_{z \in \text{top-k}} p_\eta(z|x) p_\theta(y_i|x,z,y_{1:i-1}) pRAG-Token(y∣x)≈i∏Nz∈top-k∑pη(z∣x)pθ(yi∣x,z,y1:i−1)
本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!
往期文章推荐:
- 20.编辑距离:理论基础、算法演进与跨领域应用
- 19.ROUGE-WE:词向量化革新的文本生成评估框架
- 18.互信息:理论框架、跨学科应用与前沿进展
- 17.表征学习:机器认知世界的核心能力与前沿突破
- 16.CodeBLEU:面向代码合成的多维度自动评估指标——原理、演进与开源实践
- 15.Rouge:面向摘要自动评估的召回导向型指标——原理、演进与应用全景
- 14.RoPE:相对位置编码的旋转革命——原理、演进与大模型应用全景
- 13.KTO:基于行为经济学的大模型对齐新范式——原理、应用与性能突破
- 12.OpenRLHF:面向超大语言模型的高性能RLHF训练框架
- 11.LIMA:大语言模型对齐的“少即是多”革命——原理、实验与范式重构
- 10.Crome:因果鲁棒奖励建模框架——破解LLM对齐中的奖励黑客难题
- 9.CIRL:因果启发的表征学习框架——从域泛化到奖励分解的因果革命
- 8.PPO:强化学习中的近端策略优化——原理、演进与大规模应用实践
- 7.直接偏好优化(DPO):原理、演进与大模型对齐新范式
- 6.LIMO:仅需817样本激活大模型数学推理能力,挑战“数据规模至上”传统范式
- 5.ReasonFlux:基于思维模板与分层强化学习的高效推理新范式
- 4.LiteCoT:难度感知的推理链压缩与高效蒸馏框架
- 3.自反馈机制(Self-Feedback)在大模型中的原理、演进与应用
- 2.复杂度优先:基于推理链复杂性的提示工程新范式
- 1.Self-Consistency:跨学科一致性的理论与AI推理的可靠性基石
2 技术架构与关键组件
RAG系统包含三阶段流水线:
- 检索器(Retriever)
- 使用双编码器架构(DPR模型),将查询与文档映射为稠密向量
- 通过最大内积搜索(MIPS) 从维基百科等知识库召回Top-K文档
- 生成器(Generator)
- 采用BART-large(400M参数)作为基础seq2seq模型
- 输入格式:原始查询与检索文档拼接为
[query; document]
- 边缘化机制(Marginalization)
- 对多文档生成结果加权融合,抑制噪声干扰
表:RAG在开放域QA任务的性能对比(NaturalQuestions数据集)
模型 | EM得分 | F1得分 |
---|---|---|
BART-large | 44.5 | 57.2 |
T5-11B | 47.2 | 59.1 |
RAG-Sequence | 53.1 | 65.9 |
RAG-Token | 54.8 | 67.2 |
数据来源:Lewis et al. (2020) NeurIPS论文 |
3 范式演进与技术增强
3.1 基础范式扩展
北京大学综述(Zhao et al., 2024)将RAG划分为四类范式:
- 查询式RAG:检索结果直接拼入输入提示(如REALM)
- 隐空间式RAG:检索内容以潜在表示融合(如FiD)
- 概率式RAG:在logit层融合检索分布(如kNN-LM)
- 推测式RAG:用检索替代部分生成以提升效率(如GPTCache)
3.2 自反思机制(Self-RAG)
华盛顿大学提出反射令牌(Reflection Tokens),实现动态决策:
- Retrieve:判断是否需要检索
- IsREL:评估文档相关性
- IsSUP:验证生成是否受文档支持
- IsUSE:评分输出有用性(1-5分)
实验显示其在事实准确性上超越ChatGPT 12.3%(FEVER数据集)。
3.3 多模态与结构化增强
- GraphRAG(Microsoft, 2024):
构建多模态知识图谱(MMKG),通过社区检测生成分层摘要,解决全局查询(如“数据集主题?”)的检索失效问题。 - MMGraphRAG(Wan et al., 2025):
融合场景图与文本KG,使用谱聚类实现跨模态实体链接,在DocBench数据集上提升长文本理解能力。
4 行业应用与评估标准
4.1 应用场景
领域 | 任务案例 | 代表性模型 |
---|---|---|
文本 | 开放域问答、事实验证 | FiD, SELF-RAG |
代码 | 程序修复、SQL生成 | SKCODER, RepoCoder |
多模态 | 图像描述、视频问答 | MMGraphRAG, ReMoDiffuse |
科学 | 药物发现、生物医学推理 | BioRAG |
数据来源:Zhao et al. (2024) RAG综述 |
4.2 评估维度
关键指标包括:
- 忠实度(Faithfulness):生成与检索内容的一致性(RAGAS指标)
- 噪声鲁棒性:从含噪文档中提取信息的能力
- 反事实鲁棒性:识别检索内容中的逻辑错误
5 局限与前沿方向
现存挑战
- 检索噪声:无关文档导致生成偏离(北大综述指出召回率-精度平衡难题)
- 上下文窗口限制:长文档导致信息丢失(GraphRAG通过社区摘要缓解)
- 跨模态对齐:图像/视频特征与文本嵌入空间不一致
未来方向
- 动态知识更新:实时索引修订机制(如RAGFoundry框架)
- 端到端优化:检索器与生成器的联合微调(如Intel RAGFoundry支持LoRA训练)
- 推理深度增强:
- DeepSieve框架(Guo et al., 2025)将LLM作为知识路由器,递归分解复杂查询
- Agentic RAG:通过多智能体协作实现检索-生成迭代优化
本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!