RAG:检索增强生成的范式演进、技术突破与前沿挑战

发布于:2025-07-31 ⋅ 阅读:(21) ⋅ 点赞:(0)
1 核心定义与原始论文

RAG(Retrieval-Augmented Generation)由Facebook AI Research团队于2020年提出,核心思想是将参数化记忆(预训练语言模型)与非参数化记忆(外部知识库检索)结合,解决大模型的知识静态性与幻觉问题。

原始论文信息
Lewis, P., Perez, E., et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. Advances in Neural Information Processing Systems 33 (NeurIPS 2020), pp. 9459-9474.
论文地址:https://arxiv.org/abs/2005.11401
代码开源:https://github.com/huggingface/transformers/tree/main/examples/research_projects/rag

该论文首次提出两种边缘化范式

  • RAG-Sequence:整个输出序列基于同一组检索文档生成,公式为:
    p RAG-Seq ( y ∣ x ) ≈ ∑ z ∈ top-k p η ( z ∣ x ) p θ ( y ∣ x , z ) p_{\text{RAG-Seq}}(y|x) \approx \sum_{z \in \text{top-k}} p_\eta(z|x) p_\theta(y|x,z) pRAG-Seq(yx)ztop-kpη(zx)pθ(yx,z)
  • RAG-Token:每个token生成时可选择不同文档,灵活性更高:
    p RAG-Token ( y ∣ x ) ≈ ∏ i N ∑ z ∈ top-k p η ( z ∣ x ) p θ ( y i ∣ x , z , y 1 : i − 1 ) p_{\text{RAG-Token}}(y|x) \approx \prod_i^N \sum_{z \in \text{top-k}} p_\eta(z|x) p_\theta(y_i|x,z,y_{1:i-1}) pRAG-Token(yx)iNztop-kpη(zx)pθ(yix,z,y1:i1)

本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!

往期文章推荐:

2 技术架构与关键组件

RAG系统包含三阶段流水线:

  1. 检索器(Retriever)
    • 使用双编码器架构(DPR模型),将查询与文档映射为稠密向量
    • 通过最大内积搜索(MIPS) 从维基百科等知识库召回Top-K文档
  2. 生成器(Generator)
    • 采用BART-large(400M参数)作为基础seq2seq模型
    • 输入格式:原始查询与检索文档拼接为[query; document]
  3. 边缘化机制(Marginalization)
    • 对多文档生成结果加权融合,抑制噪声干扰

表:RAG在开放域QA任务的性能对比(NaturalQuestions数据集)

模型 EM得分 F1得分
BART-large 44.5 57.2
T5-11B 47.2 59.1
RAG-Sequence 53.1 65.9
RAG-Token 54.8 67.2
数据来源:Lewis et al. (2020) NeurIPS论文
3 范式演进与技术增强
3.1 基础范式扩展

北京大学综述(Zhao et al., 2024)将RAG划分为四类范式:

  • 查询式RAG:检索结果直接拼入输入提示(如REALM)
  • 隐空间式RAG:检索内容以潜在表示融合(如FiD)
  • 概率式RAG:在logit层融合检索分布(如kNN-LM)
  • 推测式RAG:用检索替代部分生成以提升效率(如GPTCache)
3.2 自反思机制(Self-RAG)

华盛顿大学提出反射令牌(Reflection Tokens),实现动态决策:

  1. Retrieve:判断是否需要检索
  2. IsREL:评估文档相关性
  3. IsSUP:验证生成是否受文档支持
  4. IsUSE:评分输出有用性(1-5分)
    实验显示其在事实准确性上超越ChatGPT 12.3%(FEVER数据集)。
3.3 多模态与结构化增强
  • GraphRAG(Microsoft, 2024):
    构建多模态知识图谱(MMKG),通过社区检测生成分层摘要,解决全局查询(如“数据集主题?”)的检索失效问题。
  • MMGraphRAG(Wan et al., 2025):
    融合场景图与文本KG,使用谱聚类实现跨模态实体链接,在DocBench数据集上提升长文本理解能力。
4 行业应用与评估标准
4.1 应用场景
领域 任务案例 代表性模型
文本 开放域问答、事实验证 FiD, SELF-RAG
代码 程序修复、SQL生成 SKCODER, RepoCoder
多模态 图像描述、视频问答 MMGraphRAG, ReMoDiffuse
科学 药物发现、生物医学推理 BioRAG
数据来源:Zhao et al. (2024) RAG综述
4.2 评估维度

关键指标包括:

  • 忠实度(Faithfulness):生成与检索内容的一致性(RAGAS指标)
  • 噪声鲁棒性:从含噪文档中提取信息的能力
  • 反事实鲁棒性:识别检索内容中的逻辑错误
5 局限与前沿方向
现存挑战
  • 检索噪声:无关文档导致生成偏离(北大综述指出召回率-精度平衡难题)
  • 上下文窗口限制:长文档导致信息丢失(GraphRAG通过社区摘要缓解)
  • 跨模态对齐:图像/视频特征与文本嵌入空间不一致
未来方向
  1. 动态知识更新:实时索引修订机制(如RAGFoundry框架)
  2. 端到端优化:检索器与生成器的联合微调(如Intel RAGFoundry支持LoRA训练)
  3. 推理深度增强
    • DeepSieve框架(Guo et al., 2025)将LLM作为知识路由器,递归分解复杂查询
    • Agentic RAG:通过多智能体协作实现检索-生成迭代优化

本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!


网站公告

今日签到

点亮在社区的每一天
去签到