深度拆解判别式推荐大模型RankGPT!生成式精排落地提速94.8%,冷启动效果飙升,还解决了传统推荐3大痛点

发布于:2025-08-30 ⋅ 阅读:(25) ⋅ 点赞:(0)

注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】

清华《GPT多模态大模型与AI Agent智能体》书籍配套视频课程【陈敬雷】

GPT多模态大模型与AI Agent智能体系列一百一二十一

深度拆解判别式推荐大模型RankGPT!生成式精排落地提速94.8%,冷启动效果飙升,还解决了传统推荐3大痛点

在生成式推荐席卷业界的当下,从Google的Tiger到Meta的HSTU,从百度COBRA到快手OneRec,各大厂都在疯狂探索这一领域。而小红书最新提出的RankGPT,不仅在生成式精排落地中交出了亮眼答卷,更用实打实的技术细节,解答了行业内关于生成式推荐的诸多疑问。这份3000字深度拆解,带你看清生成式精排从“理论热”到“落地实”的关键突破。

一、前言:生成式推荐的“赛道细分”与小红书的选择

如今的生成式推荐早已不是“一刀切”的概念,而是细分出了多个关键方向:百度COBRA主攻生成式召回,美团MTGR聚焦生成式精排,快手OneRec更是尝试“无召回一步到位”。在这条赛道上,小红书没有盲目跟风全链路创新,而是精准锁定生成式精排这一核心环节——毕竟精排直接决定用户最终看到的内容排序,是影响用户体验的“最后一公里”。

值得注意的是,小红书的研究并非孤立存在。其论文明确建议与美团MTGR技术文章结合阅读,二者虽同属生成式精排,但在样本组织、模型优化上各有侧重,堪称业界“生成式精排双案例”。而小红书的核心目标很清晰:搞懂“生成式精排为什么有效”,并拿出一套能落地、能提效、能扛住大规模业务的解决方案。

二、核心探索:生成式精排的“有效密码”到底是什么?

要做落地优化,首先得搞懂“根源”。小红书团队没有直接堆砌模型,而是从生成式精排与传统精排的两大核心差异入手,通过消融实验层层拆解,找出了生成式范式的“有效关键”。

这两大核心差异分别是:序列交互方式(传统精排用复杂特征交叉,生成式用自回归)和样本组织形式(传统是<User,Item>的point-wise单条样本,生成式是用户行为序列聚合样本)。

1. 序列交互方式:自回归不是“花架子”,是性能守护神

生成式精排的自回归交互,最典型的代表是Meta的HSTU——仅在候选Item位置计算损失,把用户信息和候选Item当作“Input Prompt”。但问题来了:LLM的自回归是为了保留预训练能力,可生成式精排没有预训练阶段,自回归真的有必要吗?

小红书用两组对比实验给出了肯定答案:

实验1:在历史行为位置额外算损失,AUC暴跌超0.01

传统思路可能觉得“多算损失能让模型学更透”,但小红书团队发现:当在历史行为位置也计算损失时,模型AUC直接下降超过0.01,哪怕只增加少量历史位置损失,效果也会明显滑坡。

背后原因是“One-Epoch问题”:历史行为ID的Embedding会被反复不合理更新,相当于模型在“死记硬背”错误的行为模式,反而偏离了“判断候选Item是否匹配用户兴趣”的核心目标。而自回归通过“只在候选位置算损失”,限制了这种不合理的参数更新,守住了排序准确性的底线。

实验2:把因果掩码换成全可见掩码,模型越大性能越差

自回归的关键配套是“因果掩码”——用户历史行为只能单向交互(前面的行为影响后面的,反之不行),符合真实的用户行为逻辑。当小红书将其换成“全可见掩码”(所有历史行为可互相交互)后,AUC下降了0.0015,且模型规模越大,性能下滑越明显。

这说明自回归的“单向交互”不是限制,而是优势:它能精准捕捉用户行为的“顺序依赖性”,比如用户先看“露营装备”再看“露营地推荐”,这种动态顺序里藏着真实兴趣变化;而全可见掩码会打乱这种顺序,让模型丢失关键的行为逻辑,自然无法精准排序。

2. 样本组织形式:聚合样本不是“有效关键”,效果提升有限

传统精排用point-wise样本(一条样本对应一次用户-物品曝光),生成式精排则把用户一段时间的行为按顺序聚合成一条样本。业界曾认为这种聚合有两大好处:一是减少特征重叠(同一请求的多个曝光样本,用户特征高度重复,会导致梯度不稳定),二是避免信息泄露(分布式训练中样本打乱,可能混入未来时间的行为)。

但小红书的实验却推翻了这个“共识”:在业务场景中,去掉用户维度的时间顺序聚合,用回point-wise样本训练,模型AUC只是“略微下降”。这意味着,生成式精排的核心优势,并不来自样本组织形式的改变——与其在样本聚合上花功夫,不如把精力放在更关键的模型结构优化上。

三、落地验证:传统推荐的“核心模块”,生成式还能用吗?

传统推荐系统里,有几个“压箱底”的核心模块:处理长序列的SIM、做个性化学习的PPNet、融合多模态的内容Embedding、应对多任务的PLE。这些模块在工业场景中经过了多年验证,如今到了生成式范式下,还能发挥作用吗?小红书用实验给出了明确结论:

  • SIM、PPNet、PLE:效果“无缝衔接”
    这三个模块在生成式范式和传统范式下,能实现几乎相当的性能提升。也就是说,企业不需要为了做生成式精排,把过去积累的个性化、长序列处理能力全部推倒重来,大大降低了落地成本。

  • 多模态内容Embedding:生成式下效果翻倍
    最让人惊喜的是多模态(如图文、视频特征)——在生成式范式下,它带来的性能提升是传统范式的两倍。小红书团队认为,这是因为生成式范式与多模态的“先验知识利用逻辑”更契合:多模态特征本身包含丰富的内容语义,而生成式模型能更好地将这些语义与用户兴趣结合,比传统精排的“特征交叉”更高效。

四、关键疑问:生成式精排真的能“告别特征工程”吗?

Meta的HSTU曾提出“去掉特征工程”,认为生成式模型能自主学习统计模式。但小红书作为真实业务场景的“实践者”,没有盲目跟风,而是通过实验给出了更务实的答案:

  • 大多数传统特征:效果“聊胜于无”
    实验发现,过去传统精排依赖的很多特征(如用户基础属性、物品静态标签),在生成式范式下带来的性能提升非常有限。这说明生成式模型确实能自主捕捉一部分模式,减少了对“人工设计特征”的依赖。

  • 实时统计特征:仍是“香饽饽”
    但有一类特征例外——基于窗口的实时统计特征(比如用户最近1小时的点击品类、最近30分钟的浏览频率),依然能给模型带来显著性能提升。这类特征提供了“即时兴趣信号”,能帮助模型快速捕捉用户的短期兴趣变化,而这正是生成式模型目前还难以完全自主学习的。

更重要的是,特征工程会带来额外的计算开销,限制模型的大规模推理。生成式范式通过减少对传统特征的依赖,再配合KV缓存等技术,能大幅提高候选Item的推理数量上限——这对小红书这样“内容量级庞大”的平台来说,是提升推荐覆盖度的关键。

五、RankGPT核心创新:两大优化实现“提速+提效”双突破

基于前面的所有探索,小红书提出了自己的生成式精排方案——RankGPT。它没有追求“颠覆式创新”,而是在关键环节做“减法”和“优化”,最终实现了“训练加速94.8%”和“离线AUC提升0.06%”的亮眼成绩。

1. Item-Action Organization:样本长度减半,计算开销大减

传统序列推荐(包括HSTU)会把“Item(物品)”和“Action(行为,如点击、收藏)”当作两个独立的Token处理,导致用户行为序列过长,计算开销居高不下。

RankGPT的思路很直接:把Item和Action合并成一个Token。具体做法是:

  • 对于历史行为:直接将Item Embedding(记为φ(x_i))和Action Embedding(记为φ(a_i))相加,作为一个Token的Embedding;
  • 对于候选Item:用一个“Mask Action Embedding(M)”加上Item Embedding,作为Token Embedding。

这样一来,用户行为序列的长度直接减半,带来的好处是“双重降本”:线性映射开销减少50%,注意力计算开销减少75%(注意力开销与序列长度的平方成正比,长度减半,开销变为原来的1/4)。无独有偶,美团MTGR也采用了类似思路,可见这是业界对“降低生成式精排计算成本”的共识解法。

同时,RankGPT还加入了“候选Item互相Mask”的机制——候选Item之间看不到彼此的信息,彻底避免了“候选Item之间信息泄露”的问题,保证了排序的公正性。

2. Position & Time Biases:线性复杂度替代二次复杂度,I/O开销大减

HSTU用“相对注意力偏置”来编码位置和时间信息,但这种方式的I/O开销是“序列长度的二次方”,序列越长,开销越大,根本扛不住大规模业务。

RankGPT设计了一套“线性复杂度”的位置&时间Embedding,由三部分组成,彻底解决了这个问题:

  • 位置Embedding(E_pe,i):根据Item在序列中的位置下标i生成,捕捉“行为先后顺序”;
  • 请求索引Embedding(E_ri,i):同一用户一次请求中的多个Item,用同一个下标表示,捕捉“同次请求的关联性”;
  • 请求前时间Embedding(E_rt,i):计算当前行为与上一次行为的时间差(Δ时间戳),并对时间差做分桶处理,捕捉“行为的时间间隔特征”。

最终,融合位置和时间信息的Item Embedding公式为:e^(p,t)_i = φ(x_i) + φ(a_i) + E_pe,i + E_ri,i + E_rt,i。

但这样还不够——位置和时间的Embedding是独立设计的,缺少“交叉信息”。为此,RankGPT引入了ALiBi位置编码,在注意力计算时加入一个额外的Bias项,既保留了线性复杂度的优势,又补上了“位置-时间交叉”的信息,兼顾了性能和效率。

六、实验效果:线上线下双丰收,冷启动成最大亮点

RankGPT的价值,最终要靠业务数据来验证。从小红书的实验结果来看,它不仅在“技术指标”上表现优异,更在“业务价值”上带来了关键突破。

1. 训练加速:94.8%的效率提升,落地成本大降

通过“Item-Action合并”和“线性复杂度偏置”两大优化,RankGPT的训练速度直接提升了94.8%——这意味着过去需要两天训练完的模型,现在一天就能完成,大幅缩短了模型迭代周期,降低了大规模训练的算力成本。

2. 离线指标:AUC提升0.06%,排序准确性更高

在离线评估中,RankGPT的AUC相比基线模型提升了0.06%。看似微小的数字,在推荐系统中却意义重大——AUC每提升0.01%,都可能带来线上点击率、转化率的显著增长,这是模型“精准度”的直接证明。

3. 线上AB实验:核心指标飙升,冷启动效果突出

线上实验的结果更让人惊喜:多个核心业务指标(如点击率、互动率、停留时长)均有显著提升。而最大的亮点是新冷内容的表现——RankGPT对新上架的冷启动内容(如新人博主的笔记、新品类商品)的推荐效果提升更明显。

小红书团队认为,这是因为生成式精排能更好地发挥“内容Embedding的世界知识”:传统精排依赖用户历史行为,对冷启动内容“无据可依”;而生成式精排能通过内容Embedding理解内容本身的语义(比如笔记的文字、图片特征),从而精准匹配到潜在兴趣用户,解决了传统推荐“冷启动难”的痛点。

此外,RankGPT的推理时延P99表现更优——这意味着在用户请求高峰期,模型也能保持稳定的响应速度,不会出现“加载慢、卡顿”的问题,兼顾了“推荐效果”和“用户体验”。

七、总结:RankGPT给生成式推荐落地的3个关键启示

小红书的RankGPT,不仅是一个技术方案,更给业界带来了关于生成式推荐落地的深度思考:

  1. 不要盲目追求“颠覆”,要在“继承”中创新:SIM、PPNet等传统模块在生成式范式下依然有效,企业无需“推倒重来”,可基于现有能力逐步迭代;
  2. “降本提效”是落地核心,而非“炫技”:RankGPT通过合并Token、优化偏置等“轻量化”创新,实现了94.8%的加速,证明生成式推荐不是“算力黑洞”,可通过技术优化适配大规模业务;
  3. 解决“传统痛点”才是价值关键:RankGPT在冷启动上的突破,说明生成式推荐的核心价值,在于解决传统推荐难以攻克的难题(如冷启动、长序列、多模态),而非单纯追求指标提升。

从Google的Tiger到小红书的RankGPT,生成式推荐正在从“概念热”走向“落地实”。而RankGPT的实践证明,只有紧扣业务场景、聚焦“效果+效率+成本”三者平衡,生成式推荐才能真正成为驱动业务增长的核心动力。

下一篇内容详解更多…

更多技术内容

更多技术内容可参见
清华《GPT多模态大模型与AI Agent智能体》书籍配套视频【陈敬雷】
更多的技术交流和探讨也欢迎加我个人微信chenjinglei66。

总结

此文章有对应的配套新书教材和视频:

【配套新书教材】
《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】
新书特色:《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)是一本2025年清华大学出版社出版的图书,作者是陈敬雷,本书深入探讨了GPT多模态大模型与AI Agent智能体的技术原理及其在企业中的应用落地。
全书共8章,从大模型技术原理切入,逐步深入大模型训练及微调,还介绍了众多国内外主流大模型。LangChain技术、RAG检索增强生成、多模态大模型等均有深入讲解。对AI Agent智能体,从定义、原理到主流框架也都进行了深入讲解。在企业应用落地方面,本书提供了丰富的案例分析,如基于大模型的对话式推荐系统、多模态搜索、NL2SQL数据即席查询、智能客服对话机器人、多模态数字人,以及多模态具身智能等。这些案例不仅展示了大模型技术的实际应用,也为读者提供了宝贵的实践经验。
本书适合对大模型、多模态技术及AI Agent感兴趣的读者阅读,也特别适合作为高等院校本科生和研究生的教材或参考书。书中内容丰富、系统,既有理论知识的深入讲解,也有大量的实践案例和代码示例,能够帮助学生在掌握理论知识的同时,培养实际操作能力和解决问题的能力。通过阅读本书,读者将能够更好地理解大模型技术的前沿发展,并将其应用于实际工作中,推动人工智能技术的进步和创新。

【配套视频】

清华《GPT多模态大模型与AI Agent智能体》书籍配套视频【陈敬雷】
视频特色: 前沿技术深度解析,把握行业脉搏

实战驱动,掌握大模型开发全流程

智能涌现与 AGI 前瞻,抢占技术高地

上一篇:《GPT多模态大模型与AI Agent智能体》系列一》大模型技术原理 - 大模型技术的起源、思想
下一篇:DeepSeek大模型技术系列五》DeepSeek大模型基础设施全解析:支撑万亿参数模型的幕后英雄


网站公告

今日签到

点亮在社区的每一天
去签到