月前上一篇文章分析了Deepseek的发展策略,继续分析和思考最近的发展。最近一个月主要在通过Lora玩AI绘画,Deepseek方面,大概看了从RLHF到GRPO的简化道路。这里的简化,一方面是对RLHF当中的四个模型的简化,比如用规则代替奖励模型等,另一方面,是适用领域的简化,首先发展容易出效果的领域。也看了关于GRPO的试验和一些问题,现在的感觉,推理模型的发展,从技术上还有很长的道路。
DeepSeek的发展
上一篇文章分析了Deepseek的发展策略,我的观点是,Deepseek接下来的主要精力应该是继续优化预训练模型V3,继续巩固低成本优势,同时完善上下游生态链。从这一个月的发展来看,一定程度上印证着我的观点,让我有动力继续思考下去。
先看Deepseek做了什么事,首先是注意力机制。梁文锋亲自挂名,公开新注意力架构NSA——这是一个用于超快长上下文训练和推断的本地可训练的稀疏注意力机制,并且还具有与硬件对齐的特点。
再就是上周的开源周,这些开源的发布,对整个生态的变革和发展关系重大。上周,连续六天的DeepSeek开源周宣告收官。在这六天内,DeepSeek先后开源了针对英伟达Hopper GPU进行优化的高效MLA解码内核FlashMLA,首个用于MoE模型训练和推理的专家并行通信库DeepEP,只有300行代码的高效FP8 GEMM库DeepGEEM,用于满血版DeepSeek V3/R1训练中计算通信重叠的双向流水线并行算法DualPipe,专家并行负载平衡器EPLB,DeepSeek的训练和推理框架的分析数据,以及专为AI训练和推理工作负载设计的高性能并行文件系统3FS,并在最后一天系统概述了DeepSeek-V3/R1推理系统。开源周项目涵盖了计算、通信和存储等AI开发核心环节,充分展示了DeepSeek在硬件优化、算法设计和分布式计算等方面的深厚技术积累。
Deepseek的这些开源成果,等于是以英伟达GPU为案例,展示了如何基于底层硬件进行性能优化。后续涉及到各种类型的GPU,在各种GPU上高效训练、推理和部署,靠Deepseek一家公司是无法完成的,通过开源,启发产业界进行各类各款GPU的相关优化,这是开源后产业链真正应该做的事情。
R1的开源,是针对推理模型解了一道题。上周的开源周,是针对大模型的行业生态发展又指明了道路。
行业的应对
那行业其他家如何应对?腾讯最简单,自己的模型不行,直接用Deepseek就是了,而且对腾讯来说,盈利模式也是清晰的,通过用户的使用,掌握每一个用户的用户画像,广告就可以盈利。只不过就是,腾讯能不能把广告这件事做得足够聪明罢了。
阿里如何选择?基于V3继续做推理模型将是为他人做嫁衣,所以选择自家的稠密模型,探索一条基于更低成本的预训练模型来发展模型推理能力,是一个合理的选择。
昨天,阿里开源全新推理模型QwQ-32B,推理的训练方法基本都是已有的套路,最大的亮点在于底座模型是基于稠密模型,“拥有 320 亿参数的模型,其性能可媲美具备 6710 亿参数(其中 370 亿被激活)的 DeepSeek-R1”。“DeepSeek的蒸馏版性能受限,而 671B 的满血版模型无法轻易部署,普通的端侧设备只能退而求其次。现在,Qwen 把模型大小打下来了”。
“QwQ 32B是一个密集模型,没有用到MoE,上下文长度有131k。”“有亚马逊工程师评价不用MoE架构的32B模型,意味着可以在单台机器上高效运行:DeepSeek没有问题,很强大,但要托管他且盈利需要一个大型集群,还需要使用DeepSeek最近开源的一系列通信库。另一方面QwQ 32B可以减少由流水线并行、专家并行带来的复杂性。”
千问的后续计划:“将更强大的基础模型与依托规模化计算资源的 RL 相结合,将会使我们更接近实现人工通用智能(AGI)。此外,我们正在积极探索将智能体与 RL 集成,以实现长时推理,目标是通过推理时间扩展来释放更高的智能”。——使用更强大的基础模型,这是自然的;与智能体集成,代表着最新的发展方向。
这个方向就是模型层和应用层的融合。来看这篇关于模型即产品的文章,其中提到最近的一些行业发展:
• OpenAI 发布的 DeepSearch 只用于高级订阅用户,根本没有提供 API 服务。
• Claude Code 的模型训练针对代码应用场景优化后,反而导致 Cursor 这样的第三方工具使用效果不佳。
• 一些曾经的“套壳公司”(wrapper公司,比如Cursor、WindSurf、Perplexity)也开始秘密训练自己的小型模型,以增强自己的竞争力。
中国 DeepSeek 创始人梁文锋则更加直接地指出了这一点:“当前的AI发展,是一场技术创新的爆炸,而非应用创新的爆炸……如果上下游生态体系还不完整,直接去押注应用并没有意义”。
我们怎么办
凉拌……预计推理大战还会发展一段时间,等过一年再回来看,现在的观点和进展,都会变成浮云。
慢慢跟着看。看两点:一看AI的技术边界,准确判断AI真的能做什么;二看问题看增量,看自己行业、自己周边的问题和增量机会。