大模型技术演进与行业影响分析
日期:2025年3月22日
主讲人:李建忠
《DeepSeek实战驱动行业智变—AI应用寒武纪》
整理:飞书语音转化+DeepSeek分析汇总
一、技术演进:从快思考到慢思考
1. 早期争议与能力局限(2022-2023)
- 争议焦点:大语言模型(LLM)是否具备推理能力?
- 学界观点:2023年上半年,国内一线学者认为大模型本质是统计学习(概率模型),缺乏深度推理能力。
2. 系统一 vs 系统二
- 快思考(系统一):直觉式反应,占比人类日常思考95%,早期大模型主要依赖此模式(如即时响应Prompt)。
- 慢思考(系统二):逻辑推理与规划(如架构设计),需长时间深度思考,2023年9月前大模型在此能力薄弱。
3. 强化学习的突破(2024Q4)
- OpenAI O1:2024年9月推出,数学家陶哲轩评价其数学推理能力“接近初阶博士生水平”。
- DeepSeek R1:2024年12月开源,与O1同步实现推理能力跃升,开源方案获全球实验室复现认可。
二、技术创新与开源革命
1. 核心技术创新
技术 |
作用 |
意义 |
MLA(多头潜在注意力) |
减少93%显存查询,提升推理效率 |
算力受限下的性能突破 |
MoE(混合专家网络) |
DeepSeek V3集成256个专家(远超GPT-4) |
降低训练/推理负载,适配国产算力生态 |
软硬协同优化 |
底层汇编级代码优化(如PDX协议) |
探索软件定义硬件,倒逼芯片厂商适配 |
2. 开源战略
- 开源程度:模型、代码、数据全量开源(MIT协议),打破闭源垄断。
- 全球影响:欧洲、中东模型厂商加速拥抱,推动行业裂变式创新。
3. 成本革命
- 推理成本:单次响应低至0.5分人民币,与搜索引擎(Google 0.2美分)持平。
- 类比意义:类比2011年小米手机引爆移动互联网,AI应用将迎寒武纪爆发。
三、行业生态重构
1. 算力格局变化
- 预训练侧:英伟达CUDA生态仍主导(90分 vs 国产芯片6,7分)。
- 推理侧:国产芯片(昇腾等)缩小差距,开源模型推动算力需求向推理转移。
2. 模型厂商收敛
- 趋势:自研模型厂商减少至“三五家”,中小厂商转向微调/蒸馏方案。
四、AI产品范式转换
1. 技术史周期规律
- 连接→计算交替演进:
电报(连接1.0)→ 计算机(计算1.0)→ 互联网(连接2.0)→ AI(计算2.0)
- AGI预测:2035-2040年接近人类智能(库兹韦尔“奇点”理论)。
2. 范式立方体
维度 |
内容 |
大模型颠覆力 |
技术轴 |
连接(信息流通) vs 计算(智能生成) |
计算2.0重构生产力工具 |
需求轴 |
信息/搜索 > 娱乐/社交 > 商业 |
搜索与生产力颠覆快,娱乐依赖人类情感 |
模态轴 |
文本→图像→视频→3D |
多模态生成逐步成熟 |
3. 行动网络与智能体
- 核心能力:推理→规划→执行(如OpenAI Minus)。
- 未来场景:
- 智能体主动服务(异步/伴随式交互)。
- 广告、电商需适配“智能体需求”(如品牌推荐逻辑变化)。
五、人类价值壁垒
- AI优势:效率与知识(内啡肽型价值)。
- 人类壁垒:情感、创造力与生命意识(多巴胺型价值),生死观衍生爱恨情仇。
核心结论
- 技术:强化学习+开源推动推理范式革命,国产算力窗口期打开。
- 成本:推理成本平民化,AI应用爆发临界点已至。
- 产品:从“人类中心”转向“智能体中心”,行动网络重构互联网逻辑。
- 哲学:AI超越人类脑力,但情感与生命意识仍是独有护城河。