市面常见的大模型各自采用了何种架构

发布于:2025-06-20 ⋅ 阅读:(28) ⋅ 点赞:(0)

针对大模型开发中主流架构及常见模型应用情况的系统梳理,综合权威技术资料整理而成:


🔧 一、主流大模型架构分类(除 Transformer 和 MoE 外)

  1. Encoder-Decoder 架构

    • 结构特点‌:编码器提取输入特征,解码器生成目标输出。
    • 典型应用‌:序列到序列任务(如翻译、摘要)。
    • 代表模型‌:T5、BART
  2. Causal Decoder-only 架构

    • 结构特点‌:仅使用 Transformer 解码器,通过因果掩码约束生成方向。
    • 适用场景‌:文本生成任务(对话、续写)。
    • 代表模型‌:GPT 系列、LLaMA、Falcon。
  3. Prefix Decoder 架构

    • 结构特点‌:输入分为固定前缀和可学习生成部分,实现可控生成。
    • 优点‌:灵活控制输出逻辑(如推理任务)。
    • 代表模型‌:GLM、CPM。
  4. 稀疏架构(Sparse Architecture)

    • 技术分类‌:稀疏注意力(如局部窗口)、动态参数激活。
    • 优势‌:降低计算复杂度(如 O(n2)→O(n)O(n2)→O(n)),支持长上下文。
    • 代表模型‌:Longformer、BigBird。
  5. 混合架构(Hybrid Designs)

    • Dense + MoE 混合‌:部分层全连接,部分层采用 MoE 结构。
    • 典型模型‌:DeepSeek-MoE、Google GLaM。

🧩 二、市面主流大模型架构应用对照表

模型名称 开发公司 主要架构 核心特点
GPT-4 OpenAI Causal Decoder-only 生成能力强,通用任务优化
GPT-5 OpenAI MoE 混合架构 1.8万亿参数,多模态支持
LLaMA-3 Meta Causal Decoder-only 开源轻量化,适配端侧设备
Gemini 1.5 Google Encoder-Decoder + MoE 百万级上下文支持
Mixtral Mistral AI MoE 架构 8专家模型,推理成本低
GLM-4 智谱AI Prefix Decoder 中文优化,可控生成
DeepSeek-V2 深度求索 MoE 架构 激活参数仅 2.4B
Qwen1.5 阿里云 Dense Decoder 架构 开源商用,平衡性能与成本
Claude 3 Anthropic 改进 Decoder-only 长上下文推理优化

💡 三、架构选择趋势分析

  1. 生成任务主导‌:Causal Decoder-only 仍是生成式模型主流(如 GPT、LLaMA)。
  2. 超大规模优化‌:MoE 和稀疏架构成为千亿级模型首选,降低计算开销。
  3. 可控性需求‌:Prefix Decoder 在需定向生成的场景(如医疗、金融)优势显著。
  4. 硬件适配‌:稀疏架构与量化技术结合,推动边缘部署(如手机端模型)。

注:当前技术迭代加速,混合架构(如 Dense+MoE)和跨模态扩展(如 GPT-5 视频生成)是 2025 年竞争焦点。


网站公告

今日签到

点亮在社区的每一天
去签到