大语言模型(LLM)专业术语汇总

发布于:2025-07-03 ⋅ 阅读:(29) ⋅ 点赞:(0)

1. 训练与部署

1.1 预训练

  • 专业:在海量无标注文本(如Common Crawl、Wikipedia)上通过自监督学习训练基础语言模型,学习通用语言表征(如GPT-3训练数据达45TB)。
  • 通俗:AI的“通识教育阶段”,通过阅读互联网百科全书掌握基本语言规则。

1.2 微调(SFT)

  • 专业:使用任务特定标注数据(如问答对、指令集)调整预训练模型参数,适配下游任务格式(如ChatGPT对话优化)。
  • 通俗:针对具体岗位(如客服、翻译)进行的“职业技能培训”。

1.3 奖励模型训练

  • 专业:通过人类标注员对模型输出排序(如A/B测试),训练一个可量化输出质量的奖励函数(Reward Model)。
  • 通俗:教练给AI的答案“打分”,教会它分辨好坏回答。

1.4 强化学习微调(RLHF)

  • 专业:结合奖励模型与PPO算法,优化策略模型生成符合人类偏好的输出(如Anthropic Claude的安全对齐)。
  • 通俗:AI通过“考试评分+自我改进”循环,学会答得更得体。

2. 模型架构

2.1 Transformer

  • 专业:基于自注意力机制的神经网络,支持并行处理长序列(如输入4096 Token),是LLM的通用基础架构(如GPT、BERT)。
  • 通俗:AI理解语言的“中央处理器”,能同时关联全文信息。

2.2 MoE(稀疏专家模型)

  • 专业:动态路由机制激活部分专家网络(如Mixtral-8x7B每输入仅用2个专家),提升模型容量且控制计算成本。
  • 通俗:“专家委员会”模式,不同问题自动分配专业AI解答。

2.3 编码器-解码器

  • 专业:编码器压缩输入语义,解码器生成目标序列(如T5统一文本到文本框架)。
  • 通俗:AI先“听懂问题”(编码),再“组织答案”(解码)。

3. 模型类型

3.1 量化模型(INT4/INT8)

  • 专业:将FP32权重压缩为4/8位整数,显存占用减少75%(如LLM.int4()),精度损失<1%。
  • 通俗:模型“极限瘦身”,手机也能运行百亿参数AI。

3.2 非量化模型(FP32/FP16)

  • 专业:保留全精度浮点数权重,训练稳定性高但推理成本高(如科研场景常用FP16)。
  • 通俗:AI的“原装大脑”,精度最高但耗电量大。
3.2.1 FP32(单精度浮点数)
专业定义
  • 全称:32-bit Floating Point(32位浮点数)
  • 二进制结构
1 位符号位 | 8 位指数位 | 23 位尾数位
───────────┬────────────┬────────────
  正负号    指数范围     小数精度
  • 数值范围:±3.4×10³⁸
  • 精度:约7位有效十进制数字
通俗类比

相当于数学中的“精确计算器”,适合需要高精度的场景(如财务核算),但占用存储空间较大。

LLM中的应用
  • 训练阶段主流格式
    • 梯度计算需要高精度防止数值溢出
    • 示例:训练GPT-3时全程使用FP32
  • 显存占用
70亿参数模型 ≈ 70亿 × 4字节 = 28 GB

3.2.2 FP16(半精度浮点数)
专业定义
  • 全称:16-bit Floating Point(16位浮点数)
  • 二进制结构
1 位符号位 | 5 位指数位 | 10 位尾数位
───────────┬────────────┬────────────
  正负号    指数范围     小数精度
  • 数值范围:±6.5×10⁴
  • 精度:约3-4位有效十进制数字
通俗类比

相当于“便携计算器”,计算速度快、省电,但复杂运算可能舍入误差。

LLM中的应用
  1. 推理加速
    • 显存占用减半(FP32的50%)
70亿参数模型:28GB → 14GB
- 示例:ChatGPT实时响应使用FP16推理
  1. 混合精度训练
    • 结合FP16+FP32(梯度用FP32防溢出)
    • 速度提升2-3倍(NVIDIA Tensor Core支持)

3.3 蒸馏模型

  • 专业:小模型(学生)模仿大模型(教师)的输出分布,体积缩小60%保留95%性能(如DistilBERT)。
  • 通俗:“高手带徒弟”,小模型继承大模型的经验智慧。

3.4 推理优化模型

  • 专业:通过层融合、内核优化提升推理速度(如vLLM引擎的PagedAttention技术)。
  • 通俗:给AI思维“装上涡轮增压”,回答快3倍。

4. 参数与规模

4.1 小型(<1B)

  • 代表模型:Microsoft Phi-2(27亿参数)
  • 特点:可在手机端部署(如Android App),响应延迟<100ms。

4.2 中型(1B~10B)

  • 代表模型:Meta Llama2-7B、ChatGLM3-6B
  • 特点:单卡消费级GPU(RTX 4090)可运行,适合企业私有化部署。

4.3 大型(10B~100B)

  • 代表模型:GPT-4(约1.8T MoE)、Claude 3(公开版40B)
  • 特点:需8卡A100集群,具备复杂逻辑推理与多任务泛化能力。

4.4 超大规模(>100B)

  • 代表模型:Google Gemini Ultra、Anthropic Claude 3.5
  • 特点:千亿级参数,需专用AI芯片(如TPU v5)集群训练,支持跨模态理解。

5. 生成策略

5.1 解码策略

  • 贪心搜索:每一步选最高概率词,输出确定但易重复(如ATM密码生成)。
  • 束搜索(Beam Search):保留Top-k路径,平衡质量与多样性(如医疗报告生成)。

5.2 Top-k采样

  • 专业:从概率最高的k个候选词中随机采样(k=50为常见值),避免低质量输出。
  • 通俗:AI从“高分答案库”随机抽选,兼顾准确与创意。

5.3 温度控制

  • 专业:调整Softmax概率分布陡度:P_i = exp(z_i/T)/Σexp(z_j/T),低温(T=0.1)保守,高温(T=1.0)创意迸发。
  • 通俗:控制AI“脑洞温度”,低温写合同,高温写诗歌。

5.4 频率惩罚

  • 专业:基于重复次数的对数概率衰减:P(token) = P_original / (1 + λ * count),抑制循环输出(λ=0.5~2.0)。
  • 通俗:防AI“复读机模式”,避免同一词反复出现。

6. 评估与优化

6.1 困惑度

  • 专业:衡量模型预测样本不确定性的指标,越低越好(GPT-4的困惑度≈10.2)。
  • 通俗:AI答题的“迷惑程度”,数值越低说明越自信准确。

6.2 LoRA / PEFT

  • 专业:注入可训练低秩矩阵(ΔW=BA),仅微调0.1%参数(QLoRA支持4-bit微调)。
  • 通俗:给AI“打技能补丁”,升级专业能力不重建大脑。

6.3 RAG

  • 专业:结合FAISS向量检索与LLM生成,通过外部知识库注入提升事实准确性(如企业知识库问答)。
  • 通俗:AI答题前先“翻参考书”,拒绝信口开河。

7. 硬件与算力

7.1 算力

  • 专业表述:算力(Computing Power)是计算机设备或计算系统处理信息的能力,涵盖硬件计算性能(如CPU/GPU的运算速度)与软件算法的协同效率。狭义上以每秒浮点运算次数(FLOPS) 为核心指标,用于量化理论峰值性能。
  • 通俗类比数字世界的“体力值”:算力决定智能设备处理任务的速度上限,如同体力越强的人工作效率越高。手机刷脸支付需0.1秒完成上亿次计算,即高算力的体现
  • 示例:一台超算的算力为1 EFLOPS = 每秒100亿亿次浮点运算。

7.2 通用服务器

  • 配置示例:双路Intel Xeon + 8×NVIDIA A100(80GB),支持70B模型推理。

7.3 高性能计算

  • 技术方案
    • 张量并行(Tensor Parallelism):单层计算拆分多GPU(如Megatron-LM)。
    • 流水线并行(Pipeline Parallelism):模型层拆分不同设备(如DeepSpeed)。

7.4 分布式部署

  • 边缘计算:INT4量化模型 + Jetson Orin模块,工业设备本地故障诊断。
  • 云边协同:中心云训练(H100集群) → 边缘端部署(INT4蒸馏模型)。

资料来源于网络