大语言模型（LLM）专业术语汇总-EW帮帮网

1. 训练与部署

1.1 预训练

专业：在海量无标注文本（如Common Crawl、Wikipedia）上通过自监督学习训练基础语言模型，学习通用语言表征（如GPT-3训练数据达45TB）。
通俗：AI的“通识教育阶段”，通过阅读互联网百科全书掌握基本语言规则。

1.2 微调（SFT）

专业：使用任务特定标注数据（如问答对、指令集）调整预训练模型参数，适配下游任务格式（如ChatGPT对话优化）。
通俗：针对具体岗位（如客服、翻译）进行的“职业技能培训”。

1.3 奖励模型训练

专业：通过人类标注员对模型输出排序（如A/B测试），训练一个可量化输出质量的奖励函数（Reward Model）。
通俗：教练给AI的答案“打分”，教会它分辨好坏回答。

1.4 强化学习微调（RLHF）

专业：结合奖励模型与PPO算法，优化策略模型生成符合人类偏好的输出（如Anthropic Claude的安全对齐）。
通俗：AI通过“考试评分+自我改进”循环，学会答得更得体。

2. 模型架构

2.1 Transformer

专业：基于自注意力机制的神经网络，支持并行处理长序列（如输入4096 Token），是LLM的通用基础架构（如GPT、BERT）。
通俗：AI理解语言的“中央处理器”，能同时关联全文信息。

2.2 MoE（稀疏专家模型）

专业：动态路由机制激活部分专家网络（如Mixtral-8x7B每输入仅用2个专家），提升模型容量且控制计算成本。
通俗：“专家委员会”模式，不同问题自动分配专业AI解答。

2.3 编码器-解码器

专业：编码器压缩输入语义，解码器生成目标序列（如T5统一文本到文本框架）。
通俗：AI先“听懂问题”（编码），再“组织答案”（解码）。

3. 模型类型

3.1 量化模型（INT4/INT8）

专业：将FP32权重压缩为4/8位整数，显存占用减少75%（如LLM.int4()），精度损失<1%。
通俗：模型“极限瘦身”，手机也能运行百亿参数AI。

3.2 非量化模型（FP32/FP16）

专业：保留全精度浮点数权重，训练稳定性高但推理成本高（如科研场景常用FP16）。
通俗：AI的“原装大脑”，精度最高但耗电量大。

3.2.1 FP32（单精度浮点数）

专业定义

全称：32-bit Floating Point（32位浮点数）
二进制结构：

1 位符号位 | 8 位指数位 | 23 位尾数位
───────────┬────────────┬────────────
  正负号    指数范围     小数精度

数值范围：±3.4×10³⁸
精度：约7位有效十进制数字

通俗类比

相当于数学中的“精确计算器”，适合需要高精度的场景（如财务核算），但占用存储空间较大。

LLM中的应用

训练阶段主流格式：
- 梯度计算需要高精度防止数值溢出
- 示例：训练GPT-3时全程使用FP32
显存占用：

70亿参数模型 ≈ 70亿 × 4字节 = 28 GB

3.2.2 FP16（半精度浮点数）

专业定义

全称：16-bit Floating Point（16位浮点数）
二进制结构：

1 位符号位 | 5 位指数位 | 10 位尾数位
───────────┬────────────┬────────────
  正负号    指数范围     小数精度

数值范围：±6.5×10⁴
精度：约3-4位有效十进制数字

通俗类比

相当于“便携计算器”，计算速度快、省电，但复杂运算可能舍入误差。

LLM中的应用

推理加速：
- 显存占用减半（FP32的50%）

70亿参数模型：28GB → 14GB

- 示例：ChatGPT实时响应使用FP16推理

混合精度训练：
- 结合FP16+FP32（梯度用FP32防溢出）
- 速度提升2-3倍（NVIDIA Tensor Core支持）

3.3 蒸馏模型

专业：小模型（学生）模仿大模型（教师）的输出分布，体积缩小60%保留95%性能（如DistilBERT）。
通俗：“高手带徒弟”，小模型继承大模型的经验智慧。

3.4 推理优化模型

专业：通过层融合、内核优化提升推理速度（如vLLM引擎的PagedAttention技术）。
通俗：给AI思维“装上涡轮增压”，回答快3倍。

4. 参数与规模

4.1 小型（<1B）

代表模型：Microsoft Phi-2（27亿参数）
特点：可在手机端部署（如Android App），响应延迟<100ms。

4.2 中型（1B~10B）

代表模型：Meta Llama2-7B、ChatGLM3-6B
特点：单卡消费级GPU（RTX 4090）可运行，适合企业私有化部署。

4.3 大型（10B~100B）

代表模型：GPT-4（约1.8T MoE）、Claude 3（公开版40B）
特点：需8卡A100集群，具备复杂逻辑推理与多任务泛化能力。

4.4 超大规模（>100B）

代表模型：Google Gemini Ultra、Anthropic Claude 3.5
特点：千亿级参数，需专用AI芯片（如TPU v5）集群训练，支持跨模态理解。

5. 生成策略

5.1 解码策略

贪心搜索：每一步选最高概率词，输出确定但易重复（如ATM密码生成）。
束搜索（Beam Search）：保留Top-k路径，平衡质量与多样性（如医疗报告生成）。

5.2 Top-k采样

专业：从概率最高的k个候选词中随机采样（k=50为常见值），避免低质量输出。
通俗：AI从“高分答案库”随机抽选，兼顾准确与创意。

5.3 温度控制

专业：调整Softmax概率分布陡度：P_i = exp(z_i/T)/Σexp(z_j/T)，低温（T=0.1）保守，高温（T=1.0）创意迸发。
通俗：控制AI“脑洞温度”，低温写合同，高温写诗歌。

5.4 频率惩罚

专业：基于重复次数的对数概率衰减：P(token) = P_original / (1 + λ * count)，抑制循环输出（λ=0.5~2.0）。
通俗：防AI“复读机模式”，避免同一词反复出现。

6. 评估与优化

6.1 困惑度

专业：衡量模型预测样本不确定性的指标，越低越好（GPT-4的困惑度≈10.2）。
通俗：AI答题的“迷惑程度”，数值越低说明越自信准确。

6.2 LoRA / PEFT

专业：注入可训练低秩矩阵（ΔW=BA），仅微调0.1%参数（QLoRA支持4-bit微调）。
通俗：给AI“打技能补丁”，升级专业能力不重建大脑。

6.3 RAG

专业：结合FAISS向量检索与LLM生成，通过外部知识库注入提升事实准确性（如企业知识库问答）。
通俗：AI答题前先“翻参考书”，拒绝信口开河。

7. 硬件与算力

7.1 算力

专业表述：算力（Computing Power）是计算机设备或计算系统处理信息的能力，涵盖硬件计算性能（如CPU/GPU的运算速度）与软件算法的协同效率。狭义上以每秒浮点运算次数（FLOPS） 为核心指标，用于量化理论峰值性能。
通俗类比：数字世界的“体力值”：算力决定智能设备处理任务的速度上限，如同体力越强的人工作效率越高。手机刷脸支付需0.1秒完成上亿次计算，即高算力的体现
示例：一台超算的算力为1 EFLOPS = 每秒100亿亿次浮点运算。

7.2 通用服务器

配置示例：双路Intel Xeon + 8×NVIDIA A100（80GB），支持70B模型推理。

7.3 高性能计算

技术方案：
- 张量并行（Tensor Parallelism）：单层计算拆分多GPU（如Megatron-LM）。
- 流水线并行（Pipeline Parallelism）：模型层拆分不同设备（如DeepSpeed）。

7.4 分布式部署

边缘计算：INT4量化模型 + Jetson Orin模块，工业设备本地故障诊断。
云边协同：中心云训练（H100集群） → 边缘端部署（INT4蒸馏模型）。

资料来源于网络

大语言模型（LLM）专业术语汇总

1. 训练与部署

1.1 预训练

1.2 微调（SFT）

1.3 奖励模型训练

1.4 强化学习微调（RLHF）

2. 模型架构

2.1 Transformer

2.2 MoE（稀疏专家模型）

2.3 编码器-解码器

3. 模型类型

3.1 量化模型（INT4/INT8）

3.2 非量化模型（FP32/FP16）

3.2.1 FP32（单精度浮点数）

专业定义

通俗类比

LLM中的应用

3.2.2 FP16（半精度浮点数）

专业定义

通俗类比

LLM中的应用

3.3 蒸馏模型

3.4 推理优化模型

4. 参数与规模

4.1 小型（<1B）

4.2 中型（1B~10B）

4.3 大型（10B~100B）

4.4 超大规模（>100B）

5. 生成策略

5.1 解码策略

5.2 Top-k采样

5.3 温度控制

5.4 频率惩罚

6. 评估与优化

6.1 困惑度

6.2 LoRA / PEFT

6.3 RAG

7. 硬件与算力

7.1 算力

7.2 通用服务器

7.3 高性能计算

7.4 分布式部署

网站公告

今日签到

热门文章

最新发布