大语言模型训练

发布于:2024-10-18 ⋅ 阅读:(6) ⋅ 点赞:(0)

1.两大问题

  1. 效率问题
    数据量大,如何快速完成训练
  2. 显存问题
    模型太大,如何在GPU上完成运算

2.并行训练

2.1数据并行

思路: 复制模型到多个GPU上,将训练的数据也拆分成相同份数,交由不同的GPU模型上训练,各自计算梯度后,传到某台机器上,累加,求平均,再反传到各个模型中,进行更新。这样每台机器的模型权重是一致的。

优点: 效率高,相当于一份工作分给多个人做,完成的也就块。
缺点: 要求单卡就能训练整个模型(显存够大)。

示意图:
在这里插入图片描述

2.2模型并行

思路:模型的不同层放在不同的GPU上由前往后,依次计算,最后一层计算完成后,计算loss值,则由后到前依次计算,完成各层更新。

优点: 解决单块卡不够大的问题(模型比显存大)。
缺点: 需要更多的通讯时间(卡之间互相传输数据)。并且是单向串行,因为后面的模型层必须等前面传递数据才能计算。

示意图:
在这里插入图片描述

2.3张量并行

思路: 将张量划分到不同GPU上进行运算,其本质也是一种模型并行,只是它的并行的粒度更小,小到某层网络的权重计算拆分到不同的GPU上。

优点: 进一步减少对单卡显存的需求
缺点: 需要更多的数据通讯

示意图1:最后两部分,前后拼接起来
在这里插入图片描述
示意图2:最后两部分,对位相加
在这里插入图片描述
在transformer中多头机制,每个头在一个GPU上计算。

2.4混合并行

介绍: BLOOM模型训练时采用的并行计算结构,并且是混合并行,即采用数据并行:将数据拆分为4组,又采用模型并行,将模型层拆分到12组GPU上,进行流水线计算;在每一组GPU上,将分到该组上的模型层,再采用张量并行的原则进行计算。

示意图:
在这里插入图片描述

3.权重计算

3.1浮点数

三种浮点数的格式:
在这里插入图片描述
简介: FP32、FP16都是原有计算的浮点数数据格式,为了机器学习的,设计了BF16的格式。8个bit为1字节。

浮点数表示公式:
在这里插入图片描述
注意: 指数E影响的是浮点数的大小范围,而尾数M则影响浮点数的小数位数,即浮点数精确度。

举例:

例:25.125 D = 十进制 B = 二进制
整数部分:25(D) = 11001(B)
小数部分:0.125(D) = 0.001(B)
用二进制科学计数法表示:25.125(D) = 11001.001(B) = 1.1001001 * 2^4(B)
符号位 S = 0
尾数 M = 1.001001 = 001001(去掉1,隐藏位)
指数 E = 4 + 127(中间数) = 135(D) = 10000111(B)

图示如下:
在这里插入图片描述
精度损失举例:

将0.2(十进制)转化为二进制数:
0.2 * 2 = 0.4 -> 0
0.4 * 2 = 0.8 -> 0
0.8 * 2 = 1.6 -> 1
0.6 * 2 = 1.2 -> 1
0.2 * 2 = 0.4 -> 0(发生循环)

0.2(D) = 0.00110…(B)

由于浮点数尾数位数有限,最后只能截断,导致精度损失

例如: 0.00…(800个0)…01 + 1 = 1

3.2混合精度训练

原理: 模型在训练时,采用的是FP16位的浮点数进行的计算,在进行梯度计算,更新权重时,则采用FP32的浮点数更新。

原因: 模型在训练或者是推理时,FP16精度,一般情况下够用,为了节省资源,则不使用FP32的;但是在权重更新,计算loss时,由于有很多位小数,如果浮点数精度太低,可能导致计算出的梯度为0;无法更新权重。

在这里插入图片描述
释义:

  1. 上面图中,在模型更新这块,完整保留了一份FP32浮点数的模型权重,计算loss和更新时,是更新的该参数。
  2. 完成FP32浮点数的权重更新后,再转为FP16位的权重,放到训练中去,进行第二轮训练。

3.3deepspeed(微软)

3.3.1 ZeRO

简介: deepspeed是微软提供的一个加速框架,里面提供了数据并行、模型并行、张量并行、混合并行策略,这是主要介绍其:零冗余优化器 ZeRO。

示意图:
在这里插入图片描述
释义:

  1. stage0 指的就是数据并行模式。由于模型权重、梯度都是BF16,即2个字节,即代表MemoryConsumed的前两个2;K是指优化器的不同参数会不同,这里的优化器是adam,有3个初始化参数:m、v、t;并且都是FP32的浮点数,即4字节,所以是12
  2. stage1指的是模型并行,这里只是将Optimizer States分散到不同的机器中,这里是Nd=64,即分到64张卡上,所以MemoryConsumed最后一个参数是除以Nd。
  3. stage2指的是模型并行,这里不仅将优化器,还把梯度也分散到不同的机器/卡中,计算同上。
  4. stage3指的是模型并行,这里将优化器,梯度、参数都分散到不同的机器/卡中,是完整的模型并行模式。
    5.上面的计算都是基于全量微调的资源计算方式。

3.3.2ZeRO-offload

简介: 把一部分计算放到内存中,用CPU计算;目的是解决显存不足问题,但是CPU并行计算比较慢。
在这里插入图片描述

3.3总结

  1. 训练速度
    Stage 0 > Stage 1 > Stage 2 > Stage 2 + offload > Stage 3 > Stage 3 + offloads

  2. 显存效率(指固定显存下,能够训练的模型大小)
    Stage 0 < Stage 1 < Stage 2 < Stage 2 + offload < Stage 3 < Stage 3 + offloads

4.PEFT

简介: Parameter-Efficient Fine-Tuning;当训练整个大模型不能实现时,可以采取的一种策略;即通过最小化微调参数的数量缓解大型预训练模型的训练成本。

4.1Prompt Tuning

在这里插入图片描述
释义:

  1. 原理:即将各类任务较好的提示词进行整理,将提示词与任务问题结合,多个不同类型的任务材料和对应提示词加在一起,作为微调的语料,只是这个时候冻结模型的权重,只让embedding可以进行训练;使得embedding的结果在这些任务上能够更好的拟合后面的模型权重,使得模型能够更好的处理这些token,从而完成这些任务。

Prefix-tuning

在这里插入图片描述

4.2P-tuning & P-tuning v2

在这里插入图片描述

5.Adapter

在这里插入图片描述
释义:

  1. 上图中,左侧是一个原有的transformer结构中,添加了Adapter模型层
  2. 训练时调整的是Adapter中的FeedFoward层的参数,这样调整的参数就很小,需要的资源就可以降低。
  3. 上图中,右侧是即为Adapter的模型结构,包含两个Feedfoward层和一个激活函数
  4. Adapter中的两个FF就是训练的参数,这里会通过降维升维操作,再次降低参数量
    a. 输入Feedfowarddown-project时,矩阵为:768 * 768;FFDP为:768 * 8;FFUP为:8 * 768;
    这样就比两个FFDP和FFUP都为768 * 768参数要小的多。

优点:

  1. 加入的Adapter的参数的变化对模型的影响深远,因为添加的模型是在transformer的结构中的。
  2. 通过加入Adapter模型,与全量微调相比,训练的参数减少,降低了极大部分的训练资源开销。

缺点:
3. 增加了模型的深度,因为是和Transformer中的结构串联的。

6.LoRA

示意图:
在这里插入图片描述
释义:

  1. 上图左侧蓝色表示预训练模型的任意一个线性层;右侧表示LoRA模型,即可以在预训练模型的任意一层线性层旁边加入LoRA模型进行微调。
  2. LoRA使用的仍然是Adapter的思想,在网络中加入新的训练模型,结合原有预训练模型参数,获得对下游任务的良好表现,只是LoRA是并联
  3. 其中A、B分别可以等价于Adapter中的FFDP、FFUP两层。
  4. r就是秩;比如:W是L * H 是768 * 768;A、B分别是:768 * 8 、8 * 768;那么这里的8就是r。
  5. transformer结构中,大多数网络层都是线性的;比如Q、K、V;那么这些模型层都可以加入LoRA进行微调训练。对模型改变和影响深度非常大。
  6. 注意: 初始化A、B权重矩阵时,注意,A的权重是随机初始化的,B的权重是全部为0可以进行微调训练的原因: 为了微调的起点是预训练模型,B的权重为0,则A、B相乘为0;如果A、B都不会零,随机初始化,就会导致训练一开始,计算loss,就不是基于预训练模型进行的微调。如果A、B初始化都为零,则梯度更难计算,模型学习更加困难。
  7. LoRA有参数:r、lora_alpha、lora_dropout、target_modules;r就是降维的比例;lora_dropout就是Dropout参数;target_modules即需要加载LoRA模型的位置;加上LoRA后,可以看成:下面BAx的部分,最后BAx会乘以一个缩放参数,这个参数值是:lora_alpha与r的商
    在这里插入图片描述

优点:

  1. 加入的LoRA的模型,添加的模型层更多,可为微调的范围也就越大,更能对模型输出施加影响。
  2. 与全量微调相比,训练的参数减少,降低了极大部分的训练资源开销。
  3. 没有加深模型的整体层数和深度,模型计算更快。

7.模型推理加速(KV cache 技术)

简介: 由于并发、响应速度的需求,需要在不影响模型推理效果的基础上,提高现有模型推理速度,根据对模型的结构和计算过程的分析,在self-attention结构上,有一个非常好的改进点。

示意图:在这里插入图片描述
原理: 在Q、K、V计算时,有一个与文本等长的矩阵,计算输入中,各字词之间的要素相关性;在推理预测下一个字的过程中,矩阵的长宽是不断变大的,计算量也就不断变大;由于每次预测相较于前一次,只是增加了前一个输出的相关性,那么将前面的输出的相关性,存在缓存中,每次只计算新增的这一个输出,就会减少大量的计算量。

举例如下:
在这里插入图片描述
释义:

  1. 原有计算:将今天天气不错,全部输入到Q、K计算矩阵中,也就每次计算,都是完整的内容。
  2. 当前计算:每次计算Q、K的结果都保留到缓存中,上述内容中,当前只需要计算:这一列;前面今天天气不都直接用缓存中的即可。并且将当前的计算,也加入到缓存中。降低的计算时间、计算量。效果显著。