大模型 LoRA

发布于:2025-03-07 ⋅ 阅读:(119) ⋅ 点赞:(0)

一 背景

1.随着大模型的发展,模型的参数越来越大,有的参数是十亿乃至千亿,如此大的参数,我们要进行微调,是比较困难。原因如果我们训练时候添加我们自己场景的数据后,模型原有的能力会变的很差,如果想保留原来的能力,训练也很困难。所以大佬们提出了一个方法 LoRA,可以满足原来的能力,又可以比较简单的进行微调。

二 原理

1.数学知识

回顾一下数学知识,什么是秩,矩阵秩分为行秩,列秩,行秩表示矩阵的线性无关的行的个数,列同理。在机器学习中,我们使用一个全连接,我们计算这个矩阵的秩,就能确定那些特征是重要的。我们可以用一个低维度近似表示高维度的矩阵。我们可以在原始的矩阵空间中,使用少数的维度组合,就能捕捉大部分信息。
数学公式 : h = W0x + ∆W x = W0x + BAx
公式中,W0表示预训练模型参数,X表示输入数据。∆W表示新的权重,我们需要训练的。新的权重我们可以拆分为两个矩阵A和B,为啥要拆分为两个矩阵了,原因是减少参数,一个为升维矩阵,一个降维矩阵。

2.算法流程

当我们微调时候,我们不更新预训练权重,我们去更新∆W,然后把∆W更新好的权重直接和原始预训练权重相加。在推理时候,不会参数额外延时。
在这里插入图片描述

3举例说明

假设我们预训练权重大小是 1000 * 1000 的矩阵,我们的A矩阵可以是1000 * 4, B矩阵可以是4 * 1000 ,根据矩阵的乘法A*B最终的矩阵大小是 1000 * 1000 ,然后和原始的矩阵相加。就这样完成了我们微调,思想就是这样的。

三 代码复现

import numpy as np
import torch
import math

input_dim  = 1000
output_dim = 1000

rank = 4

W = torch.randn(input_dim, output_dim)
W_A = torch.nn.Parameter(torch.empty(input_dim, rank))
W_B = torch.nn.Parameter(torch.empty(rank, input_dim))

W_A = torch.nn.init.kaiming_uniform(W_A, a=math.sqrt(5))
W_B = torch.nn.init.zeros_(W_B)

def lora_forward(x, W, W_A, W_B):
    h = x @ W
    h += x @ (W_A @ W_B) * alpha
    return h

其中W_B初始化为0,是因为刚开始,不想变化太大,应该一步一来,W_A初始化为高斯分布,比较好收敛。


网站公告

今日签到

点亮在社区的每一天
去签到