大模型 LoRA

发布于：2025-03-07 ⋅ 阅读:(180) ⋅ 点赞:(0)

一背景

1.随着大模型的发展，模型的参数越来越大，有的参数是十亿乃至千亿，如此大的参数，我们要进行微调，是比较困难。原因如果我们训练时候添加我们自己场景的数据后，模型原有的能力会变的很差，如果想保留原来的能力，训练也很困难。所以大佬们提出了一个方法 LoRA，可以满足原来的能力，又可以比较简单的进行微调。

二原理

1.数学知识

回顾一下数学知识，什么是秩，矩阵秩分为行秩，列秩，行秩表示矩阵的线性无关的行的个数，列同理。在机器学习中，我们使用一个全连接，我们计算这个矩阵的秩，就能确定那些特征是重要的。我们可以用一个低维度近似表示高维度的矩阵。我们可以在原始的矩阵空间中，使用少数的维度组合，就能捕捉大部分信息。
数学公式 : h = W0x + ∆W x = W0x + BAx
公式中，W0表示预训练模型参数，X表示输入数据。∆W表示新的权重，我们需要训练的。新的权重我们可以拆分为两个矩阵A和B，为啥要拆分为两个矩阵了，原因是减少参数，一个为升维矩阵，一个降维矩阵。

2.算法流程

当我们微调时候，我们不更新预训练权重，我们去更新∆W，然后把∆W更新好的权重直接和原始预训练权重相加。在推理时候，不会参数额外延时。
在这里插入图片描述

3举例说明

假设我们预训练权重大小是 1000 * 1000 的矩阵，我们的A矩阵可以是1000 * 4， B矩阵可以是4 * 1000 ，根据矩阵的乘法A*B最终的矩阵大小是 1000 * 1000 ,然后和原始的矩阵相加。就这样完成了我们微调，思想就是这样的。

三代码复现

import numpy as np
import torch
import math

input_dim  = 1000
output_dim = 1000

rank = 4

W = torch.randn(input_dim, output_dim)
W_A = torch.nn.Parameter(torch.empty(input_dim, rank))
W_B = torch.nn.Parameter(torch.empty(rank, input_dim))

W_A = torch.nn.init.kaiming_uniform(W_A, a=math.sqrt(5))
W_B = torch.nn.init.zeros_(W_B)

def lora_forward(x, W, W_A, W_B):
    h = x @ W
    h += x @ (W_A @ W_B) * alpha
    return h

其中W_B初始化为0，是因为刚开始，不想变化太大，应该一步一来，W_A初始化为高斯分布，比较好收敛。

大模型 LoRA

一背景

二原理

1.数学知识

2.算法流程

3举例说明

三代码复现

网站公告

今日签到

热门文章

最新发布

大模型 LoRA

一 背景

二 原理

1.数学知识

2.算法流程

3举例说明

三 代码复现

网站公告

今日签到

热门文章

最新发布

一背景

二原理

三代码复现