python百日百行代码挑战-day13,pytorch实现深度学习的正则化+基本的线性回归实现过程
参考
机器学习中正则化项L1和L2的直观理解
10分钟彻底搞懂L2正则化–转自台大老师李宏毅2020
Pytorch学习笔记十六:正则化
基本概念
这两天稍微补了一下正则化的知识,虽然还是有点一知半解,不过暂时先按照自己的理解记录一下吧,如果后续发现了问题也好修改。
正则化的目的
正则化目的在于减少过拟合。过拟合就是机器学的太好了,导致和训练的数据集太过契合,放在别的数据集上面反而产生了不好的效果。因此需要用正则化来消除过拟合的效果。
实现原理
正则化是通过减少网络中的参数来达到去拟合的效果,将参数本身作为一部分放到损失函数里面,因此网络会为了减少损失函数,减少一些参数的影响,就会去掉一些参数。
分类
L1正则化和L2正则化
公式
L1正则化
m i n ∣ ∣ X w − y ∣ ∣ 2 2 + α ∣ ∣ ω ∣ ∣ 1 min||X_w-y||_2^2+\alpha||\omega||_1 min∣∣Xw−y∣∣22+α∣∣ω∣∣1
L2正则化
m i n ∣ ∣ X w − y ∣ ∣ 2 2 + α ∣ ∣ ω ∣ ∣ 2 2 min||X_w-y||_2^2+\alpha||\omega||_2^2 min∣∣Xw−y∣∣22+α∣∣ω∣∣22
L1正则化用的是绝对值项
L2正则化用的是平方项
比较失败的一个代码实例
这个代码吧,就线性回归而言,挺成功的,但就是因为线性回归太成功了,没有什么过拟合,让我强行加入了一个torch的过拟合,导致加完之后效果不好了。
首先导入相关包
import numpy as np
import matplotlib.pyplot as plt
from torch import nn,optim
from torch.autograd import Variable
from torch import FloatTensor
import torch
创建数据
x_data = np.random.rand(100)
noise = np.random.normal(0,0.01,x_data.shape)
y_data = x_data*0.1+0.2+noise
plt.scatter(x_data,y_data)
plt.show()
x_data = x_data.reshape(-1,1)
y_data = y_data.reshape(-1,1)
x_data = torch.FloatTensor(x_data.astype(np.float32))
y_data = torch.FloatTensor(y_data.astype(np.float32))
inputs = Variable(x_data,requires_grad=True)
target = Variable(y_data,requires_grad=True)
后面的都是为了让数据好看一点,比如变成Tensor的类型,以及变成(100,1)的形状。
构建一个特别简单的网络
# 此处开始构建网络模型
class LinearRegression(nn.Module):
# 首先需要定义网络的结构
def __init__(self):
# 对父类的初始化
super(LinearRegression, self).__init__()
self.fc = nn.Linear(1,1) # 全连接层
# 定义网络计算过程
def forward(self,x):
out = self.fc(x)
return out
定义模型
# 定义模型
model = LinearRegression()
model_weight_decay = LinearRegression() # 这个是正则化的模型
# 定义代价函数
mse_loss = nn.MSELoss()
# 定义优化器
optimizer = optim.SGD(model.parameters(),lr = 0.1)
optim_wdecay = optim.SGD(model_weight_decay.parameters(),lr = 0.1,weight_decay=0.01) # 正则化模型的时候,要选定参数weigth_decay
参数的更改大概是:
ω i + 1 = ω i − ( ∀ L o s s ∀ ω i + λ ⋅ ω i ) \omega_{i+1}=\omega_i-(\frac{\forall Loss}{\forall \omega_i}+\lambda\cdot\omega_i) ωi+1=ωi−(∀ωi∀Loss+λ⋅ωi)
ω i + 1 = ω i ( 1 − λ ) − ∀ L o s s ∀ ω i \omega_{i+1}=\omega_i(1-\lambda)-\frac{\forall Loss}{\forall \omega_i} ωi+1=ωi(1−λ)−∀ωi∀Loss
对正常的线性回归的训练及其结果
for i in range(1001):
out = model(inputs)
out = FloatTensor(out)
# print(out.shape)
# print(target.shape)
# 计算loss
loss = mse_loss(out, target)
# 梯度清零
optimizer.zero_grad()
# 计算梯度
loss.backward()
# 修改权值
optimizer.step()
# if i%200 == 0:
# print(i,loss.item())
y_pred = model(inputs)
y_pred = FloatTensor(y_pred)
plt.scatter(x_data,y_data)
plt.plot(x_data,y_pred.data.numpy(),'r-',lw=3)
plt.show()
结果如下:
对加了正则化的训练效果如下
仔细一看,代码好像没啥不一样的地方
for i in range(1001):
out = model_weight_decay(inputs)
out = FloatTensor(out)
# print(out.shape)
# print(target.shape)
# 计算loss
loss = mse_loss(out, target)
# 梯度清零
optimizer.zero_grad()
# 计算梯度
loss.backward()
# 修改权值
optimizer.step()
if i%200 == 0:
print(i,loss.item())
y_pred = model_weight_decay(inputs)
y_pred = FloatTensor(y_pred)
plt.scatter(x_data,y_data)
plt.plot(x_data,y_pred.data.numpy(),'r-',lw=3)
plt.show()
以上实验都在本机电脑跑过,目前还没见到啥特别过拟合的实验,见到了可以发出来再记录一下
感谢亮赶和汪兔乙同学的帮助。
防火防盗防诈骗