创建全连接神经网络
创建一个最基本的全连接神经网络(也称为多层感知机,MLP)通常需要以下步骤和方法:
定义网络结构
输入层:确定输入数据的维度。例如,对于一个简单的图像分类任务,输入层的维度可能是图像的像素数量。
隐藏层:定义一个或多个隐藏层,每个隐藏层包含一定数量的神经元。隐藏层的数量和每个隐藏层的神经元数量可以根据任务需求调整。
输出层:根据任务目标确定输出层的神经元数量。例如,对于一个二分类问题,输出层通常有一个神经元;对于多分类问题,输出层的神经元数量等于类别数。
选择激活函数
隐藏层激活函数:常用的激活函数有ReLU(Rectified Linear Unit)、Sigmoid、Tanh等。ReLU是最常用的激活函数,因为它可以有效缓解梯度消失问题。
输出层激活函数:根据任务类型选择合适的激活函数。例如,对于二分类任务,输出层通常使用Sigmoid函数;对于多分类任务,输出层使用Softmax函数。
初始化权重和偏置
权重初始化:权重的初始化方法对网络的训练效果有重要影响。常见的初始化方法包括随机初始化(如Xavier初始化或He初始化)和零初始化(通常不推荐,因为会导致梯度消失)。
偏置初始化:偏置通常初始化为0或小的常数。
定义损失函数
二分类任务:通常使用二元交叉熵损失函数(Binary Cross-Entropy Loss)。
多分类任务:通常使用多类交叉熵损失函数(Categorical Cross-Entropy Loss)。
回归任务:通常使用均方误差损失函数(Mean Squared Error, MSE)。
选择优化器
SGD(随机梯度下降):最简单的优化器,通过计算梯度来更新权重。
Adam:一种自适应学习率的优化器,结合了RMSprop和Momentum的优点,通常在训练深度神经网络时表现良好。
其他优化器:如RMSprop、Adagrad等。
前向传播
在前向传播过程中,输入数据通过每一层的线性变换(权重乘法和偏置加法)和非线性激活函数,最终得到输出结果。
计算损失
使用定义的损失函数计算模型的输出与真实标签之间的差异。
反向传播
通过计算损失函数对每个权重和偏置的梯度,利用链式法则反向传播这些梯度,更新网络的权重和偏置。
训练模型
迭代地执行前向传播、计算损失和反向传播,直到模型的性能不再提升或达到预定的训练轮数。
示例:创建一个全连接神经网络,主要步骤包括:
定义模型结构。
初始化模型、损失函数和优化器。
准备数据。
训练模型。
(可选)评估模型。
你可以根据实际任务调整网络结构、损失函数和优化器等。
import numpy as np
import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
torch.manual_seed(1)
# 定义全连接神经网络类
# nn.Module神经网络父类
class Net(nn.Module):
def __init__(self, input_size):
# super,调用父类的构造函数,保证基类正确初始化
super(Net, self).__init__()
# 定义线性层1
self.fc1 = nn.Linear(input_size, 10)
# 初始化权重,何凯明均匀初始化,加快计算速度,适用于relu,有效环节梯度消失或爆炸问题
nn.init.kaiming_uniform_(self.fc1.weight)
# 初始化偏置
nn.init.zeros_(self.fc1.bias)
# 初始化线性层2
self.fc2 = nn.Linear(10, 4)
nn.init.kaiming_uniform_(self.fc2.weight)
nn.init.zeros_(self.fc2.bias)
# 初始化线性层3
self.fc3 = nn.Linear(4, 1)
# xavier 适用于sigmoid,tanh等激活函数
nn.init.xavier_uniform_(self.fc3.weight)
nn.init.zeros_(self.fc3.bias)
# 定义类方法,前向传播
def forward(self, x):
x = F.relu(self.fc1(x))
x = F.relu(self.fc2(x))
# 二分类sigmoid激活函数
x = F.sigmoid(self.fc3(x))
return x
# 初始化模型
input_size = 10
# 基于父类的功能,放入参数,自动执行前向传播的方法,计算前向传播的最终值
model = Net(input_size)
print(model)
# 定义损失函数,BCELoss二元交叉熵损失,适用于二分类,概率在0-1之间,sigmoid正好在0-1之间
criterion = nn.BCELoss()
# 优化器,自适应矩估计
optimizer = optim.Adam(model.parameters(), lr=0.01)
# 训练模型
def train(epochs):
# 打开训练模式
model.train()
# 数据准备
x = torch.randn(100, input_size)
y = torch.randint(0, 2, (100, 1)).float()
for epoch in range(epochs):
# 前向传播预测值
y_pred = model(x)
# 计算损失
loss = criterion(y_pred, y)
# 梯度清零
optimizer.zero_grad()
# 反向传播计算梯度
loss.backward()
# 更新梯度
optimizer.step()
# 打印训练效果
print(f'Epoch: {epoch}, Loss: {loss.item():.4f}')
# 测试模型
def test():
# 打开测试模式
model.eval()
x = torch.randn(100, input_size)
y = torch.randint(0, 2, (100, 1)).float()
# 预测值
with torch.no_grad():
y_pred = model(x)
# 将二分类大于0.5,变为1类,float()把false变为0.0,把true变为1.0
y_pred = (y_pred > 0.5).float()
score = (y_pred == y).float().mean().item()
print(f'Score: {score:.4f}')
if __name__ == '__main__':
epochs = 10
train(epochs)
test()
# 测试结果可能0.5左右是正常的因为所有的是随机的也就是0.5左右
激活函数的作用是在隐藏层引入非线性,使得神经网络能够学习和表示复杂的函数关系,使网络具备非线性能力,增强其表达能力。
激活函数通过引入非线性来增强神经网络的表达能力,对于解决线性模型的局限性至关重要。由于反向传播算法(BP)用于更新网络参数,因此激活函数必须是可微的,也就是说能够求导的。