前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站。
https://www.captainbed.cn/north
一、神经网络简介
神经网络是一种模拟人脑神经元工作方式的机器学习模型。它由多个层次组成,每一层包含多个神经元,这些神经元通过权重和偏置连接在一起。神经网络通过前向传播和反向传播来学习和优化模型参数。
1.1 神经网络的基本结构
神经网络通常由输入层、隐藏层和输出层组成。输入层接收原始数据,隐藏层进行特征提取和转换,输出层生成最终的预测结果。
1.2 神经元的工作原理
每个神经元接收来自前一层神经元的输入,通过加权求和并加上偏置,然后通过激活函数生成输出。
z = ∑ i = 1 n w i x i + b z = \sum_{i=1}^{n} w_i x_i + b z=i=1∑nwixi+b
a = σ ( z ) a = \sigma(z) a=σ(z)
其中, w i w_i wi 是权重, x i x_i xi 是输入, b b b 是偏置, σ \sigma σ 是激活函数。
二、神经网络的训练过程
神经网络的训练过程包括前向传播和反向传播两个阶段。
2.1 前向传播
前向传播是指数据从输入层经过隐藏层到输出层的过程。每一层的神经元通过加权求和和激活函数生成输出。
import numpy as np
def sigmoid(x):
return 1 / (1 + np.exp(-x))
def forward_propagation(X, weights, biases):
layer_input = X
for w, b in zip(weights, biases):
z = np.dot(layer_input, w) + b
layer_input = sigmoid(z)
return layer_input
# 示例数据
X = np.array([[0, 0], [0, 1], [1, 0], [1, 1]])
weights = [np.array([[0.5, 0.5], [0.5, 0.5]]), np.array([[0.5], [0.5]])]
biases = [np.array([0.0, 0.0]), np.array([0.0])]
output = forward_propagation(X, weights, biases)
print(output)
2.2 反向传播
反向传播是指通过计算损失函数的梯度来更新模型参数的过程。反向传播使用链式法则来计算每一层的梯度。
def sigmoid_derivative(x):
return x * (1 - x)
def backward_propagation(X, y, weights, biases, output):
m = X.shape[0]
dZ = output - y
dW = np.dot(X.T, dZ) / m
db = np.sum(dZ, axis=0, keepdims=True) / m
return dW, db
# 示例数据
y = np.array([[0], [1], [1], [0]])
dW, db = backward_propagation(X, y, weights, biases, output)
print(dW, db)
2.3 参数更新
通过梯度下降法更新模型参数:
def update_parameters(weights, biases, dW, db, learning_rate):
for i in range(len(weights)):
weights[i] -= learning_rate * dW[i]
biases[i] -= learning_rate * db[i]
return weights, biases
# 示例数据
learning_rate = 0.1
weights, biases = update_parameters(weights, biases, dW, db, learning_rate)
print(weights, biases)
三、神经网络的类型
3.1 全连接神经网络(Fully Connected Neural Network, FCNN)
全连接神经网络是最基本的神经网络类型,每一层的神经元与下一层的所有神经元相连。
3.2 卷积神经网络(Convolutional Neural Network, CNN)
卷积神经网络主要用于图像处理任务,通过卷积层提取图像特征。
import tensorflow as tf
from tensorflow.keras import layers
model = tf.keras.Sequential([
layers.Conv2D(32, (3, 3), activation='relu', input_shape=(28, 28, 1)),
layers.MaxPooling2D((2, 2)),
layers.Conv2D(64, (3, 3), activation='relu'),
layers.MaxPooling2D((2, 2)),
layers.Flatten(),
layers.Dense(64, activation='relu'),
layers.Dense(10, activation='softmax')
])
model.summary()
3.3 循环神经网络(Recurrent Neural Network, RNN)
循环神经网络主要用于序列数据处理任务,如时间序列预测和自然语言处理。
import tensorflow as tf
from tensorflow.keras import layers
model = tf.keras.Sequential([
layers.SimpleRNN(64, return_sequences=True, input_shape=(None, 28)),
layers.SimpleRNN(64),
layers.Dense(10, activation='softmax')
])
model.summary()
四、神经网络的优化技巧
4.1 正则化
正则化用于防止模型过拟合,常用的正则化方法包括L1正则化和L2正则化。
from tensorflow.keras import regularizers
model = tf.keras.Sequential([
layers.Dense(64, activation='relu', kernel_regularizer=regularizers.l2(0.01)),
layers.Dense(10, activation='softmax')
])
4.2 Dropout
Dropout是一种随机丢弃神经元的技术,用于防止模型过拟合。
from tensorflow.keras import layers
model = tf.keras.Sequential([
layers.Dense(64, activation='relu'),
layers.Dropout(0.5),
layers.Dense(10, activation='softmax')
])
4.3 批量归一化
批量归一化用于加速训练过程并提高模型性能。
from tensorflow.keras import layers
model = tf.keras.Sequential([
layers.Dense(64, activation='relu'),
layers.BatchNormalization(),
layers.Dense(10, activation='softmax')
])
五、实战案例:手写数字识别
5.1 数据集介绍
使用MNIST数据集,包含60000张训练图像和10000张测试图像,每张图像大小为28x28像素。
5.2 模型构建
import tensorflow as tf
from tensorflow.keras import layers
model = tf.keras.Sequential([
layers.Flatten(input_shape=(28, 28)),
layers.Dense(128, activation='relu'),
layers.Dense(10, activation='softmax')
])
model.compile(optimizer='adam',
loss='sparse_categorical_crossentropy',
metrics=['accuracy'])
5.3 模型训练
mnist = tf.keras.datasets.mnist
(x_train, y_train), (x_test, y_test) = mnist.load_data()
x_train, x_test = x_train / 255.0, x_test / 255.0
model.fit(x_train, y_train, epochs=5)
5.4 模型评估
test_loss, test_acc = model.evaluate(x_test, y_test, verbose=2)
print(f"Test accuracy: {test_acc}")
六、总结
本文详细介绍了神经网络的基本结构、训练过程、常见类型和优化技巧,并通过一个实战案例展示了如何使用神经网络进行手写数字识别。希望本文能帮助读者深入理解神经网络的原理和应用,并在实际项目中灵活运用。