PyTorch自动微分：从基础到实战-EW帮帮网

1. 自动微分是什么？

1.1 计算图

1.2 requires_grad 属性

2. 标量和向量的梯度计算

在深度学习中，自动微分是神经网络训练的核心机制之一。PyTorch通过torch.autograd模块提供了强大的自动微分功能，能够自动计算张量操作的梯度。今天，我们就来深入探讨PyTorch的自动微分机制，并通过一些实战案例来理解它的原理和应用。

1. 自动微分是什么？

在神经网络训练中，我们通常需要计算损失函数对模型参数的梯度，以便通过梯度下降法更新参数，从而最小化损失函数。手动计算梯度是非常繁琐且容易出错的，尤其是当网络结构复杂时。自动微分通过自动构建计算图并计算梯度，极大地简化了这一过程。

1.1 计算图

计算图是自动微分的核心概念。它是一个有向图，节点表示张量（Tensor），边表示张量之间的操作。当我们对张量进行操作时，PyTorch会自动构建一个动态计算图，并在反向传播时沿着这个图计算梯度。

例如：

在上述代码中， x 和 y 是输入张量，即叶子节点， z 是中间结果， loss 是最终输出。每一步操作都

会记录依赖关系：

z = x * y ： z 依赖于 x 和 y 。

loss = z.sum() ： loss 依赖于 z 。

这些依赖关系形成了一个动态计算图，如下所示：

1.2 `requires_grad` 属性

在PyTorch中，每个张量都有一个requires_grad属性，用于指定是否需要计算梯度。如果requires_grad=True，则该张量的所有操作都会被记录在计算图中；如果requires_grad=False，则不会记录操作，也不会计算梯度。

x = torch.tensor(1.0, requires_grad=True)
y = x ** 2
y.backward()
print(x.grad)  # 输出梯度

2. 标量和向量的梯度计算

2.1 标量梯度

当我们对一个标量进行操作时，可以直接调用backward()方法来计算梯度。

x = torch.tensor(1.0, requires_grad=True)
y = x ** 2
y.backward()
print(x.grad)  # 输出：tensor(2.)

2.2 向量梯度

对于向量，我们需要提供一个与输出形状相同的梯度张量作为backward()的参数。

x = torch.tensor([1.0, 2.0, 3.0], requires_grad=True)
y = x ** 2
y.backward(torch.tensor([1.0, 1.0, 1.0]))
print(x.grad)  # 输出：tensor([2., 4., 6.])

如果我们将输出转换为标量（例如通过求和），则可以直接调用backward()。

x = torch.tensor([1.0, 2.0, 3.0], requires_grad=True)
y = x ** 2
loss = y.sum()
loss.backward()
print(x.grad)  # 输出：tensor([2., 4., 6.])

3. 梯度上下文控制

在某些情况下，我们可能不需要计算梯度，或者希望控制梯度的计算过程。PyTorch提供了几种方式来控制梯度计算的上下文。

3.1 禁用梯度计算

使用torch.no_grad()上下文管理器可以临时禁用梯度计算。

x = torch.tensor(1.0, requires_grad=True)
with torch.no_grad():
    y = x ** 2
print(y.requires_grad)  # 输出：False

3.2 累计梯度

默认情况下，多次调用backward()会累计梯度。如果需要清零梯度，可以使用x.grad.zero_()。

x = torch.tensor([1.0, 2.0, 3.0], requires_grad=True)
for i in range(3):
    y = x ** 2
    loss = y.sum()
    if x.grad is not None:
        x.grad.zero_()
    loss.backward()
    print(x.grad)
# 输出：
        tensor([2., 4., 6.])
        tensor([2., 4., 6.])
        tensor([2., 4., 6.])

4. 梯度下降实战

4.1 求函数最小值

通过梯度下降法，我们可以找到函数的最小值。以下是一个简单的例子，通过梯度下降法找到函数y = x^2的最小值。

x = torch.tensor([3.0], requires_grad=True)
lr = 0.1
epochs = 50
for epoch in range(epochs):
    y = x ** 2
    if x.grad is not None:
        x.grad.zero_()
    y.backward()
    with torch.no_grad():
        x -= lr * x.grad
    print(f'Epoch {epoch}, x: {x.item()}, y: {y.item()}')

4.2 线性回归参数求解

我们还可以通过梯度下降法求解线性回归模型的参数。以下是一个简单的线性回归模型，通过梯度下降法求解参数a和b。

x = torch.tensor([1, 2, 3, 4, 5], dtype=torch.float)
y = torch.tensor([3, 5, 7, 9, 11], dtype=torch.float)
a = torch.tensor([1.0], requires_grad=True)
b = torch.tensor([1.0], requires_grad=True)
lr = 0.01
epochs = 1000
for epoch in range(epochs):
    y_pred = a * x + b
    loss = ((y_pred - y) ** 2).mean()
    if a.grad is not None and b.grad is not None:
        a.grad.zero_()
        b.grad.zero_()
    loss.backward()
    with torch.no_grad():
        a -= lr * a.grad
        b -= lr * b.grad
    if (epoch + 1) % 100 == 0:
        print(f'Epoch {epoch + 1}, Loss: {loss.item()}')
print(f'a: {a.item()}, b: {b.item()}')

5. 总结

通过这篇文章，我们学习了PyTorch的自动微分机制，包括：

如何构建计算图。
如何计算标量和向量的梯度。
如何控制梯度计算的上下文。
如何通过梯度下降法求解函数最小值和线性回归模型的参数。

自动微分是深度学习的核心技术之一，希望这篇文章能帮助你更好地理解和使用PyTorch的自动微分功能。

PyTorch自动微分：从基础到实战

1. 自动微分是什么？

1.1 计算图

1.2 `requires_grad` 属性

2. 标量和向量的梯度计算

2.1 标量梯度

2.2 向量梯度

3. 梯度上下文控制

3.1 禁用梯度计算

3.2 累计梯度

4. 梯度下降实战

4.1 求函数最小值

4.2 线性回归参数求解

5. 总结

网站公告

今日签到

热门文章

最新发布