神经正切核推导（2）

发布于：2025-05-26 ⋅ 阅读:(100) ⋅ 点赞:(0)

这篇文章包括很多概念的理解

声明：

本篇文章来自于Neural Tangent Kernel （NTK）基础推导 - Gearlesskai - 博客园

旨在对上述推导过程进行再推导与理解手写推导部分与其他颜色字体为本作者所写

初始化：Kaiming Initialization / He Initialization

正如其名字，这个初始化方法是大佬何恺明ICCV 2015的工作, Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification 提出的

初始化的意义在于调整各层神经元的方差，确保不会出现梯度爆炸和梯度消失的情况。从自然科学的角度来看，可以说这样初始化调整后的网络具有某种意义上的空间平移不变性，我们希望这种“空间对称性”可以为神经网络带来一个类似“动量守恒”一样的守恒量

在何恺明之前的Xavier初始化对激活函数对称性要求较高，没有很好地考虑到激活函数为非奇函数时 E(σ(x))≠0 的情况（考虑对了量级，但是没有根据激活函数的性质调整参数），所以并不很适用于RELU这种激活函数，而何恺明考虑到了这种情况，Kaiming Initialization可以应用于非奇函数。

Assumptions

很好理解的一点是，既然我们的网络参数都已经奔着标准正态分布初始化了，那么聪明的读者当然会想到，输入的 x 肯定已经被初始化为一个符合标准正态分布的 d 维矢量（这很好做到，并且大伙都已经这么干了）

以下是本人二次推导

权重初始化代码和效果

import numpy as np


def initialize_weights(input_dim, output_dim, activation='relu'):
    # 根据激活函数选择 C_sigma
    if activation == 'relu':
        C_sigma = 2.0
    elif activation == 'tanh':
        C_sigma = 1.0
    else:
        C_sigma = 1.0  # 默认值

    # 计算方差
    variance = C_sigma / input_dim

    # 生成权重矩阵
    weights = np.random.normal(loc=0.0, scale=np.sqrt(variance), size=(input_dim, output_dim))

    return weights


# 示例
input_dim = 784  # 输入层维度
output_dim = 256  # 输出层维度
weights = initialize_weights(input_dim, output_dim, activation='relu')

print("Weights shape:", weights.shape)
print("Weights variance:", np.var(weights))

结果
Weights shape: (784, 256)
Weights variance: 0.002565874746590602

神经正切核推导（2）

初始化：Kaiming Initialization / He Initialization

Assumptions

网站公告

今日签到

热门文章

最新发布