吉洪诺夫正则化随笔-EW帮帮网

前言

前几天在回顾压缩感知中的特征选择与LASSO回归发现了这个Tikhonov regularization，查了一下叫个如题的名字。先来浅说一下正则化这玩意：正则化（Regularization）是一种用来防止模型过拟合（Overfitting）的技术。过拟合指的是模型在训练数据上表现得过于完美，但是当遇到新的、未见过的数据时，模型的表现却大幅下降，即模型的泛化能力较差。这通常发生在模型过于复杂，以至于它开始捕捉训练数据中的噪声和随机波动，而不是数据背后的真实规律。
正则化通过在损失函数（Loss Function）中添加一个惩罚项（Penalty Term）来实现，这个惩罚项与模型的复杂度相关。模型越复杂，惩罚项的值就越大，从而使得损失函数的总值也越大。在训练过程中，模型会尝试同时最小化原始损失函数（如均方误差、交叉熵等）和正则化项，以达到一个平衡点。这样，正则化就鼓励模型在拟合训练数据的同时，保持较低的复杂度，从而提高模型的泛化能力。
常见的正则化方法包括：
1、L1正则化（LASSO回归）：通过在损失函数中添加模型权重的绝对值之和作为惩罚项，来鼓励模型产生稀疏的权重，即许多权重变为零。这有助于降低模型的复杂度，因为它实际上移除了对最终预测没有贡献的特征。
2、L2正则化（岭回归）：通过在损失函数中添加模型权重的平方和作为惩罚项，来防止权重变得过大。这有助于减少模型的复杂度，因为它限制了权重的大小，使得模型在拟合数据时更加平滑，不易受到极端数据点的影响。
3、Dropout：在神经网络中，Dropout通过在训练过程中随机丢弃（即将输出设置为零）一部分神经元来工作。这可以被视为一种集成方法，因为它训练了多个网络（每个都丢弃了不同的神经元），然后在测试时使用这些网络的平均输出来做预测。Dropout有效地减少了神经网络对特定神经元或连接的依赖，从而提高了模型的泛化能力。
4、早停法（Early Stopping）：虽然不是直接对模型参数进行正则化，但早停法通过监控模型在验证集上的性能，并在性能开始下降时停止训练，来防止过拟合。这可以看作是一种对训练过程的正则化。
5、弹性网络：前两种的结合。

吉洪诺夫正则化

接下来的内容就是别人的内容了，我先介绍完再做补充吧。吉洪诺夫正则化，说实话这篇文章是我搜集到的关于此内容写的比较详细的了，尤其是文中的公式推导方面。
下面说一下它的结果，还是借用他的图片说一下吧，或者明天我有时间再整理一遍

正则化的部分就是加了吉洪诺夫矩阵乘以变量 $w$ ，如果没有这项的话，结果的导数就变成了： $w=(X^{T}X)^{-1}X^{T}y$ ，也就是用 $X^{T}X+T^{T}T)^{-1}$ 代替了 $X^{T}X)$ 。
Tikhonov 正则化的本质是通过对非满秩的矩阵 $X$ 的协方差矩阵 $X^{T}X$ 加入吉洪诺夫矩阵的协方差矩阵，使得奇异的协方差矩阵 $X^{T}X$ 求逆变为非奇异矩阵 $X^{T}X+T^{T}T)^{-1}$ 的求逆，从而大大改善求解非满秩矩阵 $y = Xw$ 的数值稳定性，增加的项对其施加一个惩罚，其得到的解比仅优化 $X^{T}X$ 更切合实际。
如果这个吉洪诺夫矩阵是单位矩阵的倍数，这样说不太恰当，就是等于 $\lambda I$ 的时候，此时退化为二范数惩罚项。
对于图片中注释的矩阵求导部分，在B站上找到了相关讲解的视频：（在例题中提到）。
矩阵求导

总结

写的有些粗糙，明天再改吧哈哈哈，还有一些明天参考的文章也加上。

吉洪诺夫正则化随笔

前言

吉洪诺夫正则化

总结

网站公告

今日签到

热门文章

最新发布