线性回归中均方差的意义

发布于:2022-12-26 ⋅ 阅读:(1148) ⋅ 点赞:(0)

 本站原创文章,转载请说明来自《老饼讲解-机器学习》ml.bbbdata.com

《老饼讲解-机器学习》--一个免费、专业、全面的机器学习网站http://ml.bbbdata.com/


目录

一、线性回归模型简单回顾

01.模型思想

02.模型表达式

03.模型损失函数

二、线性回归的误差   

三、最大似然函数   

四、最大似然函数与均方差的关系   

五、总结


线性回归中一般使用均方差作为损失函数,那均方差的背景意义是什么呢?
本文从概率的角度讲解,线性回归中均方差损失函数的实际意义。

一、线性回归模型简单回顾


01.模型思想


线性回归模型以一条直线拟合数据

02.模型表达式


线性回归的模型表达式为:

\text{Y}=XW


03.模型损失函数


线性回归的损失函数为均方差

\textbf{L}(W) =\dfrac{1}{m}\left \| (\text{y} - XW) \right \| ^2


二、线性回归的误差   


理想中 y与x的关系为\text{y} = \textbf{wx},
但由于 \text{y}除 \textbf{x} 外,还受一些未知的因素的影响,
因此,\text{y}与 \textbf{wx}并不完全相等,
它们存在误差 e=\text{y}-\textbf{w}\textbf{x}


现假设误差 e=\text{y}-\textbf{w}\textbf{x}服从正态随机分布。 
从这个假设可知,某个样本的误差为 \text{y}-\textbf{w}\textbf{x}时的概率为

p =\dfrac{1}{\sqrt{2\pi}\sigma }\textbf{exp}\left ( -\dfrac{(\text{y}-\textbf{w}\textbf{x})^2}{2\sigma ^2} \right )


三、最大似然函数   


那么,根据最大似然函数的思想,
令所有样本同时出现的概率最大化即可。


可以易得,最大似然函数如下:
\displaystyle P = \prod\limits _{i=1}^{n}p_i=\prod\limits _{i=1}^{n}\dfrac{1}{\sqrt{2\pi}\sigma }\textbf{exp}\left ( -\dfrac{(\text{y}_i-\textbf{w}\textbf{x}_i)^2}{2\sigma ^2} \right )
P的意义是,如果y=wx,P就是采到当前这种误差特征的样本集的概率。
我们希望这个概率越大越好,
线性回归的问题也就变成求一w使得P最大的纯数学问题。


四、最大似然函数与均方差的关系   


直接求一w使得P最大,不太好求,
P中含有大量连乘,可以对P加上对数来去除连乘运算,
因为加对数后的ln(P)与 P在同一w取得最大值,
因此上述问题可以转为求一w使得ln(P)最大。

\begin{aligned} \displaystyle \textbf{ln}(P) &= \textbf{ln}\left ( \prod\limits _{i=1}^{n}\dfrac{1}{\sqrt{2\pi}\sigma }\textbf{exp}\left ( -\dfrac{(\text{y}_i-\textbf{w}\textbf{x}_i)^2}{2\sigma ^2} \right ) \right ) \\&= \dfrac{1}{\sqrt{2\pi}\sigma }\sum\limits _{i=1}^{n}\textbf{ln}\left [ \textbf{exp}\left ( -\dfrac{(\text{y}_i-\textbf{w}\textbf{x}_i)^2}{2\sigma ^2} \right ) \right ] \\&= -\dfrac{1}{\sqrt{2\pi}\sigma }\sum\limits _{i=1}^{n}\dfrac{(\text{y}_i-\textbf{w}\textbf{x}_i)^2}{2\sigma ^2} \\&= -\sqrt{\dfrac{2}{\pi}}\sigma\sum\limits _{i=1}^{n}(\text{y}_i-\textbf{w}\textbf{x}_i)^2 \end{aligned}

要令  

\textbf{ln}(P)=-\sqrt{\dfrac{2}{\pi}}\sigma\sum\limits _{i=1}^{n}(\text{y}_i-\textbf{w}\textbf{x}_i)^2


最大
实际只需令

\displaystyle L = \sum\limits _{i=1}^{n}(\text{y}_i-\textbf{w}\textbf{x}_i)^2


最小 

可知,
线性回归中以均方差

\displaystyle L = \dfrac{1}{n}\sum\limits _{i=1}^{n}(\text{y}_i-\textbf{w}\textbf{x}_i)^2


作为损失函数,
实际上就是最大化样本的最大似然函数。


五、总结


所以,线性回归中,令 \displaystyle L = \sum\limits _{i=1}^{n}(\text{y}_i-\textbf{w}\textbf{x}_i)^2最小的本质意义,
是假设未知因素带来的误差服从正态分布,
求一个w,
使得采集到当前(这样的误差特征的)样本数据的概率最大。

参考文章   
《机器学习一问一答(1):线性回归》:https://zhuanlan.zhihu.com/p/75217411?from=singlemessage 


相关文章

《入门篇-环境搭建:anaconda安装》

《​​​​​​入门篇-模型:逻辑回归》

《入门篇-模型:决策树-CART》

本文含有隐藏内容,请 开通VIP 后查看