现代数字信号处理I-P2概率论学习笔记

发布于:2024-10-13 ⋅ 阅读:(13) ⋅ 点赞:(0)

目录

学习视频链接:

1. 三要素及关系

2. 期望和方差的定义及基本性质

2.1 期望(均值)定义:

在实际工作中很难获得随机变量的分布或者概率密度,用矩描述随机变量

2.2 期望基本性质:

2.3 方差定义

2.4 凸函数下期望不等式

3. 均方意义下确定参数对随机变量的最优估计

4. 两组随机变量函数映射下的最佳逼近

4.1 条件期望的引入

4.2 条件期望的性质

a. 条件期望仍然是随机变量

b. 条件期望保留了期望的线性性质

c. 条件期望的期望,是无条件期望

d. 条件期望的提出性

关于条件期望计算的一个例子:

4.3 均方意义下,利用条件期望获得一个随机变量对另外一个随机变量的最佳估计

4.4 一个随机变量对另外一个随机变量的最佳估计结论

5. 参数化模型下的最优估计

5.1 参数化模型和非参数化模型

5.2 频率学派参数化模型的最优估计

5.3 方差和偏差的Tradeoff

5.4 两种估计量的简单对比

5.5 方差与样本方差

6. 条件方差


学习视频链接:

2.概率论复习_哔哩哔哩_bilibili

1. 三要素及关系

数据(data)

模型(model)

决策(Decision)

统计:由数据总结模型

概率:给定模型做决策,模型属于先验知识

仿真:由模型产生数据,蒙特卡洛,适用于真实数据很难获得的场景

大数据:由大量数据直接做决策,此处可能由于大量数据而无法收敛到一个可靠模型

2. 期望和方差的定义及基本性质

2.1 期望(均值)定义:

在实际工作中很难获得随机变量的分布或者概率密度,用矩描述随机变量

期望是随机变量的一阶矩,是一个数。

物理中表示刚体的重心,用一个点表示一个物体。

2.2 期望基本性质:

 期望的基本性质恒成立。

2.3 方差定义

如果均值可以描述随机变量的中心未知,那么方差描述的是随机变量的散度(Dispersion)

2.4 凸函数下期望不等式

一般情况,非线性函数下期望的函数和函数的期望不相等:

对于凸函数,存在

进一步:

因此:

简单解释,凸函数图像类似:

凸函数具有性质:二阶导数大于等于0,存在任意a点,使得所有的x满足

是与有关的线性函数。

当X是随机变量,两边取期望:

此时,取,因此存在:

简单证明完毕。

3. 均方意义下确定参数对随机变量的最优估计

虑一组数据采样后得到的随机变量,现在我们需要采用一些方法去逼近该随机变量。

常用的方法,可以认为该随机变量来自于对一个确定数值的采样,因此用一个常数去尝试逼近。

在开始探讨方法之前,需要先定义逼近方法的评估手段,最常用的是比较两种数据的距离,一般我们可以采用均方误差来表示:

由于开根号在正数据域上不影响原始函数的单调性,因此可以直接去掉开根号展开优化,因此上述问题可以描述为:寻找一个待估计的常数,使得的距离最小,用数学语言描述为:

为求上述最小距离对应的,一种简便的方法是可以直接对原始函数求导,并令导数为0求得:

得到:

因此,得到此时:

换句话说,期望就是在均方距离定一下,对随机变量的固定值最佳逼近。另外,方差此时就是最佳逼近下的误差,或者也称为残差:

4. 两组随机变量函数映射下的最佳逼近

4.1 条件期望的引入

上述问题进一步延申,如果存在两种不同的随机数据XY

在统计信号处理领域,我们希望构建某种模型/函数后,完成对产生一种映射,使得:

上述属于问题变成需要寻找某个函数g,使得距离最小。这是在函数空间中寻找最优函数。属于泛函优化,比较困难,需要引入新的工具:条件期望

4.2 条件期望的性质

a. 条件期望仍然是随机变量

可以认为消除了关于X的随机特性,但条件Y的随机性却是保留的,因此是以Y有关的随机变量

上式消除了X的随机特性,但是关于Y的随机变量

b. 条件期望保留了期望的线性性质

c. 条件期望的期望,是无条件期望

形式化证明过程:

是和有关的随机变量,因此取期望需要乘的概率密度函数,再积分:

代入的定义本身:

积分合并,并交换顺序:

根据联合概率密度定义:

因此:

根据边缘概率密度定义:

因此,最终:

d. 条件期望的提出性

条件期望中存在Y的因子,可以提出:本质上算X的期望,此时条件参数Y的随机性暂时消失,此时与Y相关的都是确定性的数据:

关于条件期望计算的一个例子:

如果是独立同分布的:

那么

如果此时n如果也是随机性,即:求和的个数也具有随机性,可以采用条件期望计算,此时需要假设N与独立:

4.3 均方意义下,利用条件期望获得一个随机变量对另外一个随机变量的最佳估计

此时回到上述问题,即:

思路是将后面的暂时变成确定性的数,此时沿用上述结论,

得到的最优估计应该就是,但由于此时属于条件,因此此时的最优估计应该是,即:

根据条件期望的期望性质,得到:

此时,也就得到了的最优估计,即:

上述的过程有点草率,下面进入严格证明:

均方意义下,一个随机变量对另外一个随机变量进行逼近,最优逼近就是条件期望:

如果上式中交叉项为0,就可以直接得到上述结论,即:

因此,下面的重点寻求证明

上式中除了之外,其他都是关于的随机变量,因此,再次利用:

计算条件期望:

上式最后一般用到了在对X求期望时不存在与X有关的随机变量,此时由于:

最终:

因此,最有逼近为:

4.4 一个随机变量对另外一个随机变量的最佳估计结论

经管上述结果比较完美,但在实际工作中,由于条件期望非常难求,因此需要兼顾好算和性能优异两个指标,寻求其他的估计方法。

5. 参数化模型下的最优估计

5.1 参数化模型和非参数化模型

统计信号处理的具体工作:

获得一批采样数据:

希望通过上述数据,建立模型Model,模型一般非两类:参数化模型和非参数化模型

参数化模型:对随机数据的分布有具体认识,即知道数据服从什么分布,如:

但是分布中的参数未知。

例如,对应高斯分布:

非参数化模型:近年来,在机器学习中越来越流行,例如聚类Clustering Classification,关心的是数据分几类,但对具体的分布参数可以不感兴趣。

在统计信号处理中,我们希望构建一个有采集数据到待估计参数的映射函数:

该映射函数,可以称为是Estimator,对应机器学习中称为Feature,在统计学习中称为Feature Extraction。

5.2 频率学派参数化模型的最优估计

在频率学派的统计学范畴,我们认为待估计的参数尽管未知,但是确定的参数。

在贝叶斯派中,未知参数认为也是随机的,将在后续贝叶斯估计中展开介绍。

在确定性参数假设下,统计信号处理需要寻找:

根据刚刚的推导,最优估计应该是:

 但由于的确定性的参数,因此没有随机性:

上述过程尽管说明了就是 本身,但是没有给用户提供任何映射的函数,因此解决不了实际问题。

5.3 方差和偏差的Tradeoff

重新观察估计方差:

上式中都是确定性参数,因此交叉项为0:

因此:

上式将估计的均方误差分为了两项,即:方差+偏差

随机误差对应方差Variance,系统误差对应的是偏差Bias。

实际的估计问题中,系统误差大一点没有关系,因为该偏差可以通过校准进行纠正。

换句话说:大一点没有关系,因为里面由贡献的偏差是可以通过系统校准进行有效识别并消除

因此我们需要尽量减小随机误差

这就是在统计中需要考虑Tradeoff Bias-Variance。

5.4 两种估计量的简单对比

既然最优估计的证明过程没有给出实际可操作的映射函数,那么我们需要自己构建估计的具体映射。

例如采样一个直流信号的电压:

其中真值是A

构造一种估计:

该估计也是无偏的:

但:

因此该估计经过无偏,但是估计的方差与噪声方差一致。

我们构造另外一个估计:

显然,该估计也是无偏的:

上式中,用到了:

其中是确定性的常数。

另外,在是不相关的假定下,上式中:

因此:

对比的两种估计,尽管都是无偏估计,但是估计的方差要小于,这也是多次采样去平均的意义。

另外,当时,,该特性称为估计的Consistent相合估计。

5.5 方差与样本方差

在常规的实验中,我们一般采用如下两个公式处理数据:

数据平均的效果刚刚已经展现,

此时可以发现,样本方差的计算定义为:

其中分母不是而是,本质上是在估计方差,而除是确保该估计是无偏的。

如果在上述估计中,如果知道带估计量的真值,那么:

这样才是无偏的,但是实际中,我们不知道的真值,因此用样本平均替代替代,此时如果要保证估计的无偏性,那么需要除,此时用替代 计算的方差有,也称为是样本方差,下面是证明过程,我们计算:

其中用到了

 因此,上式为:

假定当独立同分布,那么:

因此:

代入:

而由于:

因此:

也就是:

方差的无偏估计。

6. 条件方差

基于上述已推导的结论,我们知道条件期望:

那么我们同样定义条件方差:

此时存在公式:

证明过程:

而上式中,都不存在随机变量X,因此:

因此:

其中:

而:

因此:

证明结束。