朴素贝叶斯法-EW帮帮网

文章目录

贝叶斯定理

前置知识：条件概率、全概率、贝叶斯公式

推荐视频，看完视频后搜索博客了解先验概率、后验概率

这里简单记录一下

贝叶斯定理：已知结果找原因/过程

已知事件B发生，求事件 $A_i$ 是原因的概率 $\frac{P(Ai)P(B|Ai)}{P(B)} = \frac{P(A_iB)}{B的全概率公式}=P(类别|特征) = \frac{P(特征|类别)P{(类别)}}{P(特征)}$

通常，事件A在事件B（发生）的条件下的概率，与事件B在事件A（发生）的条件下的概率是不一样的。

这两者是有确定的关系的，贝叶斯定理就是这种关系的陈述。

每个概率都有特定的名称

1. $P(A_i)$ 是A的先验概率：基于统计的概率，是基于以往历史经验和分析得到的结果。先验不考虑B方面的因素下，人们对 $A i$ 发生概率的理解

2. $P (A i ∣ B)$ 是A的后验概率：已知事情B发生了，我们对 $A_i$ 发生的概率有了新的认识，其概率由 $P(A_i)$ 变成了 $P(A_i|B)$ 。 => 后验概率的计算要以先验概率为基础

朴素贝叶斯法的学习与分类

条件独立假设

朴素贝叶斯：朴素贝叶斯方法是基于贝叶斯定理和特征条件独立假设的分类方法。

条件独立假设：条件独立性假设就是各个特征之间互不影响，每个特征都是条件独立的。这一假设使得朴素贝叶斯法变得简单，但是有时候会牺牲一定的分类准确率。

条件独立假设的公式

X表示实例集合，Y表示类标记集合。

x是一个有n个特征的实例。

$X^{(j)}$ 表示某个实例的第j个特征。

假设特征独立公式

$P(X=x|Y=c_k)=P(X^1=x^1,...,X^n=x^n|Y=c_k)=p(X^1=x^1|Y=c_k)*...*p(,X^n|Y=c_k)=\prod_{j=1}^n P(X^{j}=x^{j}|Y=c_k)$

朴素贝叶斯的后验概率最大化准则

朴素贝叶斯的基本公式

1.后验概率根据贝叶斯定理计算

$P(Y=c_k|X=x)=\frac{P(X=x|Y=c_k)P(Y=c_k)}{P(X=x)}=\frac{P(X=x|Y=c_k)P(Y=c_k)}{\sum_k P(X=x|Y=c_k)P(Y=c_k))}$

2.将条件独立假设公式代入

朴素贝叶斯分类的核心思想：对于给出的待分类样本，求解在此样本出现的条件下各个类别出现的概率，哪个最大 $P(Y=c_k|X=x)$ ，就认为此待分类样本属于哪个类别。 => 分类准则：后验概率最大化

1.朴素贝叶斯分类器就是取后验概率最大时的分类，所以我们需要比较不同分类(k=1,2,…,k)时 $P(Y=c_k|X=x)$ 的概率大小

2.不同贝叶斯分类的分母 $P (X = x)$ 都是一样，所以可以简化只比较分子的大小

$\max_{c_k}P(Y=c_k)\prod_{j} P(X^{j}=x^{j}|Y=c_k)$

argmax、argmin的说明

argmax 表示后面的表达式取最大值的时候，返回自变量 $C_k$ 的取值。

朴素贝叶斯法将样本分到后验概率最大的类，等价于此时期望风险最小化。

证明后验概率最大化 <=> 期望风险最小化

假设选择0-1损失函数，其中f(X)为分类决策函数。与真实类别Y比较，相等即没有损失，不相等则损失为1。

$\begin{cases} 1, Y\neq{f(X)} \\ 0 ,Y=f(X) \end{cases}$

期望风险：对损失函数 $L (Y, f (X))$ 求期望 $R (f) = E [L (Y, f (X))]$

期望的定义为：值出现的概率*具体的值累计值，在这里就是损失函数值*联合概率累计值

套入二维随机变量函数的期望公式

期望风险最小化可以转换为以下式子：

$\sum_Y L(Y,f(X))P(y|x) = min \sum_{k=1}^kL(C_k,f(X))P(C_k|X)$

对于一个确定输入的X=x，判断输出类y为哪一个时，损失期望最小。f(x)对应的类y需要满足的条件是使得期望风险最小化。

$\min_{y \in Y} \sum_{k=1}^kL(C_k,f(x))P(C_k|X=x)$

$C_k$ 为输出空间中的某一个类。如果 $C_k = y$ ，则说明此时损失函数的值为0，因此在累加的过程中不用计算(0乘任何数结果为0)，换句话说，只累加损失值为1的情况。

$\min_{y \in Y} \sum_{k=1}^kP(y\neq{C_k}|X=x) = arg min_{y \in Y} \sum_{k=1}^k(1-P(y={C_k}|X=x)) = arg \max_{y\in Y}P(y=C_k|X=x)$

根据期望风险最小化 => 得到后验概率最大化

朴素贝叶斯法的参数估计

极大似然估计

在朴素贝叶斯中，学习意味着根据训练集估计先验概率 $P(Y=c_k)$ 和条件概率 $P(X=x|Y=c_k)$ 。

根据条件独立假设公式，条件概率 $P(X=x|Y=c_k) = \prod_{j=1}^n P(X^{j}=x^{j}|Y=c_k)$

先验概率 $P(Y=c_k)$ 的极大似然估计： 属于 $c_k$ 的实例占数据集总数N的比例

$P(Y=c_k)=\frac{\sum_{i=1}^NI(y_i=c_k)}{N}$ $k = 1, 2, .., K$

I是指示函数，括号里成立取值1，不成立取值0

条件概率 $P(X=x|Y=c_k)$ 的极大似然估计:

假设第j个特征 $x^{(j)}$ 可能取值的集合为 ${a_{j1},a_{j2},...,a_{jS_{j}}\}$ ，第1个特征有 $S_1$ 个选择，第n个特征有 $S_n$ 个选择。

第j个特征取 $a_{jl}$ 的条件概率 $P(X^{j}=a_{jl}|Y=c_k)=\frac{\sum_{i=1}^NI(x_i^{(j)}=a_{jl},y_i=c_k)}{\sum_{i=1}^NI(y_i=c_k)}$ $j=1,2,...,n; l=1,2,...,S_j;k=1,2,...,K$

这里每一个特征的条件概率都需要计算，一共会计算 $K*S_1*....*S_n$ 次。

概率的核心 = n条件/n总，总个数指类别是 $c_k$ 的实例个数，符合条件的个数指类别是 $c_k$ 和第j个特征是 $a_{jl}$ 同时成立的实例个数。

朴素贝叶斯的学习与分类算法

通过学习训练数据集得到模型(得到先验概率与条件概率)，计算后验概率分布 $P(Y=c_k|X=x)$ ，将后验概率最大的类作为x实例的类输出。

输入：训练集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ，实例 $x=(x^{(1)},x^{(2)},...,x^{(n)})$

输出：实例x所属类别y

第一步：通过学习训练数据集通过极大似然法得到模型

第二步：计算输入实例x的先验概率与条件概率，计算其属于每一个类别的后验概率，选出后验概率最大的类。

例题

由下标的训练数据学习一个朴素贝叶斯分类器，并确定 $x=(2,S)^T$ 的类标记 $y$ 。表中 $X^{(1)},X^{(2)}$ 为特征，取值的集合分别为 $A_1=\{1,2,3\},A_2=\{S,M,l\}$ ,Y为类标记， $\in C=\{1,-1\}$ 。

解：本题需要比较后验概率 $P (Y = 1∣ X = x)$ 和 $P (Y = - 1∣ X = x)$ 的概率，这两个概率的分母相同，我们只需要比较分子 $P(Y=1)P(X^{(1)}=2|Y=1)P(X^{(2)}=S|Y=1)$ 和 $P(Y=-1)P(X^{(1)}=2|Y=-1)P(X^{(2)}=S|Y=-1)$ 的概率

①先计算先验概率与条件概率

②计算后验概率的分子

$P(Y=1)P(X^{(1)}=2|Y=1)P(X^{(2)}=S|Y=1)=\frac{1}{45}$

$P(Y=-1)P(X^{(1)}=2|Y=-1)P(X^{(2)}=S|Y=-1)=\frac{1}{15}$

③比较选更大的值

实例点x的类标记为 $y = - 1$

贝叶斯估计

问题： 极大似然估计可能会出现索要估计的概率值为0(0乘任何值都等于0)，这会影响后验概率的计算，使分类产生误差。

案例： 假设数据集中全是女性，那么数据集中女性的概率为1。并不是代表就没有男性，只是恰好数据集中没有。

解决方法：采用贝叶斯估计

分子加 $\lambda$ 的原因是避免值为0，分母加 $K\lambda$ （ $c_k$ 的取值有K种）的原因是保证先验概率和 $\sum_{k=1}^kP_\lambda (Y=c_k)=1$ （随机变量Y的概率分布）。

条件概率同上。

习题

按照拉普拉斯平滑估计( $\lambda=1$ )，确定 $x=(2,S)^T$ 的类标记 $y$ 。表中 $X^{(1)},X^{(2)}$ 为特征，取值的集合分别为 $A_1=\{1,2,3\},A_2=\{S,M,l\}$ ,Y为类标记， $\in C=\{1,-1\}$ 。

①先计算先验概率与条件概率

②计算后验概率的分子

$P(Y=1)P(X^{(1)}=2|Y=1)P(X^{(2)}=S|Y=1)=\frac{5}{153}$

$P(Y=-1)P(X^{(1)}=2|Y=-1)P(X^{(2)}=S|Y=-1)=\frac{28}{459}$

③比较选更大的值

实例点x的类标记为 $y = - 1$

总结

朴素贝叶斯法是典型的生成学习方法。

生成方法由训练数据学习联合概率分布 $P (X, Y) = P (Y) P (X ∣ Y)$ ，具体来说，利用训练数据学习先验概率 $P (Y)$ 与条件概率 $P (X ∣ Y)$ ，然后学习后验概率分布 $P (Y ∣ X)$ 。

概率估计方法可以是极大似然估计或贝叶斯估计

朴素贝叶斯利用贝叶斯定理与学习到的联合概率模型进行分类预测。

$P(Y|X)=\frac{P(X,Y)}{P(X)}=\frac{P(Y)P(X|Y)}{\sum_YP(Y)P(X|Y)}$

将输入的x分到后验概率最大的类y

$\max_{c_k}P(Y=c_k)\prod_{j} P(X^{j}=x^{j}|Y=c_k)$

后验概率最大等价于0-1损失函数时的期望风险最小化
朴素贝叶斯法的基本假设时条件独立性

$P(X=x|Y=c_k)=P(X^1=x^1,...,X^n=x^n|Y=c_k)=p(X^1=x^1|Y=c_k)*...*p(,X^n|Y=c_k)=\prod_{j=1}^n P(X^{j}=x^{j}|Y=c_k)$

这是一个较强的假设。由于这一假设，模型包含的条件概率的数量大为减少，朴素贝叶斯法的学习与预测大为简化。因此朴素贝叶斯法高效，且易于实现。缺点是分类的性能不一定高。

朴素贝叶斯法

文章目录

贝叶斯定理

朴素贝叶斯法的学习与分类

条件独立假设

朴素贝叶斯的后验概率最大化准则

朴素贝叶斯的基本公式

证明后验概率最大化 <=> 期望风险最小化

朴素贝叶斯法的参数估计

极大似然估计

朴素贝叶斯的学习与分类算法

例题

贝叶斯估计

习题

总结

网站公告

今日签到

热门文章

最新发布

朴素贝叶斯法

文章目录

贝叶斯定理

朴素贝叶斯法的学习与分类

条件独立假设

朴素贝叶斯的后验概率最大化准则

朴素贝叶斯的基本公式

证明 后验概率最大化 <=> 期望风险最小化

朴素贝叶斯法的参数估计

极大似然估计

朴素贝叶斯的学习与分类算法

例题

贝叶斯估计

习题

总结

网站公告

今日签到

热门文章

最新发布

证明后验概率最大化 <=> 期望风险最小化