数据挖掘十大算法之朴素贝叶斯算法。

贝叶斯决策论

贝叶斯决策论是概率框架下实施决策的基本方法。对分类来说,在所有相关概率都已知的理想情况下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记

贝叶斯定理

假设X,Y是一对随机变量,他们的联合概率P(X=x,Y=y)是指X取值x且Y取值y的概率,条件概率是指一随机变量在另一随机变量取值已知的情况下取某一特征值的概率。X和Y的联合概率和条件概率满足如下关系:

P(X,Y) = P(Y|X)P(X)=P(X|Y)P(Y)

调整该公式得到如下公式,称为贝叶斯定理:

$P(Y|X)=\dfrac {P(X|Y)P(Y)}{P(X)}$

朴素贝叶斯分类器

基于贝叶斯公式来估计后验概率P(Y|X)的主要困难在于:类条件概率P(X|Y)是所有属性的联合概率,难以从有限的训练样本中直接估计而得。为避开这个障碍,朴素贝叶斯分类器采用了“属性条件独立性假设”:对所有已知类别,假设所有属性独立。

基于属性条件独立性假设,可以得到:

由于对于所以类别来讲P(x)相同,因此贝叶斯判定准则为

这就是贝叶斯分类器的表达式。

朴素贝叶斯分类的正式定义如下:

  1. 设$x={ a_{1},a_{2},\ldots ,a_{m}}$为一个待分类项,而每个a为x的一个特征属性。
  2. 有类别集合$C={ y_{1},y_{2},\ldots ,y_{n}}$。
  3. 计算$P\left( y_{1}| x\right),P\left( y_{2}| x\right),…,P\left( y_{n}| x\right)$。
  4. 如果$P\left( y_{k}| x\right)=max{P\left( y_{1}| x\right),P\left( y_{2}| x\right),…,P\left( y_{n}| x\right)}$,则$x\in y_{k}$。

令$D_{c}$表示训练集D中第c类样本组成的集合,若有充分的独立同分布样本,则可容易地估计出类先验概率

对于离散属性而言,令$D_{c,x_{i}}$表示$D_{c}$中在第i个属性上取值为$x_{i}$的样本组成的集合,则条件概率$P\left( x_{i}| c\right)$可估计为

对于连续属性可考虑概率密度函数,假定$P\left( x_{i}| c\right)\sim\mathcal N\left( \mu _{c,i},\sigma ^{2}_{c,i}\right)$,其中$\mu _{c,i}$和$\sigma ^{2}_{c,i}$分别是第c类样本在第i个属性上取值的均值和方差,则有

极大似然估计

拉普拉斯修正

为了避免其他属性携带的信息被训练集中未出现的属性值“抹去”,在估计概率值的时通常要进行“平滑”(smoothing)。常用“拉普拉斯修正”(Laplacian correction)。具体来说,另N表示训练集D中可能的类别数,$N_{i}$表示第i个属性可能的取值数,则可修正为

显然,拉普拉斯修正避免了因训练集样本不充分而导致概率估值为零的问题,并且在训练集变大时,修正过程所引入的先验的影响也会逐渐变得可忽略,使得估值渐趋向于实际概率值。

半贝叶斯分类

贝叶斯信念网

参考:

http://blog.csdn.net/u011067360/article/details/22890465