1. 贝叶斯定理

已知事件$A$和$B$,则条件概率为:

可以推导出:

2. 分类器简介

朴素贝叶斯分类器(Naive Bayes classifier)是一种简单、有效的分类器,其难点在于估算条件概率。比如,一个数据集拥有$N$个相互独立的特征,$C$个分组,对于$C_j$条件概率模型为:

由于$1/p(F_1,\cdots,F_n)$在不同分组中为定值,因此:

其中,$p(C_j)$通常容易求得,即$C_j$分组在测试数据集中出现的频率。而$p(F_i\ \vert C_j)$则根据不同的测试数据类型,有不同的估计值。

以下讨论两种二元数据类型,例如某个数据集有三种特征量:

3. 伯努利分布

每一个特征量的取值都为$0$或$1$。分组$C_j$含有两个已知样本为:

某个预测样本为:

由于$p(F_i \vert C_j)$不能为0,根据Rule of succession得各个特征的条件概率为:

4. 二项分布

每一个特征量的取值都一个元素为$0$或$1$的向量(长度可不等)。分组$C_j$含有两个已知样本为:

某个预测样本为:

各个特征的条件概率为:

优化

  1. 当特征较多时,会面临多个小数($p$值)相乘。可以取对数后再相加,即$\sum\log{p}$。

  2. 虽然上文讨论的是二元数据,但是朴素贝叶斯分类器也适用于连续型或者其他离散型数据类型。

参考资料

更新记录

2017年7月15日

Comments