基于贝叶斯算法的文本分类算法

因为要做一个关于数据挖掘的算法应用PPT，虽然知道很多数据挖掘的算法怎么使用，但是需要讲解它们的原理，还真的需要耗费很多精力，之前做一个曲线拟合，已经发在博客里，现在做贝叶斯算法的基础原理。

1、基本定义：

P(X|C)=∏P(xi|ci)。

2、文本分类过程

x=(Good, good, study, Day, day , up)。

={Beijing joins the World Trade Organization, China}

(Bernoulli Model)即文档型。二者的计算粒度不一样，多项式模型以单词为粒度，伯努利模型以文件为粒度，因此二者的先验概率和类条件概率的计算方法都不同。

2.1多项式模型

1）基本原理

2）举例

给定一组分好类的文本训练数据，如下：

docId

doc

类别

In c=China?

Chinese Beijing Chinese

yes

Chinese Chinese Shanghai

yes

Chinese Macao

yes

TokyoJapan Chinese

d=(Chinese, Chinese, Chinese, Tokyo, Japan)

P(yes)=8/11, P(no)=3/11。类条件概率计算如下：

P(Chinese | yes)=(5+1)/(8+6)=6/14=3/7

P(Japan | yes)=P(Tokyo | yes)= (0+1)/(8+6)=1/14

P(Chinese|no)=(1+1)/(3+6)=2/9

P(Japan|no)=P(Tokyo| no) =(1+1)/(3+6)=2/9

Chinese,Beijing,Shanghai, Macao, Tokyo, Japan

有了以上类条件概率，开始计算后验概率：

P(yes | d)=(3/7)3×1/14×1/14×8/11=108/184877≈0.00058417

P(no | d)= (2/9)3×2/9×2/9×3/11=32/216513≈0.00014780

2.2伯努利模型

1）基本原理

2）举例

使用前面例子中的数据，，模型换成伯努利模型。

P(yes)=3/4, P(Chinese | yes)=(3+1)/(3+2)=4/5，条件概率如下：

P(Japan | yes)=P(Tokyo | yes)=(0+1)/(3+2)=1/5

P(Beijing | yes)= P(Macao|yes)= P(Shanghai |yes)=(1+1)/(3+2)=2/5

P(Chinese|no)=(1+1)/(1+2)=2/3

P(Japan|no)=P(Tokyo| no) =(1+1)/(1+2)=2/3

P(Beijing| no)= P(Macao| no)= P(Shanghai | no)=(0+1)/(1+2)=1/3

有了以上类条件概率，开始计算后验概率，

P(no|d)= 1/4×2/3×2/3×2/3×(1-1/3)×(1-1/3)×(1-1/3)=16/729≈0.022

摘自：

学会宽容，要有一颗宽容的爱心！

相关文章：

你感兴趣的文章：

标签云：