13

第7-2课:垃圾邮件过滤与贝叶斯分类算法

 3 years ago
source link: https://blog.csdn.net/orbit/article/details/108729337
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

第7-2课:垃圾邮件过滤与贝叶斯分类算法

分类算法有很多种理论,比如决策树理论、K-最近邻法(KNN)理论、朴素贝叶斯理论、神经网络理论等,每种理论都有对应的分类算法。贝叶斯分类算法是众多分类算法中的一种,确切地说是一类,因为这类算法都是以贝叶斯定理为理论基础,所以被统称为贝叶斯分类。这一课我们将介绍贝叶斯分类算法,并用贝叶斯分类算法做一个简单的文本分类器,演示区分垃圾邮件和正常邮件的过滤器原理。

贝叶斯定理

贝叶斯(Thomas Bayes)是个英国牧师,为了证明上帝的存在,他发明了概率统计学原理。这可不是什么讽刺与幽默,历史上很多科学的发现,都是一些神职人员在研究神学过程中的“副产品”,比如被誉为现代遗传学之父的孟德尔(Gregor Johann Mendel)就是一个修道院的神父,他的豌豆实验想必大家都知道。

玩贝叶斯分类算法之前,先要了解一下贝叶斯定理,该定理其实是一个与概率有关的推理,这里就简单介绍一下贝叶斯定理。高能预警:前方有公式,不过放心,贝叶斯定理真的很简单

概率和条件概率

概率论中常用 $P(A)$ 表示 $A$ 事件发生的概率,这个也被称为先验概率或边缘概率。$P(A|B)$ 表示已知条件 B 发生的情况下 $A$ 事件发生的概率,这个被称为条件概率。在古典概率论中,条件概率 $P(A|B)$ 的计算公式是:

$P(A|B) = \frac{P(B|A)\cdot P(A)}{P(B)}$

这个公式做一个变换,可以计算 $P(B|A)$:

$P(B|A)

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK