15

第7-2课:垃圾邮件过滤与贝叶斯分类算法

 4 years ago
source link: https://blog.csdn.net/orbit/article/details/108729337
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

第7-2课:垃圾邮件过滤与贝叶斯分类算法

分类算法有很多种理论,比如决策树理论、K-最近邻法(KNN)理论、朴素贝叶斯理论、神经网络理论等,每种理论都有对应的分类算法。贝叶斯分类算法是众多分类算法中的一种,确切地说是一类,因为这类算法都是以贝叶斯定理为理论基础,所以被统称为贝叶斯分类。这一课我们将介绍贝叶斯分类算法,并用贝叶斯分类算法做一个简单的文本分类器,演示区分垃圾邮件和正常邮件的过滤器原理。

贝叶斯定理

贝叶斯(Thomas Bayes)是个英国牧师,为了证明上帝的存在,他发明了概率统计学原理。这可不是什么讽刺与幽默,历史上很多科学的发现,都是一些神职人员在研究神学过程中的“副产品”,比如被誉为现代遗传学之父的孟德尔(Gregor Johann Mendel)就是一个修道院的神父,他的豌豆实验想必大家都知道。

玩贝叶斯分类算法之前,先要了解一下贝叶斯定理,该定理其实是一个与概率有关的推理,这里就简单介绍一下贝叶斯定理。高能预警:前方有公式,不过放心,贝叶斯定理真的很简单

概率和条件概率

概率论中常用 $P(A)$ 表示 $A$ 事件发生的概率,这个也被称为先验概率或边缘概率。$P(A|B)$ 表示已知条件 B 发生的情况下 $A$ 事件发生的概率,这个被称为条件概率。在古典概率论中,条件概率 $P(A|B)$ 的计算公式是:

$P(A|B) = \frac{P(B|A)\cdot P(A)}{P(B)}$

这个公式做一个变换,可以计算 $P(B|A)$:

$P(B|A)

Recommend

  • 101
    • blog.stupidme.me 6 years ago
    • Cache

    朴素贝叶斯(Naive Bayes)和情感分类

    Naive Bayes分类器 Naive Bayes是一个概率分类器,也就是说,在文档d中,返回所有类别c中后验概率最大的类别$\hat{c}$: $$\hat{c}=\text{argmax}P(c\vert d)$$ 回顾一下贝叶斯法则: $$P(x\vert y)...

  • 17

    算法作为智力活动的结果,并不是随机头脑风暴活动的产物,虽然因人而异,会有不同的结果,但是基本上它应该是遵循一定规律的活动结果。首先,它需要一些基础性的知识作为这种智力活动的着力点,比如相关领域的数学知识、各种数据结构的掌握等;...

  • 14

    多元一次方程组,又称为线性代数方程组。在数值分析领域里有很多算法都会用到线性代数方程组的求解,比如三次样条曲线拟合时用到的插值算法。求解线性代数方程组可以用高斯消元法,高斯消元法是一种代数的方法,其主要思想是通过对系数矩阵进行...

  • 18

    第3-2课:用三个水桶等分 8 升水的问题 ...

  • 18

    第4-2课:装配线与工作站问题 在前面的...

  • 8
    • blog.csdn.net 4 years ago
    • Cache

    第5-2课:图的拓扑排序

    拓扑排序常用来确定一个依赖关系集中、事物发生的顺序。一个典型的应用场景就是在项目管理或工程实施中安排各种生产活动的计划,在考虑各种活动的依赖关系的基础上,安排各种活动的开始时间,使得项目或工程能够以高效合理的速度完成。这些功能...

  • 11

    贝叶斯原理是英国数学家托马斯·贝叶斯于18 世纪提出的,当我们不能直接计算一件事情(A)发生的可能性大小的时候,可以间接的计算与这件事情有关的事情(X,Y,Z)发生的可能性大小,从而间接判断事情(A)发生的可能性大小。

  • 8

    数学篇 - 朴素贝叶斯(Naive Bayes)分类算法(笔记)2020-09-14朴素贝叶斯(Naive Bayes)“用客观的新信息更新我们最初关于某个事物的信念后,我们就会得到一个新的、改进了的信念。” —- 数学家托马斯·贝...

  • 10
    • blog.lilydjwg.me 3 years ago
    • Cache

    配置 spamassassin 来过滤垃圾邮件

    配置 spamassassin 来过滤垃圾邮件 本文来自依云's Blog,转载请注...

  • 9

    为垃圾短信分类:iOS 16的短信过滤API支持更多信息类别 2022年06月16日10:13  IT之家  

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK