

数学篇 - 朴素贝叶斯(Naive Bayes)分类算法(笔记)
source link: https://alili.tech/archive/6iwpimvelxh/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

数学篇 - 朴素贝叶斯(Naive Bayes)分类算法(笔记)
朴素贝叶斯(Naive Bayes)
“用客观的新信息更新我们最初关于某个事物的信念后,我们就会得到一个新的、改进了的信念。” —- 数学家托马斯·贝叶斯(Thomas Bayes,1702~1761)
当你不能准确知悉一个事物的本质时,你可以依靠与事物特定本质相关的事件出现的多少去判断其本质属性的概率。
支持某项属性的事件发生得愈多,则该属性成立的可能性就愈大。
1774年,法国数学家皮埃尔-西蒙·拉普拉斯(Pierre-Simon Laplace,1749-1827)独立地再次发现了贝叶斯公式。
换种写法:
让计算机分辨水果
我们需要将水果的特征转化为计算机所能理解的数据。最常用的方式就是提取现实世界中的对象之属性,并将这些转化为数字。
比如:形状、外皮颜色、斑马纹理、重量、握感、口感。
将这些形容转化成数字,把重量由连续值转化成了离散值,这是因为朴素贝叶斯处理的都是离散值
扩大样本,仅仅 3 个水果还不足以构成朴素贝叶斯分类所需的训练样本
我们如何使用贝叶斯公式
用先验概率和条件概率估计后验概率。
假定数据对象的不同属性对其归类影响时是相互独立的。此时若数据对象 o 中同时出现属性 fi 与 fj,则对象 o 属于类别 c 的概率就是这样
朴素贝叶斯算法是假设各个特征之间相互独立,才可以两边相等,这也是朴素贝叶斯分类有朴素一词的来源
用 10 个水果的数据,来建立朴素贝叶斯模型
平滑(Smoothing)
会出现结果为 0 的情况,因此我们通常取一个比这个数据集里最小统计概率还要小的极小值,来代替“零概率”。比如,我们这里取 0.01。在填充训练数据中从来没有出现过的属性值的时候,我们就会使用这种技巧,我们给这种技巧起个名字就叫作平滑(Smoothing)。
假设我们有一个新的水果,它的形状是圆形,口感是甜的,那么根据朴素贝叶斯,它属于苹果、甜橙和西瓜的概率分别是多少呢?
apple 表示分类为苹果,shape-2 表示形状属性的值为 2(也就是圆形),taste-2 表示口感属性的值为 2。以此类推,我们还可计算该水果属于甜橙和西瓜的概率。
比较这三个数值,0.00198<0.00798<0.26934,所以计算机可以得出的结论,该水果属于甜橙的可能性是最大的
朴素贝叶斯分类主要包括这几个步骤
准备数据
:针对水果分类这个案例,我们收集了若干水果的实例,并从水果的常见属性入手,将其转化为计算机所能理解的数据。这种数据也被称为训练样本。建立模型
:通过手头上水果的实例,我们让计算机统计每种水果、属性出现的先验概率,以及在某个水果分类下某种属性出现的条件概率。这个过程也被称为基于样本的训练。分类新数据
:对于一颗新水果的属性数据,计算机根据已经建立的模型进行推导计算,得到该水果属于每个分类的概率,实现了分类的目的。这个过程也被称为预测。
朴素贝叶斯分类的优缺点
算法逻辑简单,易于实现
分类过程中时空开销小
理论上,朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为朴素贝叶斯模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好。
微信公众号

本文链接:
https://alili.tech/archive/6iwpimvelxh/Recommend
-
88
朴素贝叶斯的那点事儿 在机器学习领域中,朴素贝叶斯是一种基于贝叶斯定理的简单概率分类器(分类又被称为监督式学习,所谓监督式学...
-
94
在机器学习领域中,朴素贝叶斯是一种基于贝叶斯定理的简单概率分类器(分类又被称为监督式学习,所谓监督式学习即从已知样本数据中的特征信息去推测可能出现的输出以完成分类,反之聚类问题被称为非监督式学习),朴素贝叶斯在处理文本数据时可以得到较好的分类结...
-
101
Naive Bayes分类器 Naive Bayes是一个概率分类器,也就是说,在文档d中,返回所有类别c中后验概率最大的类别$\hat{c}$: $$\hat{c}=\text{argmax}P(c\vert d)$$ 回顾一下贝叶斯法则: $$P(x\vert y)...
-
59
-
69
本文要讲述一个古老的机器学习算法,叫做朴素贝叶斯。这个算法比较简单明了,没有使用非常复杂的数学定理。用到的核心的数学理论就是概率中的一个定理,叫做贝叶斯定理(Bayes' Theorem)。 贝叶斯定理 现在我们看一个...
-
57
引言 你在新加坡国立大学里面徜徉,见到一个人 (斯蒂文) 问他的性格是内向还是外向,得到的答案是内向,那么斯蒂文是数学博士还是商科学生? (假设斯蒂文只可能是这两者之一,即斯蒂文不可...
-
11
贝叶斯原理是英国数学家托马斯·贝叶斯于18 世纪提出的,当我们不能直接计算一件事情(A)发生的可能性大小的时候,可以间接的计算与这件事情有关的事情(X,Y,Z)发生的可能性大小,从而间接判断事情(A)发生的可能性大小。
-
7
朴素贝叶斯算法 一、从生活角度来理解朴素贝叶斯算法 朴素贝叶斯算法是统计学...
-
9
朴素贝叶斯分类器 贝叶斯分类是一系列分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。朴素贝叶斯算法(Naive Bayesian) 是其中应用最为广泛的分类算法之一。它是一种十分简单的分类算法,叫它朴素贝叶斯分类是...
-
8
朴素贝叶斯算法之鸢尾花特征分类【机器学习】【伯努利分布,多项式分布,高斯分布】 精选 原创 上进小菜猪
About Joyk
Aggregate valuable and interesting links.
Joyk means Joy of geeK