10

6分钟了解所有机器学习模型

 4 years ago
source link: http://mp.weixin.qq.com/s?__biz=MzU1OTgxMTg2Nw%3D%3D&%3Bmid=2247488119&%3Bidx=1&%3Bsn=717305a769dadcf3a5dcea5f3ee52f7b
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

原文出自Medium 

作者: Terence Shin

京东云开发者社区编译

MnI3qmE.jpg!web

所有机器学习模型都可以分为 有监督 的或 无监督 的。如果模型是监督模型,则将其再分类为回归模型或分类模型。我们将介绍这些术语的含义以及下面每个类别中对应的模型。

fAFrE3A.png!web

监督学习模型

监督学习涉及基于示例输入-输出对学习将输入映射到输出的功能。

例如,如果我有一个包含两个变量的数据集,即年龄(输入)和身高(输出),那么我可以实现一个监督学习模型,以根据一个人的年龄预测其身高。

JnYJjym.png!web

监督学习示例

重申一下,在监督学习中,有两个子类别:回归和分类。

回归模型

在回归模型中,输出是连续的。以下是一些最常见的回归模型类型。

-线性回归

3qUZRfI.png!web线性回归示例

线性回归的概念就是简单地找到一条最适合数据的直线。线性回归的扩展包括多元线性回归(例如,找到最佳拟合的平面)和多项式回归(例如,找到最佳拟合的曲线)。

-决策树

2yaEVfa.png!web图片来自Kaggle

决策树是一种普遍应用的模型,常用于运筹学、战略计划和机器学习。上方的每个正方形称为一个节点,你拥有的节点越多,决策树(通常)将越准确。做出决策的决策树的最后节点称为树的叶子。决策树直观且易于构建,但在准确性方面稍有不足。

-随机森林

随机森林是一种基于决策树的整体学习技术。随机森林涉及使用原始数据通过“自举法”(B ootstrapping)得到的数据集 创建多个决策树,并在决策树的每个步骤中随机选择变量的子集。然后,模型选择每个决策树的所有预测的模式。这有什么意义呢?通过依靠“多数决定”模型( ‘Majority Wins’ Model),它降低了单个树出错的风险。

3IRJZr6.png!web

如上图所示,如果我们只创建一个决策树,那么第三个决策树,它的预测值将是0。但是,如果我们依靠所有4个决策树的模式,则预测值为1。这就是随机森林的力量。

-神经网络

AjIRRbR.png!web神经网络的视觉表示

神经网络是一种受人脑启发的多层模型。就像我们大脑中的神经元一样,上面的圆圈代表一个节点。蓝色的圆圈代表输入层,黑色的圆圈代表隐藏层,绿色的圆圈代表输出层。隐藏层中的每个节点代表特定输入的一个函数,最终生成绿色圆圈中的输出。

分类模型

在分类模型中,输出是离散的。 以下是一些最常见的分类模型类型。

-逻辑回归

逻辑回归类似于线性回归,但用于模拟有限数量结果的概率,通常是两个。在对结果的概率建模时,使用逻辑回归而不是线性回归的原因有很多( 详情可查看:https://stackoverflow.com/questions/12146914/what-is-the-difference-between-linear-regression-and-logistic-regression )。本质上,是以输出值只能在0到1之间(见下图)的方式创建逻辑方程。

qyq6fmU.png!web

-支持向量机

支持向量机是一种监督分类技术,实际使用上这种方法可能会非常复杂,但在最基本的级别上却非常直观。

假设有两类数据。支持向量机将在两类数据之间找到一个超平面或边界,以使两类数据之间的余量最大化(参考下图)。有许多平面可以将两个类别分开,但是只有一个平面可以使两个类别之间的边距或距离最大化。

7jyUJvb.png!web

-朴素贝叶斯

朴素贝叶斯(Naive Bayes)是数据科学中另一个通用的分类器。它背后的思想是由贝叶斯定理驱动的:

vMJzM3V.png!web

尽管对朴素贝叶斯(Naive Bayes)做出了许多看起来不太实际的假设(因此将其称为”Naive“),但事实证明,它在大多数情况下都是可执行的,并且构建起来也相对较快。

如果您想了解更多有关它们的信息,详情可参见:https://towardsdatascience.com/naive-bayes-classifier-81d512f50a7c

决策树,随机森林,神经网络……这些模型遵循与先前解释相同的逻辑。唯一的区别是其输出是离散的而不是连续的。

无监督学习模型

与监督学习不同的是,无监督学习被用来从输入数据中推断和发现模式,而不需要参考标记的结果。无监督学习的两种主要方法是聚类和降维。

YRFrU3v.jpg!web

聚类模型

EJbeY3A.png!web

图片来自GeeksforGeeks

聚类是一种无监督学习的技术,它涉及对数据点的分组或聚类。通常用于客户细分、欺诈检测和文档分类等场景。

常见的聚类技术包括k均值聚类、分层聚类、均值漂移聚类和基于密度的聚类。尽管每种技术在寻找聚类时都有不同的方法,但它们都旨在实现同一目标。

降维模型

降维是通过获取一组主变量来减少所考虑的随机变量数量的过程[2]。 简单地说,就是减少特性集的维数的过程(更简单地说,就是减少数据集中的特征数量)。 大多数降维技术可以分为特征消除技术和特征提取技术。

主成分分析模型(PCA)

从最简单的意义上讲,PCA涉及将较高维度的数据(例如3维)投影到较小的空间(例如2维)。 这样会导致数据维度较低(2维而不是3维),同时将所有原始变量保留在模型中。

当然,如果你想要深入学习和了解某种特定模型,都将面临更多的复杂问题,但对每一种机器学习算法的工作原理有一个基本的了解,对你的研究一定会有所帮助。

参考文献:

[1] Stuart J. Russell, Peter Norvig, Artificial Intelligence: A Modern Approach (2010), Prentice Hall

[2] Roweis, S. T., Saul, L. K., Nonlinear Dimensionality Reduction by Locally Linear Embedding (2000), Science

原文链接: https://towardsdatascience.com/all-machine-learning-models-explained-in-6-minutes-9fe30ff6776a

EjiyYbv.png!web

以上信息来源于网络,由“京东智联云开发者”公众号编辑整理,

不代表京东智联云立场。

JZ7v63Q.gifV7ZBBbQ.gif


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK