62

一文解析统计学在机器学习中的重要性

 5 years ago
source link: http://www.10tiao.com/html/626/201807/2649984110/1.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

热门下载(点击标题即可阅读)

☞【下载】2015中国数据分析师行业峰会精彩PPT下载(共计21个文件)

作者:Jason Brownlee

翻译:陈之炎

校对:万文青

转自: 数据派THU

本文共2400字,建议阅读10分钟。
本文介绍为什么统计对于通用应用和机器学习如此重要,并大致了解各种可用的方法。


统计是一组工具,您可以使用这些工具来探求数据方面的重要问题。


您可以使用描述性统计方法将原始观测数据转换为您可以理解和共享的信息,也可以使用推断统计方法,通过数据的小样本对整个域进行推理。


在这篇文章中,您将明晰为什么统计对于通用应用和机器学习如此重要,并大致了解各种可用的方法。


本文中您将了解到:


  • 统计通常被认为是应用机器学习领域的先决条件。

  • 我们需要利用统计将观测结果转化为信息,并回答有关观测样本的问题。

  • 统计是数百年来开发的一组工具,用于汇总数据和量化给定观测样本的域的属性。

 

那我们开始吧!



统计是必备的先决条件


机器学习和统计是两个密切相关的研究领域,统计学家把机器学习称为“应用统计”或“统计学习”,而不是以计算机科学为主来命名。


对于初学者而言,机器学习的前提是他应具备一定的统计学背景。我们可以用挑选樱桃的例子来做个解释。


请先看一本流行的实用机器学习书《应用预测建模》中的一句话:

 

”读者应掌握一些基本统计知识,包括方差、相关、简单线性回归和基本假设检验(如p值和检验统计)“

——《应用预测建模》

 2013年 第7页

 

流行书籍《统计学习入门》中也有这样的例子:


”我们期望读者至少有一门统计学基础课程。“

——《统计学习介绍及其

在R语言中的应用》

 2013年 第9页

 

即使统计学不是先决条件,但还是需要一些简单的先导知识,正如广为人知的《编程集体智慧》一书的引语所言:


“这本书并不认为你事先就知道[…]或统计学[…] 但是,掌握一些三角学和基本统计知识将有助于你理解算法。”

——《编程集体智慧:构建

智能Web 2.0应用程序》

 2007年 第13页

 

为了能够更好地理解机器学习,需要对统计学有一些基本的概念。


欲知其中缘由,我们首先必须明白为何要了解统计学领域的知识。

 

为什么要学统计学?


单独的原始观察数据只是数据,它们还不是信息或知识。


有了原始数据,那么接下来的问题是:


  • 什么是最常见或可预期的观测?

  • 观测的限制条件是什么?

  • 数据是什么样子的?

 

虽然这些问题看起来很简单,但必须回答这些问题,才能将原始观察的数据转化为我们可以使用和分享的信息。


除了原始数据,我们还可以设计实验来采集观测数据。根据这些实验结果,我们可能获得更为复杂的问题,例如:


  • 哪些变量是最相关的?

  • 两个实验的结果有什么不同?

  • 数据中的差异是真实的还是噪声的结果?


这类问题很重要,其结果对项目、利益相关者和有效决策都很重要。

 

我们需要用统计方法来找到数据问题的答案。


这样看来,我们需要利用统计方法,不但用它来了解用于训练机器学习模型的数据,而且用它来解释测试不同机器学习模型的结果。


这只是冰山一角,因为预测建模项目的每一步都需要用到统计方法。

 

什么是统计学?


统计学是数学的一个子领域。


它指的是处理数据和使用数据回答问题的方法集合。


统计学是对疑难问题进行数值猜想的艺术。[…]这些方法是几百年来由那些为自己的问题寻找答案的人开发出来的。

——《统计》第四版 

2007年 第13页

 

由于该领域采用抓斗袋的方法来处理数据,对于初学者来说,它可能看起来大而无形。统计方法和其他研究领域的方法之间很难区分开来。通常,一种技术既可以是一种经典的统计方法,也可以是一种用于特征选择或建模的现代算法。

 

虽然统计知识并非没有深奥的理论知识,但从统计与概率的关系中得出的一些重要、容易理解的定理,可以提供有价值的理论基础。


举两个例子:大数定律中心极限定理


第一个可以帮助我们理解为什么较大的样本往往更好,第二个定理为我们比较样本之间的期望值(例如:平均值)提供基础。


当涉及我们在实践中使用的统计工具时,可以将统计领域分为两大类:


  • 描述性统计用于总结数据

  • 推理统计用于从数据样本中得出结论


"统计数据使研究人员能够从大量的采集到的信息或数据,从中总结出典型的经验。[…]统计数据也用导出关于群体间普遍差异的结论。[…]统计数据也可以用来判断两个变量的得分是否相关,并进行预测。"

——《统计概述》 第三版

2010年 第9—10页

 

描述统计(学)


描述性统计是指将观察到的原始数据汇总成我们可以理解和共享的信息的方法。

 

通常,我们认为描述性统计是对数据样本统计值的计算,以便总结数据样本的属性,例如共同的期望值(例如平均值或中值)和数据的价差(例如方差或标准偏差)。


描述性统计还涵盖利用图形方法对数据样本进行可视化。图表和图形可以提供对观测的形状或分布以及变量的相关做出定性理解。

 

推断统计


推断统计是一个有意思的名称,它是通过从一组较小的被称为样本的观察数据进行量化从而提炼出域或总体属性的方法。


通常,我们认为推断统计是从总体分布中估计出特征值,如期望值或价差的估计等等。


可以利用复杂的统计推断工具来量化给定观测数据样本的概率。这些工具通常被称为统计假设检验工具,其中检验的基本假设称为零假设。


有许多推断统计方法的例子,为增加测试数据的正确性,我们可以对假设的范围做出限定。

 

延展阅读


如果您想深入研究,本节将提供更多关于该主题的资源。


  • 书籍

    • 《应用预测建模》,2013年

    • 《R语言应用程序统计学习导论》,2013年

    • 《编程集智能:构建智能Web 2.0应用程序》,2007年

    • 《统计》,第四版,2007年

    • 《统计:统计推断的简明课程》,2004年

    • 《简明统计》,第三版,2010年。


  • 文章

    • 维基百科上的统计

    • 门户:维基百科上的统计

    • 维基百科上的统计文章列表

    • 维基百科上的数理统计

    • 维基百科上的统计历史

    • 维基百科的描述性统计

    • 对维基百科的统计推断

 

总结


在这篇文章中,您已明晰为什么统计在机器学习中如此重要,对于机器学习,统计提供了许多通用且可行的方法。


具体而言,总结如下:


  • 统计通常被认为是机器学习领域的先决条件。

  • 我们需要统计数据来将观测结果转化为信息,并回答有关观测样本的问题。

  • 统计是数百年来开发的一组工具,用于汇总数据和量化给定观测样本的域的属性。


原文标题:What is Statistics (and why is it important in machine learning)?

原文链接:https://machinelearningmastery.com/what-is-statistics/

译者简介

陈之炎,北京交通大学通信与控制工程专业毕业,获得工学硕士学位,历任长城计算机软件与系统公司工程师,大唐微电子公司工程师,现任北京吾译超群科技有限公司技术支持。目前从事智能化翻译教学系统的运营和维护,在人工智能深度学习和自然语言处理(NLP)方面积累有一定的经验。业余时间喜爱翻译创作,翻译作品主要有:IEC-ISO 7816、伊拉克石油工程项目、新财税主义宣言等等,其中中译英作品“新财税主义宣言”在GLOBAL TIMES正式发表。能够利用业余时间加入到THU 数据派平台的翻译志愿者小组,希望能和大家一起交流分享,共同进步

读BD最佳实践案例,赢DT未来!【政、工、农册免费在线试读】

18各行业,106个中国大数据应用最佳实践案例:

赢在大数据:中国大数据发展蓝皮书

作者:陈新河 编著

当当 广告
购买

或点击“阅读原文”,购买“赢在大数据系列丛书”。

推荐文章


点击蓝色标题即可阅读全文

10万读者睿选2016年TOP1002015年TOP100
CCTV大数据名人讲堂PPT&视频:万亿元大数据产业安全城市】【农业航运】【数据资产变现

DTiii:1574家大数据产业地图PPT及下载】【1574家详单】

院士:李国杰【(PPT)(全文)】【数据开放】,邬贺铨倪光南【大数据时代)()】,怀进鹏梅宏

大数据100分:【金融】【制造】【餐饮】【电信】【电商】【更多行业大数据应用请点击底部导航栏BD100分】;

大数据/人工智能数据竞赛:Kaggle经验分享NetFlix百万美金】【Kaggle案例】【2017BDCI】【2017BDCI嘉年华滴滴算法大赛】

征信:ZestFinance】【BCG】【芝麻信用】;

工业4.0:罗兰·贝格】【安筱鹏

人工智能:阿里&BCG】【埃森哲经济社会】【美国AI国家战略伯努利李开复】【TOP100】【2016中国AI报告】【美国AI国家规划】【深度学习】【人智合一】【人脸识别】【人脸识别企业PK】【无人驾驶】【AI知识体系】【神经网络

区块链:TED视频】【麦肯锡】【毕马威】【高盛

算   法: 【10大经典算法】【推荐算法

可视化:【2017年获奖2014年最佳】【十大标志性作品】【43款工具

PPT:【大数据产业地图】【数据之巅互联网的未来】【软件正吃掉整个世界】【互联网思维】【互联网+】【一带一路】;

VC:【大数据投资2015创投趋势2014投资报告倒闭教训

人才:2017BD&人才报告

大数据应用最佳实践案例:18个行业106个案例

原创:陈新河:万亿元大数据产业新生态软件定义世界,数据驱动未来数据交易互联网+观点】。

专题版本:20180208V3.2

底部新增导航菜单(点击顶部“软件定义世界(SDX)”,点击“进入公众号”,底部菜单栏即出现),下载200多个精彩PPT,持续更新中!

上下滑动查看更多精选专题

微信公众号:软件定义世界(SDX)

微信ID:SDx-SoftwareDefinedx

软件定义世界, 数据驱动未来;

❷ 大数据思想的策源地、产业变革的指南针、创业者和VC的桥梁、政府和企业家的智库、从业者的加油站;

个人微信号:sdxtime,

邮箱:[email protected]

=>> 长按右侧二维码关注。

底部新增导航菜单,下载200多个精彩PPT,持续更新中!


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK