58

探索性数据分析:数据科学中的 “福尔摩斯”(上)

 5 years ago
source link: https://mp.weixin.qq.com/s?__biz=MzU4NTQ2MzQ1Nw%3D%3D&%3Bmid=2247483743&%3Bidx=1&%3Bsn=28e7d1367b1a7a45f9783e15aafbc2f1&%3Bchksm=fd8b6291cafceb874686eb17f75dceae4541e558a17d2a44e2939a70ea948cd79f6cbef
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

很高兴,又与大家在 data2art 见面了。上次的第一篇文章有朋友反映说太长,所以这一期,关于探索性数据分析,我们将分为上篇、中篇、下篇这三个短篇:

1. 上篇  •  初识

探索性分析是什么?目的为何?

2. 中篇  •  方法

EDA具体的分析方法是什么?单变量分析、多变量分析中定量方法和图形化方法有哪些。

3. 下篇  •  实践

实际数据的分析流程是什么?讲解如何使用 Python 一步步分析具体的实例。(如果需要R的同学,可以给我们留言,我们会考虑也写R代码)

本系列文章的目的:如果你现在拿到数据之后,只是随意的分析探索,没有一个流程模式。读完本系列文章之后,当你再次面对数据,你将清楚的知道自己应该做些什么,知道数据的类型有哪些,不同的类型可以使用什么样的分析方法,可以从数据中得到什么样的结论。

·  正   ·  文   ·  来   ·  啦   ·

探索性数据分析——数据科学中的"福尔摩斯"

如果把数据科学比作一门武林绝学,那么探索性数据分析就是其中的基础招式,只有扎扎实实地修炼好这一招一式,才能在未来学习具体的功法时游刃有余。—— 导语

1977 年当代著名的统计学家 John W. Tukey 发布了一本名为《Exploratory Data Analysis》[1] 的书籍,从此探索性数据分析 ( Exploratory Data Analysis, EDA ) 慢慢地进入了大众的视野。到21世纪的今天,随着数据量的爆炸式增长,探索性数据分析已经成为了大数据领域中数据分析的主流方法。

niMjuii.jpg!web

图片来源 https://datascienceplus.com/wp-content/uploads/2016/12/outliers_effect-490x245.png

EDA 与经典统计数据非常不同。它不关注于拟合模型,参数估计或假设检验,而是关注 数据本身的信息 。和历经久远的传统统计方法相比,这个年轻的探索性数据分析方法,为何能够脱颖而出呢?

探索性数据分析的目的

我们思量了多种 EDA 的定义和其实际使用情况后,认为探索性数据分析的具体目的如下:

1. 检测 异常值 缺失值

2. 发掘 特征变量之间的关系

    • 特征变量与目标变量之间的关系

    • 除目标变量外,特征变量彼此之间的关系

3. 提取 重要的特征变量

4. 测试基本的假设

5. 初步选择合适的模型

因为在大多数 EDA 中,都主要关注于前三点。所以,在此我们也只重点关注前三点内容,具体地解释每一点会提出哪一些问题。

检测异常值和缺失值

异常值和缺失值都会 对后期的 模型产生影响 ,例如线性模型中的异常值,会影响线性回归方程的选择。

zUBNfqR.jpg!web

图片来源 https://datascienceplus.com/wp-content/uploads/2016/12/outliers_effect-490x245.png

解答问题是:

  • 缺失值:如何发现缺失值?发现缺失值之后,应该如何处理缺失值?

  • 异常值:如何发现异常值?发现异常值之后,应该如何处理异常值?

缺失值概念很好理解,重点在于发现存在缺失值之后,应该如何处理。通常有两种方法,一种是 删除 缺失值数据;另一种是, 估计 可能的值,然后填充缺失值。数据集中存在异常的数据。例如,对于年龄数据,小于0的数据,显然是异常的。异常值通常需要删除。

发掘特征变量之间的关系

解答问题是:

  • 特征变量之间相关性的强弱程度如何?

  • 特征变量与目标变量之间的关系是怎么样的?

提取重要的特征变量

对于目标问题而言,如何判断哪些特征变量是重要的?总的来说,与目标变量强相关的特征变量,通常是重要的特征变量。

其实,EDA 就好比数据科学中的福尔摩斯,作为侦探,你需要从你分析你掌握的各种信息,并且将这些信息联系在一起,破解最终的案件。同样的,EDA可以从理解数据,一步步从中查找出线索。

 最后留个问题供大家思考 :

EDA、传统统计和贝叶斯分析方法,三者之间有什么不同? 后台回复 “不同” ,可以获取答案。

Reference

  • https://www.itl.nist.gov/div898/handbook/eda/eda.htm

  • http://www.stat.cmu.edu/~hseltman/309/Book/chapter4.pdf

  • https://www.analyticsvidhya.com/blog/2016/01/guide-data-exploration/

  • https://www.oreilly.com/library/view/practical-statistics-for/9781491952955/ch01.html

  • https://www.analyticsvidhya.com/blog/2016/01/guide-data-exploration/

最后给大家奉上 本系列思维导图。如需高清版本和源文件,可以在后台回复 “思维导图”获取

viURzmq.jpg!web

Yru2mmI.jpg!web

据说点 「好看」 的人都变好看了 :point_down:


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK