14

EDA(中):数据类型与单变量分析

 5 years ago
source link: https://mp.weixin.qq.com/s?__biz=MzU4NTQ2MzQ1Nw%3D%3D&%3Bmid=2247483815&%3Bidx=1&%3Bsn=36e9e9acbeb77c65334e9212859ea750&%3Bchksm=fd8b6269cafceb7fda7f229e6b8df47d07302ade592dcf3462b2c62101583d592c9c1e4
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

BzimQzr.jpg!web

·  正   ·  文   ·  来   ·  啦   ·

数据可分为 结构性数据非结构性数据 。例如,表格数据、JSON数据是结果型数据;而图片、声音是非结构性数据。

通常,在数据分析中,我们 主要关注结构性数据

结构型数据

结构性数据分为两种,一种是 数值型 (quantitative data) 数据,另一种是 分类型 (categorical data) 数据。

ia2Yvaj.jpg!web

分类型数据

分类型分为: 型数据(nominal data)定序型数据(ordinal data)

定类型数据

定类型数据中,数据的值是名字。例如,国家的名称、商品的类别。

需要注意的是,名字也可能是数字,所以不要看到数字,就以为数值型。例如,运动会上选手的编号、城市的邮政编号。

qaE7vyB.jpg!web

定序型数据

定序型数据,数据之间有顺序关系。 可以比大小,但是不能进行运算。

例如,比赛名次有第一名、第二名和第三名,不能说第三名不等于第一名加第二名;高铁的座位有一等座、二等座;酒店等级有五星级、四星级、三星级等等。

数值型数据

数值型数据分为: 定距型数据(interval data)定比型数据(ratio data)

定距型数据

定距型数据 ,数据之间的距离有意义 ,可以进行加减操作却无法进行乘除操作,不存在 绝对零值(absolute zero) , 0不代表没有。

最典型的例子是温度,20摄氏度和10摄氏度之间相差10摄氏度,但是 0 摄氏度不代表没有温度,0摄氏度时定义的水结成冰的温度。

UV7vuaI.jpg!web

定比型数据

定比型数据,相比定距型数据,其数据之间存在 比例关系它有绝对零值 , 0 代表没有

例如,年龄、重量。对于重量,20kg是10kg的两倍,而且重量为0kg时,的确代表的是没有重量。

定距型数据与定比型数据区分方法: 是否存在绝对零值 ,也就是0是不是代表没有。

总结一下,数据细分的四种类型,从下到上逐渐复杂:

fAbUBri.jpg!web

区分了不同的数据类型之后,就可以进一步,根据不同的数据类型采用不同的分析方法。从变量的个数来分有:单变量分析和多变量分析。

单变量分析

首先,我们来看单变量分析。

单变量分类型数据

对于单变量的分类型数据,我们主要分析其频率(Frequency)和百分比,所以使用频率分布表(Frequency tables)或柱状图和饼状图来进行展示。

qqUfUbR.png!web

单变量数值型数据

数据概况

数值型数据,会描述其 中心 (Center)、 分布 (Spread)和 形状 (shape)。

  • 中心:均值、中位数和众数

  • 分布:即数据离散程度,极差、四分位数间距(IQR)、方差和标准差

  • 形状:偏度(skewness)、峰度(peakedness)和 Z 分数(z-score)

图形化展示通常使用:直方图(Histograms)、箱线图(Boxplots)、密度图(Density Plot)和条形图(Barplot)。

五数概况法

数值型数据另一种典型描述方法是: 五数概况法(five number summary) 。五数概况法, 即最小值、三个四分位数和最大值。

  • 最小值:数据中的最小的数。

  • 最大值:数据中的最大的数。

  • 中位数(Q2, second quartile):数据集的中间数。

  • 下四分位数(Q1, first quartile):数据四分之一处的值。最小值和中位数之间的中位数。

  • 上四分位数(Q3 , third quartile):数据四分之三处的值。中位数与最大值之间的中位数。

构建方法:将数据按升序排列,然后确定最小值、最大值和三个四分位数。

aA7Rnmb.png!web

例如:

对于数据:[3, 7, 8, 5, 12, 14, 21, 13, 18]

排序之后:[3, 5, 7, 8, 12, 13, 14, 18, 21]

最小值:3

最大值:21

中位数 = 12

Q1 : [3, 5, 7, 8, 12 ] 的中位数为 7

Q3 : [12, 14, 21, 13, 18] 的中位数为 14

在R中,调用方法为:

summary(data)

例如:

r <- c(3, 5, 7, 8, 12, 13, 14, 18, 21)
summary(r)
Output
Min. 1st Qu. Median Mean 3rd Qu. Max.
3.00 7.00 12.00 11.22 14.00 21.00

箱线图

这里以箱线图为例进行讲解。箱线图可以展示五数概况,看出数据的集中程度和误差程度。箱线图于1977年由美国著名 统计学家约翰·图基 (John Tukey)发明 (对,就是是那个EDA的奠基人)。

五个数与箱线图各个部分对应的基础箱线图,如下:

EbYfuiJ.png!web

基础箱线图,加上对异常值的判断,可以得到修改之后的箱线图:

YJF77bJ.png!web

其中:

  • 新的最大值:Q3 + 1.5 * IQR

  • 新的最小值:Q1 -1.5 * IQR

  • 四分位间距 (interquartile range,IQR) = Q3−Q1

  • 异常值(显示为绿色圆圈) :超出新的最大值和新的最小值范围的数值

同样的,对于数据:[3, 7, 8, 5, 12, 14, 21, 13, 18]

在 R 中使用 boxplot() 绘制箱线图:

r <- c(3, 5, 7, 8, 12, 13, 14, 18, 21)
boxplot(r)

绘制结果:

FJZvemM.png!web

假设我们手动添加一些异常数据:-18,0,3, 5, 7, 8, 12, 13, 14, 18, 21,37

r <- c(-18,0,3, 5, 7, 8, 12, 13, 14, 18, 21,37)
summary(r)

绘制结果中可以看到异常点:

imuiuaY.png!web

其他图像,可以参考网页:

https://datavizcatalogue.com/ZH/index.html

总结

本文主要讲述数据类型和单变量分析,都是基本的描述性统计学中的内容,重点是理清楚概念。

互动

  1. 箱线图中的最大值一定是数据的最大值吗?

  2. 温度中,0 摄氏度的2倍是多少摄氏度?

    在公众号对话框中回复”温度“即可获取答案。

预告:

明天会推送,EDA 中篇 | 多变量数据分析

Reference

  • https://towardsdatascience.com/a-starter-pack-to-exploratory-data-analysis-with-python-pandas-seaborn-and-scikit-learn-a77889485baf

  • http://changingminds.org/explanations/research/measurement/types_data.htm

  • https://www.graphpad.com/support/faqid/1089/

Yru2mmI.jpg!web

看完了吗?点个 「在看」 支持下 :point_down:


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK