84

做数据分析不懂统计学很可怕!

 5 years ago
source link: http://www.10tiao.com/html/314/201806/2672941018/1.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

别以为你拿到一组数据,可以照猫画虎做出一组漂亮的图表,你就是数据分析师了,那么你懂数据上统计学的意义吗?


做数据分析最最最基础的就是统计学,工具的操作只是帮你快速业务流程梳理出关键性的分析和指标体系,那么这些体系和指标的度量和之间的关系就要依靠统计学去界定和规范


我们经常看到某某行业,某某公司的平均工资是每年20万什么的,然后如果恰恰自己又在这个行业中,看看自己的工资条,有些人会不会感到有点迷惑和不满?其实这些都是骗人的统计方式造成的。


如果一个公司有200人,普通员工180人,工资月薪3500元;管理层员工19人,月薪假设平均为5000元;老总1人月薪是20万;那么该公司的平均月薪是13625元,员工一年的平均工资十几万了,可是实际情况却并不是像数据显示的这样。



或者我们的网站改版了,视觉变化了,或者交互功能变化了,日点击量或访问量比未改版前提高20万次,那么是否可以根据这个升高的数据说明我们的改版是成功的?显然通过上面的例子我们不能如此简单的处理数据,并得出结论。


今天,我们就一起来讨论一些简单实用的统计方法,帮助我们在工作中更好的理解数据的意义。


从Z分数、T检验、X2检验、方差分析到回归方程等,基础的统计方法就有很多种,究竟该用哪种好呢?


我个人觉得传统的统计教材没意思的原因就是书中讲述的概念过多,脱离现实谈统计,实在不好理解,或者学过就忘记,或者遇到问题不会用。如果能结合各种实例,应该就会变得更加清晰了。所以,这里我们依靠一些例子来介绍一些常用的统计方法及适用范围,欢迎大家批评指导。


还拿我们上面的例子来说,一个网站改版了,新版的页面没有改变原来的交互操作,只是改变了视觉样式,用户访问量和点击量变化了,这些变化是好是坏?


首先我们来进行一下分析:


   1、我们已知的是改版前后点击量的数据和用户访问量的数据

2 、我们想知道这个变化是好是坏


要怎么做?算一下改版前后用户的百分比和点击量的百分,如果改版后用户量下降了,点击量下降了是不是改版就不成功?显然我们不能如此简单的看问题。要比较这两个样本,我们可以使用T检验。


T检验(Student’s t test)是用于小样本(样本容量小于30,总体标准差σ未知的正态分布)的两个平均值差异程度的检验方法。


但是T检验需要方差齐性决定结果,不过别担心,统计软件会帮我们进行校验。


好,我们把采集的数据输入(这个不用我讲了吧,txt文件就行)到统计软件中,然后进行配对样本T检验(相当于对于一个处理进行前后测,所以使用配对样本T检验),得到结果如下表(用spss做的,数据是我编的):




我们只关注黄色部分就可以了,其中第一项是均值,std是标准差,t值,df代表自由度,sig为p值,在本例中,我的置信区间是95%,所以如果sig<.05就代表差异显著。


从表上看,改版前后点击量和用户数两项上差异并不显著,所以我们可以认为这次改版至少没引起什么不良的影响。


也许有人会觉得得出这样一个无关痛痒的结论没意思,但是请大家想一想,与其单存因为数据量上的增加或减少就兴高采烈的去邀功或者垂头丧气的准备修改方案,也许真实的统计数据更能说明问题,可以让我们静下心,思考一下,应该如何改进我们的工作。


当然现实问题往往更复杂,仅就改版为例,我们需要考虑很多问题,例如:


1、改变了哪些内容? 外观还是交互方式?或者外观+交互方式?布局有什么变化?交互方式的变化对用户完成一个任务所需的步骤或点击次数是否有改变?

2、改版前的数据采集了多少天?改版后的数据采集了多少天?

3、改版前后的时期在每一年的相应劫夺,用户的访问量是否有显著变化?趋势是怎样的?

在这里我只是仅仅举了一个简单的例子和大家分享一下统计学的思想。

Statistics are like a bikini. What they reveal is interesting. But what they hide is vital.


学习统计学能让自己的分析报告更有说服力,也能从一定程度上规范自己的分析思维


再举个栗子:


M:吉斯莫先生有一个小工厂,生产超级小玩意儿。

M:管理人员由吉斯莫先生、他的弟弟、六个亲戚组成。工作人员由 5个领工和10个工人组成。工厂经营得很顺利,现在需要一个新 工人。

M:现在吉斯莫先生正在接见萨姆,谈工作问题。


吉斯莫:我们这里报酬不错。平均薪金是每周300元。你在学徒期间 每周得75元,不过很快就可以加工资。

M:萨姆工作了几天之后,要求见厂长。


萨姆:你欺骗我!我已经找其他工人核对过了,没有一个人的工资超 过每周100元。平均工资怎么可能是一周300元呢?

吉斯莫:啊.....

萨姆: 不要激动。平均工资是300元。我要向你证明这一点。

吉斯莫:这是我每周付出的酬金。我得2400元,我弟弟得1000元, 我的六个亲戚每人得250元,五个领工每人得200元,10个 工人每人100元。总共是每周6900元,付给23个人,对 吧?

萨姆:对,对,对!你是对的,平均工资是每周300元。可你还是蒙 骗了我。

吉斯莫: 我不同意!你实在是不明白。我已经把工资列了个表,并 告诉了你,工资的中位数是200元,可这不是平均工资,而 是中等工资。

萨姆:每周100元又是怎么回事呢?


吉斯莫:那称为众数,是大多数人挣的工资。

吉斯莫:老弟,你的问题是出在你不懂平均数、中位数和众数之间的 区别。


萨姆:好,现在我可懂了。我……我辞职!


好了,现在推荐一门数据君携手方老师一起打造的漫画统计学,永久重复学习,让你的职场更顺利。


这门课程通过漫画+视频+实践操作更你更好的理解统计学,我们也会讲解数据分析师必备的高大上模型,例如聚类、回归、因子、决策树等,无论是面试还是职场都让你更懂数据分析


最近活动价只要129,原价199


扫码购买






About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK