0

数据的“有我之境”与“无我之境”

 1 year ago
source link: https://www.biaodianfu.com/data-realm.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

王国维的境界

王国维在《人间词话》中把艺术境界分为“有我之境”与“无我之境”两种:

  • 有我之境:
    • 泪眼问花花不语,乱红飞过千秋去。
    • 可堪孤馆闭春寒,杜鹃声里斜阳暮。
  • 无我之境:
    • 采菊东篱下,悠然见南山。
    • 寒波淡淡起,白鸟悠悠下。
wangguowei.png

有我之境,以我观物,故物皆著我之色彩。无我之境,以物观物,故不知何者为我,何者为物。

老王的 “境界”不能简单的理解为,人在其中,或者人不在其中。我的理解:

  • 有我:主观表述,就是观察者为“主”,参与到被观察事物当中。此时,被观察事物的性质和规律随观察者的意愿不同而不同。
  • 无我:客观观察,就是观察者为“客”,自外于被观察事物。此时,被观察事物的性质和规律不随观察者的意愿而改变。

数据的“有我”与“无我”

主观与客观

maodun.jpg

原则上数据是客观的,但是统计数据的人有主观性,这就导致数据分析的结果往往没有这么客观。

若一个判断或观点完全以个人独有的视角为基准,这样的判断通常称为“主观的”。因为这样的观点具有狭隘性,或许未能考虑所有事实,或许未能超越个人视角。若一个判断涵盖了所有相关数据,摒弃了个人偏见,能与其他人达成共识,就可以说这样的判断是“客观的”。因为这样的判断以事实为依据,超越了个人视角。可以看出,主观性从属于主体的思想意识,而客观性独立于或超越了主体。

在哲学的许多领域中,主观性和客观性的区分都十分重要,例如伦理学中的道德判断、艺术中的美学判断等。有些哲学家认为,所谓客观性不过是一群主体的共同信念;有些则认为客观性一定独立于或不同于主观性;还有一些人认为,一群主体的共同信念或许不是客观真理,但在实践中起到了客观真理的作用,是一种“交互主体性”(intersubjective)的真理。那么真的存在客观知识吗?即使超越了个人视角,我们仍局限于受特定历史和社会环境影响的人类视角之中。也就是说,我们对事物的理解,必然以已有的价值和信念为基础,这被称为“解释学循环”。根据尼采的视角主义,所有知识都要从某个特定视角出发,因而并不存在客观性。但Nagel认为,应将主观性和客观性看作两个极端,一端是纯粹的主观性——完全基于主体个人的观点,另一端则是从未实现的客观性——完全独立于特定视角的知识。在这两端之间,可以将不同的知识定位于不同的位置。或许知识永远无法绝对客观,主观性永远无法完全根除,但这并不妨碍我们追求更具客观性的知识。

选择性偏差

选择性偏差指的是在研究过程中因样本选择的非随机性而导致得到的结论存在偏差,包括自选择偏差(self-selection bias)和样本选择偏差(sample-selection bias)。消除选择性偏差,我们才能拨云见日,从简单比较中得到我们想得到的因果效应。

自选择偏差是指解释变量不是随机的,而是个体选择的结果,而这个选择的过程会使对主效应的估计产生偏差。自选择偏差与遗漏变量非常相像,很多学者提到自选择偏差也是内生性问题的来源之一,但其实自选择偏差本身是另一个研究问题,只是往往会造成遗漏变量,所以会误让人以为自选择是造成内生的主要原因之一。例如研究是否上大学对收入的影响,我们将上大学的和没上大学的人进行简单比较,我们会发现大学生的平均工资比没上过大学的人的平均工资高。事实上,这种简单比较就存在严重的自选择问题,因为在这里比较的两类人在自身特质方面可能存在很大差异,上大学的孩子可能本身就很出色(更聪明、有毅力、能力强…),因而更有可能获得更高的收入。

样本选择偏差是指样本选择不是随机的,使样本不能反映总体的某些特征,从而使估计量产生偏差。赵西亮老师举了一个关于中国农村教育收益率的估计的例子。由于户籍的限制,在城市化过程中,农村中最有能力的个体率先通过升学、参军等途径突破户籍限制进入了城市体系,在调查样本中无法观测到这些已经成为城市居民的原农村居民,而调查数据中的个体是那些没有办法突破户籍限制的样本,因此,农村的样本就是一个选择性的样本,使用这一样本估计农村教育收益率将大大低估农村教育的作用。再比如,我们很多大学生为了课程作业、毕业论文、亦或是所谓的学术科研调查活动,在网上发布调查问卷,然后转到朋友圈,这种调查方式本身就存在样本选择问题,因为还有一大部分人群不在你的朋友圈(你的好友列表都是你的同学啊、朋友啊),还有一大部分人群根本不使用互联网,或者说根本不会看到你发布的问卷。

幸存者偏差

幸存者偏差指的是只能看到经过某种筛选而产生的结果,而没有意识到筛选的过程,因此忽略了被筛选掉的关键信息。

我们来看一个比较久远的一个例子,二战的时候美军为了加强战机的防护能力,所以就把参加过战斗的飞机研究了一遍,发现飞机的弹孔大多集中在机翼和尾部,于是分析中心的工作人员认为建议将这些受损最严重的地方加固。

统计学家亚伯拉罕·沃尔德(Abraham Wald)却得出一个跟直觉相反的结论。他发现参与调查的都是在战斗中幸存下来的飞机,它们并未遭受致命的袭击。相反,机舱和发动机等看似毫发无伤的地方反而比较危险,因为这些区域一旦被击中,就会导致飞机失事坠毁。其实我们看到的飞机是被筛选过后的飞机,还有一部分已经坠毁的飞机我们是看不到的,这就是幸存者偏差。

再比如经常会在脉脉、知乎这样的平台上看到,仿佛人人都是年薪百万,只有自己是个战斗力不足五的渣渣。这其实都是属于幸存者偏差,那些年薪百万的人会主动展示自己,还有一大堆不是年薪百万的都被过滤掉了。

数据分析中的坑

把沉默用户当做支持和反对的中间态

2家网站A和B,都经营类似的业务,都有稳定的用户群。它们都进行了类似的网站界面改版。改版之后,网站A没有得到用户的赞扬,反而遭到很多用户的臭骂;而网站B既没有用户夸它,也没有用户骂它。如果从数据来看应该是网站B的改版相对更成功,因为没有用户表达不满。但事实并非如此。网站A虽然遭到很多用户痛骂,但说明还有很多用户在乎它;对于网站B,用户对它已经不关心它了。网站A指的是Facebook,网站B是微软旗下的Live Space。

把数据作为决策的唯一标准

通常认为数据分析指导工作是一种高性价比的做法,比起依赖于人的决策, 依赖于数据的决策似乎更稳健.。这种决策在从0.5向0.8的产品改进上, 可能是有效的。但对于从0到0.1的新产品上, 由于数据很难获取, 需要花大力气在获取模拟数据上,往往是用一周时间去想明白一个做两个小时的产品该不该做的问题。而且模拟的结果还和最终实际相差很远。A/B 测试,先做出来再去验证在一些场合下比先拿数据要有效的多。

认为数据是绝对客观的

为 了减少内耗往往依赖于数据来做决断,=数据本身是带有主观性的,完全客观的数据是没有的。数据的获取方法、数据的解读方法、数据的统计方法都是人的决策。 一份数据拿出两个相反的结论来也不是没有可能。即使主观上没有偏向性也受限于方法和视野。决策上最终起作用的还是人不是数据。

不以物喜不以己悲

对于业务分析,我们常常会因为数据增长而高兴,业务数据下降而忧愁,这样的想法本身没有什么错误。但需要规避的是:

  • 当数据有增长时,兴奋过头,不取分析是有由于偶然还是比如,增长来自于主动还是被动。
  • 当数据有下降时,怀疑数据的准确性,甚至换其他角度分析数据,忽略这部分数据,跳过分析下降原因。数据汇报报喜不报忧。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK