6

医学统计学的渊源

 2 years ago
source link: https://cosx.org/2013/08/biostats-series1-origin/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
医学统计学的渊源 | 统计之都

医学统计学应该从什么地方开始讲起呢?多数授课老师的讲课方式是简要说一些医学统计学的概念,然后接着介绍医学统计学的内容、各种概念等。当然,这也是绝大多数教材的结构安排。

我们这里不是讲课,所以我不从这里讲,我们要像讲故事一样。你怎么才能 tell story,让别人明白呢?我想首先要讲清楚这个故事的渊源,也就是来龙去脉。那么统计学的渊源是什么呢?所有统计学的发展,或者说统计学之所以存在,只有一个原因,那就是变异以及变异所导致的抽样误差。没有变异,没有抽样误差,就没有统计学存在的理由。想象一下,如果全世界所有人的身高都是 1.70 米,那还有必要进行抽样做统计推断吗?只要随便量一个人的身高,就知道了全世界人的身高。那统计学还有存在的必要吗?

Thanks god 和女娲在在创造人类的时候没有让所有人都完全一样,所以才会有今天统计学这门学科,所以才会有今天我能够写这个小文章,所有统计学专业人员才能以此为生。

所以说,变异和抽样误差是统计学的渊源,我们一定要先搞清楚这一点,然后才能开始学习统计学。

那么到底什么是变异呢?变异(variation)也就是不同,通俗来说也就是不一样,可能有的人觉得 “不一样” 这个字眼太俗气,所以起了个文雅的词叫“变异”。我们的身高都不一样,这就是变异;我们的血压不一样,这也是变异;我们吃了同一种感冒药,我 1 天就好了,你 7 天才好,这也是变异。总之,世界上没有完全相同的两片叶子,更不用说两个人,即使双胞胎,也不是完全一样的。所以变异是到处存在的。

可能有人说了,既然每个人都不一样,那还研究什么?尽管变异存在,但我们依然能够在变异之中找到一定的规律,这也正是统计学的目的和作用。比如,尽管我们体质都不一样,但不管怎么样,服了药之后可能都治好了某种疾病;而没有服药的人可能大多数人都没有治好,这就是规律。或者说,尽管每个人体格有异,但多数吸烟的人肺都有一定问题,这也是规律。所以我们要在小变异中发现大规律,这也是统计学存在的目的。

既然统计学是要阐明某种规律,那就要证明这种规律是放之五湖四海皆准的规律,只在一小部分人中存在的规律不一定是真的规律,有可能是偶然。就像某些 “大师” 声称自己治好了多少例疑难杂症,然后说自己的疗法包治百病。结果一查,一共只治好了 3 例。只在这 3 例中有效,这不是规律,这是“瞎猫撞上死老鼠”,这是偶然。

那怎么证明这种规律是真正的规律呢?起码有一点,那就是一定要在大量人群中都存在这种规律,最好是全世界人都有这种规律。然而这听起来就难以实现,怎么可能把全世界人都调查一遍呢,即使是一个县都很难全部调查。所以统计学家就想了一个办法,调查部分人群,然后用统计学的方法根据这部分人的结果来推广到全县、全国、甚至全世界。这就是抽样调查。

我们已经说了,每个人都是不一样的,比如全县有 30 万人,我只调查了 1 万人,这 1 万人肯定跟其余的 29 万是不一样的,那我怎么就能说明这 1 万人的结果能推广到 30 万人呢?这就需要一定的抽样和调查技巧,所以统计学发展出了很多抽样方法,如随机抽样。通过这些好的抽样方法,可以尽量保证这 1 万人与 30 万人特征差不多。比如可能这 30 万人中男女比例是 1:1.2,那这 1 万人也按这个比例选择。等等。

当然,不管如何抽样,总会存在抽样误差。举个例子,这一次你用随机方法抽取了 1 万人,能够计算一个数值,比如糖尿病发病率。假设你重新抽取 1 万人,仍然用随机方法,那第二次抽取的 1 万人肯定跟第一次不一样(1 万个随机数不可能完全一样),那么计算的糖尿病发病率肯定也不一样。如果你再抽取第 3 次、第 4 次、……,每一次抽取的 1 万人都不一样,每一次计算的发病率也都不一样。这种不一样就是抽样误差。如果每次抽样样本的发病率差别都很小,就表明抽取的样本较为稳定,代表性比较好,也就是抽样误差小。如果各次抽样样本的发病率差别很大,则表明抽取的样本不稳定,代表性较差,也就是抽样误差大。

如何估计抽样误差?我们已经说过,可以用多次抽样的结果之间的差别大小来估计抽样误差,但实际中我们不可能真的做这么多次的重复抽样,否则你的老板要疯掉了。医学统计学中,抽样误差一般用标准误来估计。标准误这一名词在很多统计方法中都会碰到,如 t 检验、线性回归、logistic 回归等各种回归。如果标准误较小,说明抽样误差小,样本代表性较好,结果较为可靠。但如果标准误较大,说明抽样误差大,提示样本代表性不强,这种情况下一般需要加大样本量,否则结果不可靠。

这么多年来,这么多统计学家拼了命地研究新方法是为了干什么呢?就是为了减少那么一点点的抽样误差,让结果变得更可靠。所以我们说不同数据用不同的方法,条件不一样时用不一样的方法,是为了干什么呢?就是为了减少标准误,让结果更可靠。

最后一句话结尾:统计学起源于变异,发展于变异,结束于变异,整个统计学发展都是围绕变异。

毕业于北京大学医学部,流行病与卫生统计学专业博士。现工作于中国疾病预防控制中心,负责中国疾控中心研究生和博士生的统计学教学工作。主要擅长各种回归分析、非独立数据分析、药物分析建模、新药临床试验中数据管理与统计分析、试验设计分析等。熟悉 SAS 软件的操作与应用,主编 SAS 专著 2 部:《医学案例统计分析与 SAS 应用》,《医学研究中的 logistic 回归分析及 SAS 实现》。现任 “北京市免疫规划和疫苗评价专家委员会” 专家委员、《中华护理学杂志》、《中国性病艾滋病学杂志》审稿专家,《慢性病学杂志》编委。博客:“卫生统计空间”冯国双

敬告各位友媒,如需转载,请与统计之都小编联系(直接留言或发至邮箱:[email protected]),获准转载的请在显著位置注明作者和出处(转载自:统计之都),并在文章结尾处附上统计之都微信二维码。

统计之都微信二维码

← R 中大型数据集的回归 微博名人那些事儿(二) →

发表 / 查看评论


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK