2

中国统计之网

 2 years ago
source link: https://cosx.org/2011/09/coauthorship-network-of-china-stat/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

此拙作成文于几个月之前,与逸波兄的大作《社会网络分析:探索人人网好友推荐系统》属同期同类之作。由于当时担心会引起是非或争议,所以犹豫再三而没有发布。现在想来,我们还是应该开放一点、宽容一点,所以请大家不妨以 “纯洁” 的眼光看待这里研究的关系网络,并望各路高人:口中留情,手下留轻。 🙂

本文使用的数据全部来自互联网公开数据,数据分析工具主要是 R 软件,其中的关系网络分析与作图主要使用 tnet 包和 igraph 包完成。

一、数据来源与处理

下面将要分析的数据是从中国知网抓取的中文统计核心期刊《中国统计》(2000.1 – 2010.11)、《统计研究》(2003.1 – 2011.1)以及《数理统计与管理》(2000.2 – 2011.2)十年左右的数据。原始数据都存储在 Excel 表格中,其格式如下:

原始数据格式

表 1 中从第二行开始,每一行是一篇文章的记录,上述三大期刊分别有 729、1897、1371 条记录,一共 3997 条记录。

这里要研究的是合著关系网络,因此需要将表 1 中的第二列的作者数据提取出来。不难发现,表 1 中当一篇文章的作者多于一个的时候,是使用分号 “;” 隔开的。我们可以借助这个分隔符进行中分分词,这样就能将所有作者提取出来。在搜索每篇文章以提取作者的时候,顺便去掉了没有作者的文章(这种文章一般不是论文), 去掉了只有一个作者名但其字数大于 4 的文章(一般是以某个机构或小组署名的文章),以及去掉了英文名。于是得到了如下形式的每篇论文的作者列表(一共 3617 篇文章,以前 6 篇文章为例):

每篇论文的作者列表

经过拼音排序后没有去重的作者列表(一共 6568 位,以前 20 位为例):

按拼音排序的作者列表

不同作者发表论文的频次表(一共 4293 位不同的作者,以后 50 位为例):

不同作者发表论文的频次表

二、基本统计与网络分析

 2.1 描述统计分析

表 5 是上述中文统计核心期刊的一些基本统计数据:

中文统计核心期刊基本统计数据表

由表 5 可以看出,平均每位作者发表 1~2 篇论文,极个别人发表了 33 篇论文。而从图 1 中我们可以发现,在核心期刊发表 1~3 篇文章的人占了绝大多数,能发 5 篇以上的人就非常少了。

发表论文数的作者频数分布图

由表 5 和图 2 可以看出,一个人发文章或者两到三个人合写文章的情况比较常见,一篇文章的作者数超过 4 人的情况极少。值的注意的是,有一篇文章的作者数达到了 18 人,通过查找原始数据,发现它是一篇国际统计论坛的综述,其作者是该论坛主办单位的许多老师。

每篇论文作者数的论文频数分布图

我们还能从表 5 和图 3 中发现,平均每位作者大约有 1~2 位合著者,“单干” 的情况也较常见,为数不多的人会有 10 个以上的合著者。

合著者数的作者频数分布

通过这些图、表的简单展示和分析,我们对中国统计学界近 10 年的情况有了一些粗浅的了解。

 2.2 权的定义与合著关系网络的构建

下面我们来讨论中文统计核心期刊合著关系网络的构建问题。

合著关系网中的顶点是全部论文的所有作者。如果两位作者的名字同时出现在某一篇论文的署名当中,那么就在两者之间连接一条边,表示他(她)俩有过合著关系。如果一篇论文有 n 个作者,那么就产生了 n(n – 1) / 2 种两两合著关系。比如表 1 中的第 2 篇论文就可以建立 3(3 – 1) / 2 = 3 条边:周建章–余洁平,周建章–苏毓腾,余洁平–苏毓腾。注意,当两个特定的作者 v w 同时出现在多篇文章当中时(这是俩人合著关系强弱的某种体现),我们对 v w 不再重复连接,这样保证了网络是简单网络。

如果我们只关心作者两两间有没有合著过,而不关心合著关系的强弱,那么我们得到的网络就是一个无权网络。但是权重信息对于发现有效的社群结构可能是非常有用的。所以我们有必要将合著关系的强弱体现在边的权重上,从而构造一个加权图来更好地实施合著关系网的社群挖掘。

接下来的问题就是:怎么构造边的权重?

曾经有人利用两个作者合著的次数来定义权重。这种定义方式考虑了合著次数这个反映关系强弱的重要信息,但是它有不足之处:根据我们的常识,一篇两个作者的论 文很可能比一篇 6 个作者的论文有更强的两两合著关系,因为作者之间的熟悉程度与时间投入一般会因为作者数目的增多而减弱。

我们综合考虑合著次数和单篇论文作者数目这两个因素来定义作者 v w 之间权重:

权重公式图示

其中nk表示论文 k 的作者数目,当作者 v 在论文 k 中出现时,deltakv等于 1;否则为 0。 公式中的分母nk – 1 排除了只有 1 个作者的情况(即 v 不能等于 w),因为这种情况对合著关系来说是没有意义的。

图 4 是该定义的一个示例,图中的作者 v w 一起发表过 3 篇论文,其中第一篇论文有 4 个作者,第二篇论文有 2 个作者,第三篇论文有 3 个作者,于是 v w 在 3 篇论文中的合著关系强度分别是 1 / 3、1、1 / 2,所以 v w 总的合著关系强度是 1 / 3 + 1 + 1 / 2 = 11 / 6。

合著权重定义示意图

我们计算出最大权重是 8,最小权重是 0.06,可见合著关系最强与最弱相差悬殊。而平均权重是 0.65。

定义了顶点、边与权重,那么加权合著关系网络的构建也就完成了。我们构建的网络有 4293 个顶点,3827 条边。而理论上最多有(42932–4293)/2=9212778条边,可见这种合著关系网络是很稀疏的,其实稀疏性在社会关系网络中是很常见的。

2.3 聚类系数分析

聚类系数分为局部聚类系数和全局聚类系数,它们反映了网络中局部或者全局的群聚效应。

我们计算出合著关系网络的全局聚类系数是 0.57,跟 Newman 文献中的 7 种合著关系网的聚类系数相比处于第 2 位(第 1 位是 0.726,第 3 位是 0.496)。可见从整体上来说,中国统计学界合著的群聚效应比较明显。

我们还发现,网络中有 2396 位(约占整个网络的 56%)作者的局部聚类系数不存在,即他们的度为 1,也就是说他们都只与 1 个人合写过文章。令人惊讶的是, 有 1359 位(约占整个网络的 32%)作者的局部聚类系数为最大值 1,可见网络中存在相当多的 “三角” 合著关系。有 151 个人的局部聚类系数为最小值 0, 也就是说与这些人合著过的作者之间并没有发生合著。

2.4 距离与中心性分析

2.4.1 距离与最短路径

两个顶点间的距离就是它们之间的最短路径的长度。现在我们考虑的是加权图,所以距离不再是边的条数之和了,而是边的权重的倒数之和。之所以取倒数,是因为权越大其倒数就越小,意味着关系就越近。

我们计算出最大加权距离为 42,平均加权距离为 16。这种距离虽然考虑了权重,但是不够直观。反而无权距离的实际意义更明显一些,无权距离减去 1 就表示两个 人之间建立联系至少需要经过多少个人。我们算出来的无权距离最大值是 18,平均值是 6.8,后者表示在该合著网络中任意两位作者建立联系大约平均至少需要 经过 5~6 位作者,这与社会学中有名的 “六度分离” 理论比较吻合,表现出“小世界效应”,这也许反映了合著关系网络一定的社会性。

2.4.2  中心性

中心性是社会网络中的一个重要概念,它是度量网络中成员重要性的某种指标。常见的中心性包括:顶点的度、中间性、接近性等等。这些中心性指标从不同的角度反映了顶点的某种重要性。

顶点的度在无权网络中是与该顶点连接的边的条数。在加权网络中对应的概念是顶点的强度,即与该顶点连接的边的权重之和。有意思的是,在合著关系网中,顶点的强度其实是作者合写文章的数目:

合写文章数目公式图示

我们的合著关系网中,顶点强度最大值是 20,最小值是 0,平均数是 1.2,中位数是 1。顶点的强度排名前 10 的作者如下表所示:

顶点的强度排名前10的作者

顶点的中间性是经过该顶点的最短路径的条数(给定顶点对之间若有多条最短路径,则不重复计算)。顶点的中间性反映了顶点起 “桥梁” 作用的大小。不过我们现在将最短路径替换为加权最短路径。顶点的中间性排名前 10 的作者如下表所示:

顶点的中间性排名前10的作者

顶点的接近性是某顶点到所有其他顶点的平均最短路径长度的倒数:

顶点接近性公式图示

其中 | V | 是网络中总的顶点数,gd(v, w) 表示顶点 v w 的最短路径的长度。cnv的值越大表示顶点 v 与 网络中的其他成员越接近。我们的加权合著关系网络中顶点的接近性的最大值为 110.9,最小值为 0(这是孤立点),平均数为 7.4,中位数为 1.5。平均 数比中位数大很多,意味着接近性呈偏态分布,大多数人的接近性较低,少数人的接近性很高。顶点的接近性排名前 10 的作者如下表所示:

顶点的接近性排名前10的作者

比较表 6、表 7 和表 8,我们会发现,在 3 张表中都出现过的人只有谢邦昌(台湾辅仁大学统计信息学系教授)、朱建平(厦门大学计划统计系主任)和曾五一(厦门 大学经济学院副院长、中国统计学会副会长);出现过两次的只有缪柏其(中国科学技术大学前任统计与金融系主任)、金勇进(中国人民大学统计学院前任院 长)。数据表明,这些学者不但中心性高,而且发文数也高,而实际上他们也确实是中国统计界很有影响力的人物。尤其引人注目的是,谢邦昌教授的 3 种中心性都排名第一,即他与别人合写的文章最多、“桥梁” 作用最大、与同行最 “接近”。需要说明的是,由于我们只选取了 3 个中文核心期刊 10 年左右的数据,还没有考 虑英文期刊,所以很可能会遗漏一些重要的学者以及与真实情形会有偏倚。

值得注意的是,表 6 中顶点的度的高低与发文数是正相关的,但其他表中 的中心性就不全是这样的了。有些中心性高的作者发文数并不多,比如李海涛(曾五一的博士研究生)和来升强(朱建平的博士研究生),还有李善同(国务院发展 研究中心发展战略和区域经济研究部研究员)。李海涛和来升强的导师都是中心性很高的人,所以可能对二者的中心性有很大的拉动作用;而李善同与表 7 中的袁卫 (中国人民大学前任统计系主任)和表 6 中的许宪春(国家统计局副局长)都合发过文章,她的中间性很可能因此提升,而且她对统计学与经济学的交叉研究起到了 较好的桥梁作用。

综上我们可以归纳一点:多发文章或者多与别人(特别是有影响力的人)合写文章,是在学术界中建立广泛联系并提升自身影响力的一种好方式。

 三、社群挖掘分析

3.1 合著关系网中的成分

前面我们对加权合著关系网络进行了探索性描述分析和传统社会网络分析,获得了对这个网络的一些基本的感觉与认识。下面我们尝试利用 WCMN 算法(加权 CMN 算法)对该合著关系网络的社群结构进行挖掘分析,以期得到有意义、有意思的学术社群结构。

我们对社群有一个基本假设,就是社群内部的每一对顶点之间至少存在一条内含的路径,也就是社群要有连通性。我们主要对非连通图的每一个连通成分进行单独分析,从而简化了在非连通图上挖掘社群的复杂性。一个连通成分就是一个局部最大的连通子图。

我们的合著关系网络有 4293 个顶点,3872 条边。经检验,该网络不是连通的网络。这是很正常的,这么大的社会网络中任意两个成员之间都连通几乎是不可能的。但是我们的网络中存在 1773 个连通成分,具体情况下表所示:

不同规模连通成分的个数

从表 9 中我们可以看出,绝大多数连通成分包含的顶点数都只有区区的几个。唯有两个连通成分的规模明显大于其他连通成分:一个含有 383 个顶点,另一个含有 156 个顶点。

我们的第一大连通成分包含 383 个顶点,750 条边,如图 5 所示。下文我们将以最大连通成分为例进行社群挖掘。在进行社群挖掘之前,我们从这些网络中几乎是看不出什么社群结构的。

最大连通成分网络

3.2 模块性与最佳社群数

WCMN 算法是一种直接对模块性 Q 值进行最优化以寻找最佳社群结构的凝聚算法,它朝着使 Q 值增大最快或减少最慢的方向将社群一步一步地融合。在这个过程当中会出现 Q 的峰值Qmax,如图 7 所示。我们认为Qmax对应的社群结构就是最佳社群结构,Qmax越大表明我们的算法效果越好。

社群融合过程中Q值的变化图

上图是 WCMN 算法对最大连通成分进行社群挖掘的 Q 值变化图。因为有 383 个顶点,所以一共有 382 次融合。在第 359 次(即倒数第 24 次)融合的时候 Q 达到最大值 0.87,所以最佳社群数目是 24。这里的Qmax高达 0.87,所以这个最大连通成分中可能存在明显的社群结构,同时也可能是 WCMN 算法效果良好的一个表现。

3.3 合著社群及其可视化

我们已经利用 WCMN 算法将最大连通成分的 383 位作者划分为 24 个合著社群,如表 10 所示,表中每位作者上方的数字是 1~383 中的某个编号,编号大小与作者在我们所选的期刊中的发文数成正相关。通过 2.4 节的分析,我们知道这里编号较大的作者一般处于网络的中心位置或者桥梁位置,观察于网络的中心位置或者桥梁位置,观察下文的图 8 发现确实如此。

最大连通成分的合著社群1

最大连通成分的合著社群2

最大连通成分的合著社群3

最大连通成分的合著社群4

最大连通成分的合著社群5

为了更直观地了解这 24 个社群,我们将 383 位作者构成的网络进行可视化展示,如图 8 所示。图中一共有 24 种渐变的颜色,每种颜色代表一个合著社群,圆圈的大小与顶点的强度正相关,线条的粗细与边的权重正相关。

WCMN算法社群挖掘效果可视化

图 8   WCMN 算法社群挖掘效果可视化

分析表 10 和图 8,可以发现我们挖掘出来的社群与实际情形比较吻合,这些社群里面蕴藏了很多有意思、有价值的信息:

  1. 反映了不同的学校或研究机构:中国人民大学统计学院(社群 1),国家统计局(社群 2),中国科学院数学与系统科学研究院(社群 3),吉林大学(社群 6),山西财经大学统计学院(社群 11),厦门大学经济学院计划统计系(社群 14),中国科学技术大学统计与金融系(社群 15),西南财经大学统计学院(社群 16),东北财经大学统计系(社群 17),暨南大学经济学院统计系(社群 19、20),北京航空航天大学经济管理学院(社群 21),北京大学光华管理学院 (社群 22),清华大学房地产研究所(社群 24)等。
  2. 反映了不同的研究方向或领域:国民经济核算与投入产出分析(社群 2、23),国际竞争力(社群 8),宏观经济统计(社群 10、11、14、17),金融统计(社群 3、15、21),数量经济(社群 6),质量管理(社群 4、7),数据挖掘(社群 9),风险管理与精算(社群 12),数理统计(社群 13),抽样调查(社群 18),社会经济调查(社群 19),绿色核算(社群 22),房地产经济 (社群 24)等。
  3. 反映了不同机构、学者或领域之间的沟通与合作:国家统计局与高校的合作(社群 2、4),台湾、人大、厦大、清华在数据 挖掘领域的合作(社群 9),人大与天津财大在风向管理与精算方面的合作(社群 12),不同单位在质量管理方面的合作(社群 7),不同机构的数理统计学者的 合作(社群 13),数学学院与商学院的合作(社群 6),数学与金融的结合(社群 3),抽样技术与数据挖掘的结合(社群 9),房地产与统计的结合(社群 24),老师与学生的合作(社群 8、15、18、19、20、23),学者与母校的合作(社群 13、16)等。

以上结果很好地印证了前面的说法:高达 0.87 的Qmax值预示着这个网络中可能存在明显的社群结构。同时也有力表明:WCMN 算法对这种加权合著关系网络具有良好的应用效果。

如果不考虑权重的话,那么 WCMN 算法就变成了 CMN 算法,这时候我们得到Qmax = 0.79,最佳社群数是 20,不出所料两个数值都比前者的小。效果其实也还不错(如图 9 所示),只是没有 WCMN 算法挖掘得那么精细,毕竟它利用的信息少 一些,比如人大统计学院的国际竞争力、抽样技术、风向管理与精算三个研究方向就没有区分开;还有将谢邦昌老师归于人大统计学院这一群体似有不妥,而 WCMN 算法是将谢老师与人大、厦大的某些数据挖掘方向的老师与学生整合为一类。

CMN算法社群挖掘效果可视化

图 9   CMN 算法社群挖掘效果可视化

原始数据下载请点击这里

敬告各位友媒,如需转载,请与统计之都小编联系(直接留言或发至邮箱:[email protected]),获准转载的请在显著位置注明作者和出处(转载自:统计之都),并在文章结尾处附上统计之都微信二维码。

统计之都微信二维码

← 从另一个角度看统计学留学申请 分类器评价、混淆矩阵与 ROC 曲线 →

发表 / 查看评论


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK