好文档 - 专业文书写作范文服务资料分享网站

MCMC题O奖论文whoisthehiddenchampioninanetwork(中文翻译)

天下 分享 时间: 加入收藏 我要投稿 点赞

其中dij是i到j的最短路径长度,同样的,沿着这条路径的边是最少的,n是顶点的数量。

直观的说,一个小的li表明顶点i与其他顶点是紧密的,从而有更多的信息获取。此外,紧密的顶点更容易相互交流,传达他们的想法,这就导致他们有更大的直接影响力。不像之前测量的度中心性和特征向量中心性,平均距离反而 因此,我们计算li的倒数,这就是我们定义的紧密中心性。

这里,我们以紧密中心性排列的方式列出了前十位有影响力的作者。

④ 介数中心性(Betweenness Centrality)

介数中心性提供了一个不同的概念。它测量的是一个顶点位于多少条其他顶点的路径上。具体而言,我们先假设有某种东西,通过网络从一个人流动到另一个人。例如,信息,新闻在社会网络中从一个人传递到另一个人,而合著者网络就是一个特殊的例子。然后我们做一下假设: I. 每单位时间,每一对连接的顶点从图中被挑选出的概率是相等的。然后这一对

顶点交换信息。

II. 信息总是沿着(图中)测量的路径传递,如果同时有几个最短路径,则随机选

择一个。

在一段适当的长时间内,信息沿路径传递的概率是相等的。因此,我们可以得出这样的结论:通过一个顶点传递的信息的数量与这个顶点所处路径的数量是成比例的。所

以,我们定义一个顶点i的介数中心性xi形如:

是从s到t,通过顶点i的路径的数量。

是s到t的路径的总数。(规定0/0=0)

然而,由于我们计算机计算能力的限制,我们可以在不改变定义的情况下修改一下计算介数中心性的过程[4]。让

作为指标函数,衡量从s到t,通过顶点i的路径,然

后我们重新定义介数中心性如下所示:

介数中心性符合常识。一方面,高介数中心性的个体对其他顶点之间的消息传递有更

多的控制,从而可以从他们的位置获得更多的“权利”。另一方面,如果高介数的顶点被从网络中移除,在其他顶点的大量信息传递将被中断。一个简单的例子,一个唯一的顶点连接着两个巨大的“顶点组”,就好像一座桥梁,而这个顶点的度可能很小。虽然这些强有力的假设在现实中并不成立,介数中心性仍提供了一个粗略的衡量标准,对于信息流动中的有影响力的顶点。

利用介数中心性测得的前十位有影响力作者如表6所示

中心性总结

我们总结了上面4种方法所得到的有影响力的作者。 如表7所示

因为这些方法得到了相同的最有影响力作者。所以我们确定,ALON, NOGA M 在网络中最具影响力。

任务3:引文网络

前面所述的合著者网络解决了寻找(最)有影响力的作者的问题。对于论文影响力的衡量,这里有另外一种关于引用(量)的测量方法,这是一个在学术领域内全球化的标准。被网络科学所引导,我们也建立一个,由16篇ICM问题3 所提供的文章组成的

“引文网络”。

类似于之前的任务,我们用一个邻接矩阵M=16是指文献的数量,并且

来呈现这个网络。其中

(文献j被文献i引用 =1) (其它 =0)

值得注意的是,引用关系是反对称的 所以C不具有对称性。特别的,我们有

(狄拉克函数)

引文网络图可以用matlab2011@a的绘图软件绘制。如图2

其中,我们只取了每一篇文献的第一作者圆括号后面的出版日期4以及合著时间5 注意,表2中,i→j表示cij=1,也就是说j被i引用

与图1所绘的合著者网络相比,由于(所取得数据)规模较小,所以引文网络也是稀疏,清晰的。

图2中的网络是有向的,我们也可以通过建立无向图来研究。这些都会在下文进行讨论。此外,由于合著者关系过于稀疏,所以我们在这个任务中决定放弃它。 ① 无向图方法

为了建立无向图,我们需要寻找邻接矩阵C中的对称关系。注意到CC和CC都是对称矩阵,我们这样解读它们的意义 i.

CC:若一篇文献同时引用了i和j

T

T

T

表示同时引用了i,j的文献 的数量,这个叫做合作文献关

系。

T

ii. CC:若一篇文献同时被i和j引用,

表示同时被i, j引用的文献 的数量,这个叫做共同引文关系。

由于这些关系都是对称的,在表2中使用的中心性测量方法就可以在这里应用。我们在表8和表9中列出了前三名的结果。

通过这些表格,我们有以下结果。与最后一列的引文顺序作比较,“合作文献关系”方法给出了一个更接近的顺序。第二,大体上来看,表8中的出版年份比表9中的早。最后,根据图2来看,表8中的文献常常被引用;表9中的文献倾向于引用他人的。实际上,所有的这些特性可以用它们本身的关系来解释。合作文献关系中,当文献i, j被其它文献同时引用时,(i,j)是一个高权重的边。而在共同引文关系中,当i, j引用很多篇相同的论文时,(i, j)是一个高权重的边。因此,表8中的论文往往被其它文献引用,并且较早的出版。反之亦然。

第一次观察,我们需要记住一个被广泛接受的原则:被引用的东西是更有影响力的和有价值的。因此,合作文献关系保证了连接的论文会被其他人引用的。而“共同引文关系”的论文则可能作为新的论文被评估。因此,“合作文献关系”更实际,也适合整体的引用次数的顺序。结论:在这个无向图方法中,Barabási1999是最有影响力文献。 ② 有向图方法

现在,我们回到邻接矩阵C中的有向图

不像合著者网络中,作者(顶点)之间的关系,引文网络处理的是文献。在介数中心性和紧密中心性的信息流动(传播)方式与这里有些类似。然而,我们的期望是,一个有影响力的论文被引用很多次,而且通过其他重要论文,这仍符合常识。而这也证实了度中心性和特征向量中心性的有效。因此,我们采用以下方法:

? 引用次数: 计算“谷歌学者“中的引用次数,如上文; ? 度中心性:计算每一个顶点的入度;

(在有向图中,一个顶点v的入度是指与该边相关联的入边)

T

? 特征向量中心性:计算C的主特征向量; ? 改良Katz中心性:在下文介绍。

如前文所述,特征向量中心性是为了描述,通过边来溢出顶点的影响力。这意味着被引用的一个重要论文,在引文网络的影响力会越来越大。然而,引文的影响力收益是递减的,尤其是研究论文,因为其在学术领域被过度泛滥引用的现象。因此,从动态角度来看,我们将(9)式改为:

其中,

表示论文j被引用的次数,参数p∈[0, 1]递减。注意,在(16)中,

我们规定了“新论文”的影响力,即没有被引用的文献,为0,这是我们改进的地方。因此,在(16)中增加另外一个词:

因此,参数b≥0是每一个新论文的待估计影响力。易将(17)推导,得矩阵:

对于确定的邻接矩阵R,标准化就是让R中的最大元素单位化,1就是所有1(单位元

(1)

素)的列向量。(18)是一个迭代方法,计算稳态的w,在w= 0时,这是Katz中心性[4]增加的一个额外的标准化步骤。实际上,谷歌用于排列网页的page-rank方法也就是Katz中心性方法的一个延伸。至于参数选择的影响,感兴趣的读者请参照后文,“灵敏度分析”。

我们通过上面的方法,列出了前三名最有影响力的论文,如下

表10中的结果是彼此接近的,表明原始的引文网络直接考虑的坚固性。并注意到,Albert2002在我们的分析中,总被引用次数并没有胜过其他论文,这是由于我们筛选的论文数量太少,而使这片文献的引用数太少。结论:Watts1998是最有影响力论文。

③ 拓展

到目前为止,我们已经评估了研究人员和论文的影响力。而我们的网络框架可以被开拓到评估个人,大学,部门,期刊等等。在学术领域中,所有这些项主要就是由研究文献组成,因此我们可以继续用前面研究论文影响力的框架来继续研究这些问题。具体而言,我们把个人,大学,部门,期刊视为顶点,建立一个有向的引文网络图,其中i→j表示顶点j的论文被顶点i引用。注意,在这种情况下,权重也可以分配给边,而且自循环也是允许的。此外,我们还可以建立一个个人层面的网络,其中一些人际关系(如 合著)将扮演一个重要的角色。这些“引用“或者共同创作数据可以从”谷歌学者“或者大学网站上获得。

一旦网络被建立,我们就可以用之前的方法来解决,无论对于有向图还是无向

MCMC题O奖论文whoisthehiddenchampioninanetwork(中文翻译)

其中dij是i到j的最短路径长度,同样的,沿着这条路径的边是最少的,n是顶点的数量。直观的说,一个小的li表明顶点i与其他顶点是紧密的,从而有更多的信息获取。此外,紧密的顶点更容易相互交流,传达他们的想法,这就导致他们有更大的直接影响力。不像之前测量的度中心性和特征向量中心性,平均距离反而因此,我们计算li的倒数,这就是我们定义的紧密中心性。
推荐度:
点击下载文档文档为doc格式
83ml32u0ie0sr9z0p01l1xu1x81dzc00o8c
领取福利

微信扫码领取福利

微信扫码分享