好文档 - 专业文书写作范文服务资料分享网站

网络社区划分算法

天下 分享 时间: 加入收藏 我要投稿 点赞

网络社区划分算法

目录

o o o o o o o o o

1 简介

2 构建一个点击流网络

3 网络社区划分的两种主要思路:拓扑分析和流分析 4 拓扑分析

计算网络的模块化程度Q-Modularity 计算网络的连边紧密度Edge betweenness

计算网络拉普拉斯矩阵的特征向量Leading eigenvector

通过fast greedy方法搜索网络模块化程度Q-Modularity的最大值 通过multi level方法搜索网络模块化程度Q-Modularity的最大值

5 流分析

随机游走算法Walk Trap

标签扩散算法label propagation 流编码算法 the Map Equation 流层级算法 Role-based Similarity

6 总结

[1]简介 使用许多互联网数据,我们都可以构建出这样的网络,其节点为某一种信息资源,如图片,视频,帖子,新闻等,连边为用户在资源之间的流动。对于这样的网络,使用社区划分算法可以揭示信息资源之间的相关性,这种相关性的发现利用了用户对信息资源的处理信息,因此比起单纯使用资源本身携带的信息来聚类(例如,使用新闻包含的关键词对新闻资源进行聚类),是一种更深刻的知识发现。 [2 ]构建一个点击流网络 假设我们手头有一批用户在一段期间内访问某类资源的数据。为了减少数据数理规模,我们一般只考虑最经常被访问的一批资源。因此在数据处理中,我们考虑UV(user visit)排名前V的资源,得到节点集合|V|,然后对于一个用户i在一段时间内(例如一天)内访问的资源,选择属于|V|的子集vi。如果我们有用户访问资源的时间,就可以按照时间上的先后顺序,从vi中产生vi-1条有向边。如果我们没有时间的数据,可以vi两两间建立联系,形成vi(vi-1)/2条无向边。因为后者对数据的要求比较低,下文中,暂时先考虑后者的情况。 对于一天内的n个用户做这个操作,最后将得到的总数为 的连边里相同的边合并,得到|M|个不同的边,每条边上都带有权重信息。这样,我们就得到了V个节点,M条边的一个加权无向网络,反应的是在一天之内用户在主要的信息资源间的流动情况。在这个网络上,我们可以通过社区划分的算法对信息资源进行分类。 [3]网络社区划分的两种主要思路:拓扑分析和流分析

社区划分的算法比较多,但我个人认为大致可以分为两大类:拓扑分析和流分析。前者一般适用于无向无权网络,思路是社区内部的连边密度要高于社区间。后者适用于有向有权网络,思路是发现在网络的某种流动(物质、能量、信息)中形成的社区结构。这两种分析各有特点,具体应用取决于网络数据本身描述的对象和研究者想要获得的信息。

我们可以将已知的一些算法归入这两类:

算法 拓扑分析 Q Modularity 优化目标 计算复杂度 适用情况 局限 R spinglass munity munity munity fastgreedy munity multilevel munity walktrap munity munity clique munity 最大化Q-modularity 最小化社区间连边的betweenness 对拉普拉斯矩阵第二小特征根对应的特征向量聚类 使用社区合并算法来快速搜索最大Q-modularity 使用社区展开算法来快速搜索最大Q-modularity V|^2 无向无权多分量 有向有权多分量 无向无权多分量 无向有权多分量 无向有权多分量 不适用小网络 Edge-Betweenness V|*|E|^2 慢 Leading Eigenvector V|^2+ |E| 不适用小网络 Fast Greedy E|*log(|V|) Multi Level 流分析 V| 不适用小网络 最大化社区间的流距离 E|*|V|^2 无向有权单分量 无向有权单分量 有向有权单分量 不太适合网络 数量较小的情况 结果不稳定 Walk Trap Label Propagation 每个节点取邻居中最流行的标签,迭代式收敛 最小化随机流的编码长度 V| + |E| Info map V|*(|V|+|E|)

Role-based community 划分出在流中地位类似的节点 V|^3 有向有权单分量 结果不稳定

上表中的分量(component)指在网络中的独立“团块”。有向网络里,分量有强弱之分,强分量(strong component )中任意一个节点都可到达另外一个节点,弱分量(weak component)中如果忽略连边方向,则构成强分量。无向网里分量没有强弱之分。在网络中识别强分量的算法有Kosaraju算法,Tarjan算法及其变形Gabow算法等。在这里不展开叙述。 接下来,我们逐一讨论拓扑分析和流分析中的各种算法的具体思路。 [4]拓扑分析 []计算网络的模块化程度

Q-Modularity

Q-Modularity是一个定义在[,1)区间内的指标,其算法是对于某一种社区结构,考虑每个社区内连边数与期待值之差。实际连边越是高于随机期望,说明节点越有集中在某些社区内的趋势,即网络的模块化结构越明显。Newman在2004年提出这个概念最初是为了对他自己设计的社区划算法进行评估,但因为这个指标科学合理,而且弥补了这个方面的空白,迅速成为一般性的社区划分算法的通用标准。 Q的具体计算公式如

下:

其中A是网络G对应的邻接矩阵,如果从i到j存在边,则Aij=1,否则为0。m是总连接数,2m是总度数,Aij/2m是两节点之间连接的实际概率。Ki和kj分别是i和j的度数。如果我们保持一个网络的度分布但对其连边进行随

2

机洗牌,任意一对节点在洗牌后存在连接的概率为kikj/(2m)。上式中中括号表达的就是节点之间的实际连边概率高于期待值的程度。后面跟着一个二元函数,如果节点ij属于同一个社区,则为1,否则为0,这就保证了我们只考虑社区内部的连边。刚才这个定义是以节点为分析单位。实际上,如果以社区为分析单位看Q指标,可以进一步将其化简为eii和ai之间的差。其中eii是在第i个社区内部的link占网络总link的比例,ai是第i个社区和所有其他社区的社区间link数。

上式已经清楚定义了Q,但在实际计算里,上式要求对社区及其内部节点进行遍历,这个计算复杂度是很大的。Newman(2006)对上式进行了化简,得到矩阵表达如下: 我们定义Sir为n * r的矩阵,n是节点数,r是社区数。如果节点i属于社区r,则为1,否则为0。则有 于是有

其中B是modularity matrix,其元素为

该矩阵的行列和都是0,因为实际网络和随机洗牌后的网络度分布是不变的。特别地,在仅仅有两个社区的情况下(r=2),可以s定义为一个n长的向量,节点属于一个社区为1,属于另一个社区为-1,Q可以写成一个更简单的形式:

通过对社区的划分可能空间进行搜索,可以得到最大化Q值的社区划分。在这个过程会涉及数值优化的部分,例如表一中的fast greedy和multilevel就是用不同方法进行快速搜索的例子。以fast greedy为例Newman(2006),它通过不断合并社区来观察Q的增加趋势,得到了一个在最差的情况下复杂度约为O( |E|*log(|V|) ),在最好的情况下接近线性复杂度的算法。 []计算网络的连边紧密度

Edge betweenness

这个思路出现得比较早(Newman, 2001)。Freeman (1975) 提出过一个叫betweenness的指标,它衡量的是网络里一个节点占据其他n-1节点间捷径的程度。具体而言,首先对每一对节点寻找最短路径,得到一个n * (n-1)/2的最短路径集合S,然后看这个集合中有多少最短路径需要通过某个具体的节点。Newman借鉴了这个标准,但不是用来分析节点而是分析连边。一个连边的edge betweenness就是S集合里的最短路径包含该连边的个数。 定义了连边的betweenness后,就可以通过迭代算法来进行社区划分了。具体做法是先计算所有连边的betweenness,然后去除最高值连边,再重新计算,再去除最高值连边,如此反复,直到网络中的所有连边都被移除。在这个过程中网络就逐渐被切成一个个越来越小的component。在这个过程中,我们同样可以用Q-modularity来衡量社区划分的结果。这种算法定义比较清晰,也不涉及矩阵数学等运算,但问题是计算复杂度比较大。 []计算网络拉普拉斯矩阵的特征向量

Leading eigenvector

一个有n个节点的网络G可以被表达为一个n x n的邻接矩阵(adjacency matrix)A。在这个矩阵上,如果节点i和j之间存在连边,则Aij=1,否则为0。当网络是无向的时候,Aij=Aji。另外我们可以构造n x n的度矩阵(degree matrix)D。D对角线上的元素即节点度数,例如Dii为节点i的度数,所有非对角线的元素都是0。无向网的分析不存在度数的选择问题,有向网则要根据分析目标考虑使用出度还是入度。将度数矩阵减去邻接矩阵即得到拉普拉斯矩阵,即L = D-A。 L的特征根

存在一些有趣性质。首先,最小的特征根总等于0。因为如果将L乘

以一个有n个元素的单位向量,相当于计算每一行的和,刚好是节点的度的自我抵消,结果等于0。其次,特征根中0 的个数即无向网G中分量的个数。这意味着如果除了最小特征根,没有别的特征根为0,则整个网络构成一个整体。

在这些特征根里,第二小的特征根(或者最小的非零特征根)其对应的特征向量叫做Fidler vector。当

又叫做代数连通性(algebraic connectivity),

越大,说明网络彼此间的链接越紧

,说明网络是一个整体。

密。从这个定义来看,非常像前面讨论的Q-Modularity,实际上在Newman2006的文章里,确实讨论了二者在数学上的对应关系。例如对示例网络所对应的进行分析,可以得到拉普拉斯矩阵如下:

这个矩阵的特征根如下:{, , , , , , , 0}。取

时, Fidler vector={, , , , , , , }。因为Fidler vector

的值分别对应着图里的节点,于是可以写成{a:, b: , c:, d:, e:, f:, g:, h:}。仅仅从元素的正负号就可以看出,该分析建议我们把f和g节点与其他节点分开,更细致的,对元素值大小的考察则建议把矩阵分成三个社区,{{a, c, d, e}, {b, h}, {e, f}}。回到图中考察,我们发现这个社区分类基本是合理的。 []通过[]通过

fast greedy方法搜索网络模块化程度Q-Modularity的最大值 multi level方法搜索网络模块化程度Q-Modularity的最大值

因为以上两种方法都是基于Q-modularity的,只不过是搜索策略的不同,所以在此不展开讨论。 [5]流分析 []随机游走算法

Walk Trap

P. Pons 和 M. Latapy 2005年提出了一个基于随机游走的网络社区划分算法。他们提出可以使用两点到第三点的流距离之差来衡量两点之间的相似性,从而为划分社区服务。其具体过程如下:首先对网络G所对应的邻接矩阵A按行归一化,得到概率转移矩阵(transition matrix)P。使用矩阵计算表达这个归一化过程,可以写作

其中A是邻接矩阵,D是度矩阵。利用P矩阵的马可夫性质可知,它的t次方的元素Pijt就代表着随机游走的粒子经过t步从节点i到j的概率。其次,定义两点ij间的距离如下:

其中t是流的步长。步长必须恰当选择,因为如果t太小,不足以体现网络的结构特征,如果t太大,则Pijt趋近于与j的度数d(j)成正比, 随机游出发点i的拓扑信息被抹去。作者建议的t经验值为3到5之间。k是某一

网络社区划分算法

网络社区划分算法目录ooooooooo1简介2构建一个点击流网络3网络社区划分的两种主要思路:拓扑分析和流分析4拓扑分析计算网络的模块化程度Q-Modularity计算网络的连边紧密度Edgebetweenness<
推荐度:
点击下载文档文档为doc格式
0075m99zh635m4y31ezc5v45r56fh1008xg
领取福利

微信扫码领取福利

微信扫码分享