复杂网络 on Zeqiang Fang | 方泽强

图存储与计算（Network Storage & Computing)

Fri, 01 Jan 2021 00:00:00 +0000

本文为《复杂网络系列》文章

图存储

语义网络与 RDF 存储

1968 年 Ross Quillian 在其博士论文中最先提出语义网络（Semantic Web），把它作为人类联想记忆的一个显式心理学模型，并在他设计的可教式语言理解器 TLC（Teachable Language Comprehenden）中用作知识表示方法。

语义网络的基本思想是在网络中，用“节点”代替概念，用节点间的“连接弧”（称为联想弧）代替概念之间的关系，因此，语义网络又称联想网络。它在形式上是一个带标识的有向图。由于所有的概念节点均通过联想弧彼此相连知识推导。

一个语义网络的基本构成如下：

语义网络中的节点：表示各种事物、概念、情况、属性、动作、状态等，每个节点可以带有若干属性，一般用框架或元组表示。此外，节点还可以是一个语义子网络，形成一个多层次的嵌套结构。
语义网络中的弧：表示各种语义联系，指明它所连接的节点间某种语义关系。
节点和弧都必须带有标识，以便区分各种不同对象以及对象间各种不同的语义联系。

之后 Tim Berners-Lee 又提出了语义网堆栈（Semantic Web Stack）的概念。语义网堆栈利用图示解释是不同层面的语言所构成的层级结构，其中，每一层面都将利用下游层面的能力，语义网堆栈如下图所示：

资源描述框架（Resource Description Framework，RDF）是用于描述网络资源的 W3C 标准，比如网页的标题、作者、修改日期、内容以及版权信息。

RDF 使用 Web 标识符来标识事物，并通过属性和属性值来描述资源。

对资源、属性和属性值的解释：

资源是可拥有 URI 的任何事物，比如 http://www.w3school.com.cn/rdf
属性是拥有名称的资源，比如 author 或 homepage
属性值是某个属性的值，比如 David 或 http://www.w3school.com.cn（请注意一个属性值可以是另外一个资源)

下面是一个 RDF 示例文档（这是一个简化的例子，命名空间被忽略了）：




  
    David
    http://www.w3school.com.cn

资源、属性和属性值的组合可形成一个陈述（被称为陈述的主体、谓语和客体)。上述的 RDF 文档包含了如下两个陈述：

陈述：The author of http://www.w3school.com.cn/rdf is David
- 陈述的主体是：http://www.w3school.com.cn/rdf
- 谓语是：author
- 客体是：David
陈述：The homepage of http://www.w3school.com.cn/rdf is http://www.w3school.com.cn
- 陈述的主体是：http://www.w3school.com.cn/rdf
- 谓语是：homepage
- 客体是：http://www.w3school.com.cn

更多 RDF 介绍请参见：https://www.w3school.com.cn/rdf/index.asp 。

Apache Jena 是一个用于构建语义网络（Semantic Web）和链接数据（Linked Data）应用的开源 Java 框架。Jena 提供了 3 大部分功能：

RDF
- RDF API：提供构建和读取 RDF 图的核心 API，并利用 RDF/XML 或 Turtle 等数据类型序列化数据。
- ARQ（SPARQL)：提供一种 SPARQL 1.1 的编译引擎 ARQ 用于查询 RDF。
Triple store
- TDB：提供一种原生高效的 Triple 存储 TDB，全面支持 Jena APIs。
- Fuseki：提供 REST 风格的 RDF 数据交互方式。
OWL
- Ontology API：通过 RDFS，OWL 等为 RDF 数据添加更多语义信息。
- Inference API：通过内置的 OWL 和 RDFS 语义推理器构建个性化的推理规则。

下面以 Graph of The Gods 的关系图对 Jena 的基本功能进行说明。Graph of The Gods 是一张描述希腊神话相关事物之间关系的图，其中顶点的类型有：titan（泰坦，希腊神话中曾经统治师姐的古老神族)，god（神)，demigod（半神)，human（人)，monster（怪物)，location（地点)；关系的类型有：father（父亲)，brother（兄弟)，mother（母亲)，battled（战斗)，lives（居住)。

以 Apache Tomcat 作为容器来安装 Apache Jena Fuseki，下载最新版的 Apache Jena Fuseki 并解压，将其中的 fuseki.war 复制到已经安装并运行的 Apache Tomcat 的 webapps 路径下。安装完毕后，进入 http://127.0.0.1:8080/fuseki 即可使用 Apache Jena Fuseki。

在导入 Graph of The Gods 数据后，执行如下查询语句可以获得 jupiter 的所有兄弟：

PREFIX gods: 

SELECT DISTINCT ?god
WHERE {
  ?god gods:brother gods:jupiter
}

查询结果为：

	god
1	gods:pluto
2	gods:neptune

图数据库

图数据库是一个使用图结构进行语义查询的数据库，它使用节点、边和属性来表示和存储数据。不同于关系型数据库，图数据库为 NoSQL（Not Only SQL）的一种，属于联机事务处理（OLTP）的范畴，可以解决现有关系数据库的局限性。

下图展示了近年来不同类型数据库的流行度趋势，不难看出近年来越来越多的人开始关注图数据库。

数据库流行度趋势 https://db-engines.com/en/ranking_categories

截止到 2020 年 12 月，图数据库的排名如下图所示：

图数据库排名 https://db-engines.com/en/ranking/graph+dbms

其中，Neo4j、JanusGraph、Dgraph、TigerGraph、Nebula Graph 均为时下常用的图数据库。从下图的流行度趋势角度来看，JanusGraph、Dgraph、TigerGraph 和 Nebula Graph 等后起之秀发展迅速。

图数据库流行度趋势 https://db-engines.com/en/ranking_trend/graph+dbms

不同的图数据库有着不同的优劣势，用户可以根据实际业务场景选择合适的图数据库。下面给到一些较新的图数据库对比和评测：

查询语言

图查询语言（Graph Query Language，GQL）是一种用于图数据库的查询语言，类比于关系型数据库的查询语言 SQL。2019 年 9 月，GQL 被提议为一种新的数据库查询语言（ISO/IEC WD 39075），目前仍处于开发当中，因此市面上还没有统一的图查询语言标准。

Gremlin

Gremlin 是 Apache TinkerPop 框架下的图遍历语言。Gremlin 适用于基于 OLTP 的图数据库以及基于 OLAP 的图分析引擎，支持命令式和声明式查询。支持 Gremlin 的图数据库有：Neo4j、JanusGraph 等。

Cypher

Cypher 是一种声明式图查询语言，这使得在不必编写遍历逻辑的情况下可以实现高效的查询。支持 Cypher 的图数据库有：Neo4j、RedisGraph、Nebula Graph 等。

nGQL

nGQL 是一种声明式的图查询语言，支持图遍历、模式匹配、聚合运算和图计算等特性。支持 nGQL 的图数据库有：Nebula Graph。

比较

针对 3 种不同的查询语言，对于图中相关概念的表示也略有不同，如下表所示：

术语	Gremlin	Cypher	nGQL
点	Vertex	Node	Vertex
边	Edge	Relationship	Edge
点类型	Label	Label	Tag
边类型	label	RelationshipType	edge type
点 ID	vid	id(n)	vid
边 ID	eid	id(r)	无
插入	add	create	insert
删除	drop	delete	delete / drop
更新属性	setProperty	set	update

更多不同查询语言之间的详细对比可以参见如下资料：

图计算

图计算框架

GraphX

GraphX 是一个基于 Spark 大规模图计算框架。GraphX 通过引入一个包含带有属性的顶点和变的有向图对 Spark 的 RDD 进行了扩展。通过 subgraph、joinVertices 和 aggregateMessages 等算子实现了 PageRank、连通子图、LPA 等图算法。

Plato

Plato 是由腾讯开源的高性能图计算框架。Plato 主要提供两方面的能力：离线图计算和图表示学习，目前支持的图算法如下：

算法分类	算法
图特征	树深度/宽度；节点数/边数/密度/节点度分布；N-阶度；HyperANF
节点中心性指标	KCore；Pagerank；Closeness；Betweenness
连通图 & 社团识别	Connected-Component；LPA；HANP
图表示学习	Node2Vec-Randomwalk；Metapath-Randomwalk
聚类/分圈算法	FastUnfolding
其他图相关算法	BFS；共同类计算
待开源算法	Word2Vec；Line；GraphVite；GCN

在计算性能上，Plato 与 Spark GraphX 在 PageRank 和 LPA 两个算法上的计算耗时与内存消耗对比如下图所示：

GraphScope

GraphScope 由有阿里巴巴开源的一个统一的分布式图计算平台。GraphScope 提供了一个一站式环境，可以通过用户友好的 Python 接口在集群内对图进行操作。GraphScope 利用一系列开源技术使得集群上的大规模图数据的多阶段处理变得简单，这些技术包括：用于分析的 GRAPE、用于查询的 MaxGraph 、用于图神经网络计算的 Graph-Learn 和用于提供高效内存数据交换的 vineyard。GraphScope 的整体架构如下图所示：

GraphScope Interactive Engine（GIE）是一个用于探索性分析大规模复杂图结构数据的引擎，它通过 Gremlin 提供高级别的图查询语言，同时提供自动并行执行功能。

GraphScope Analytical Engine（GAE）是一个基于 GRAPE ¹ 提供并行图算法的分析引擎。除了提供基础的内置算法以外，GAE 允许用户利用 Python 基于 PIE ¹ 编程模型编写自定义算法，PIE 编程模型的运行方式如下图所示：

GraphScope 还提供以顶点为中心的 Pregel 模型 ²，用户可以使用 Pregel 模型来实现自定义算法。

GraphScope Learning Engine（GLE）是一个用于开发和训练大规模图神经网络的分布式框架。GLE 提供基于全量图（用于 GCN、GAT 等算法）和采样子图（用于 GraphSAGE，FastGCN、GraphSAINT 等算法）两种不同方式训练图模型。整体架构如下图所示：

Galileo

Galileo 是由京东零售研发的图计算平台，提供离线和在线图计算和图数据服务能力。目前 Galileo 暂未开源，待开源后补充相关信息。

图神经网络

关于图神经网络内容，请参见之前的博客图嵌入 (Graph Embedding) 和图神经网络 (Graph Neural Network)。

:tada::tada::tada: Happe New Year! :tada::tada::tada:

Fan, W., Yu, W., Xu, J., Zhou, J., Luo, X., Yin, Q., … & Xu, R. (2018). Parallelizing sequential graph computations. ACM Transactions on Database Systems (TODS), 43(4), 1-39. ↩︎ ↩︎
Malewicz, G., Austern, M. H., Bik, A. J., Dehnert, J. C., Horn, I., Leiser, N., & Czajkowski, G. (2010, June). Pregel: a system for large-scale graph processing. In Proceedings of the 2010 ACM SIGMOD International Conference on Management of data (pp. 135-146). ↩︎

网络算法 (Network Algorithms)

Sat, 12 Dec 2020 00:00:00 +0000

本文为《复杂网络系列》文章
本文内容主要参考自：《网络科学引论》¹

网络基础算法

最短路径

最短路径（shortest path）算法是寻找两个顶点之间的最短路径，寻找网络中最短路径的标准算法称为广度优先搜索（breadth-first search）。算法的基本思想如下图所示：

根据广度优先搜索的基本思想，不难证明距 $s$ 最短距离为 $d$ 的每个顶点都有一个到 $s$ 的最短距离为 $d - 1$ 的邻居顶点。一个简单的实现方式是，创建一个有 $n$ 个元素的数组存储从源顶点 $s$ 到其他所有顶点的距离，同时创建一个距离变量 $d$ 来记录当前在搜索过程中所处的层数，算法的具体流程如下：

遍历距离数组，查找到 $s$ 的距离为 $d$ 的所有顶点。
查找上述顶点的所有邻居顶点，如果同 $s$ 的距离未知，则距离置为 $d + 1$ 。
如果距离未知的邻居顶点数量为零，则停止算法，否则将 $d$ 的值加一并重复上述过程。

这种方法在最坏的情况下时间复杂度为 $O \left(m + n^2\right)$ ，考虑多数网络的直径只随 $\log n$ 增长，算法运行的时间复杂度为 $O \left(m + n \log n\right)$ 。

上述算法中步骤 1 是最耗时的部分，通过使用队列的数据结构我们可以避免每次都遍历列表来找到距离源顶点 $s$ 距离为 $d$ 的顶点。构造一个队列，一个指针指向下一个要读取的元素，另一个指针指向要填充的空位，这样距离为 $d + 1$ 的顶点就会紧跟在距离为 $d$ 的顶点后面，队列如下图所示：

通过队列可以将算法的时间复杂度降至 $O \left(m + n\right)$ ，对于 $m \propto n$ 的稀疏网络而言， $O \left(m + n\right)$ 相当于 $O \left(n\right)$ ，所以算法的时间复杂度同顶点数量成正比。

通过对算法进行进一步修改则可以得到源顶点 $s$ 到其他任何顶点的最短路径。方法是在原来的网络上构建一个新的有向网络，该网络代表最短路径，称为最短路径树（shortest path tree），通常情况下，该网络是一个有向非循环网络，而不是树。

对于加权网络，利用广度优先搜索无法找到最短路径，这里需要用到 Dijkstra 算法 ² 进行求解。算法将图中的顶点分成两组 $S$ 和 $U$ ，整个算法过程如下：

初始状态， $S$ 仅包含源顶点，即 $S = \left\{v\right\}$ ， $U$ 包含其余顶点。如果 $v$ 与 $U$ 中的顶点 $u$ 为邻居，则距离为边的权重，否则为无穷大。
从 $U$ 中选择一个距离 $v$ 最短的顶点 $k$ ，并把 $k$ 加入到 $S$ 中。
若从源点 $v$ 经过顶点 $k$ 到达 $u$ 的距离比之前 $v$ 到 $u$ 的距离短，则将距离修改为这个更短的距离。
重复步骤 2 和 3，直至所有顶点都包含在 $S$ 中。

整个算法过程的可视化效果如下图所示：

Dijkstra 算法的时间复杂度为 $O \left(m + n^2\right)$ ，通过二叉堆的数据结构可以将时间复杂度优化至 $O \left(\left(m + n\right) \log n\right)$ 。

Dijkstra 算法虽然能够处理加权网络，但不能处理存在负权重的网络，需要利用 Floyd-Warshall 算法 ³ 进行求解。更多 Floyd-Warshall 算法的细节请参见之前的博客计算复杂性 (Computational Complexity) 与动态规划 (Dynamic Programming)。

最大流和最小割

对于连接给定顶点 $s$ 和 $t$ 的两条路径，若没有共享边，则这两条路径是边独立的；若除 $s$ 和 $t$ 外不共享任何其他顶点，则这两条路径是顶点独立的。顶点之间的边连通度和顶点连通度分别是顶点之间边独立路径数和顶点独立路径数。连通度是度量顶点之间连通鲁棒性的简单参数。假设一个网络是一个管线网络，其中每个管线的容量均为单位流量，那么边连通度等于从 $s$ 流向 $t$ 的最大流。

增广路径算法（Ford-Fulkerson Algorithm，FFA）是计算最大流最简单的算法。基本思想是：首先利用广度优先搜索算法找到一条从源 $s$ 到目标 $t$ 的路径。该步骤“消耗”了网络中的一些边，将这些边的容量填充满后，它们不再承载更多流量。之后在剩余边中找到从 $s$ 到 $t$ 的另一条路径，重复该过程直到找不到更多的路径为止。

但这还不是一个有效的算法，如下图中的 (a) 所示，如果在 $s$ 和 $t$ 之间运用广度优先搜索，可以发现黑色标记的路径。一旦这些边的容量被填充满，就不能在剩余边中找到从 $s$ 到 $t$ 的更多路径，但很明显，从 $s$ 到 $t$ 有两条边独立路径（上下各一条）。

解决该问题的一个简单修正方法是允许网络流量在一条边中能够同时在两个方向流动。更一般地，因为一条边容许承载的最大流是在任意方向的单位流量，那么一条边可以有多个单位流量，只要保证他们能够相互抵消，并且最终每条边承载不超过一个单位流量。

增广路径算法的实现利用了剩余图（residual graph），这是一个有向网络，该网络中的有向边连接原网络中相应的顶点对，并在指定方向承载一个或多个单位流量。例如上图中 (c) 和 (d) 就是对应 (a) 和 (b) 的流量状态的剩余图。算法的正确性在这里就不过多展开说明，该算法在计算两个顶点之间的最大流的平均时间复杂度为 $O \left(\left(m + n\right) m / n\right)$ 。

在图论中，去掉其中所有边使一张网络不再连通的边集为图的割，一张图上最小的割为最小割。通过对增广路径算法进行改动即可以寻找到边独立路径、最小边割集和顶点独立路径。

图划分和社团发现

图划分（graph partitioning）和社团发现（community detection）都是指根据网络中的边的连接模式，把网络顶点划分成群组、簇或社团。将网络顶点划分成群组后最常见的属性是，同一群组内部的顶点之间通过边紧密连接，而不同群组之间只有少数边。

图划分

最简单的图划分问题是把网络划分成两部分，有时也称其为图对分（graph bisection）。图对分是把一个网络中的顶点划分成为两个指定规模的非重叠群组，使得不同群组之间相互连接的边数最小。群组之间的边数称为割集规模（cut size）。利用穷举搜索解决该问题是极为耗时的，通过启发式算法我们可以找到较好的网络划分。

Kernighan-Lin 算法

Kernighan-Lin 算法是由 Brian Kernighan 和 Shen Lin 在 1970 年提出的 ⁴，是图对分问题中最简单、最知名的启发式算法之一，如下图所示。

先以任意方式将网络顶点按指定规模划分成两个群组，对于任何由分属不同群组的顶点 $i$ 和顶点 $j$ 组成的顶点对 $\left(i, j\right)$ ，交换 $i$ 和 $j$ 的位置，并计算交换前后两个群组之间割集规模的变化量。在所有顶点对中找到使割集规模减小最多的顶点对，或者若没有使割集规模减小的顶点对，则找到使割集规模增加最小的顶点对，交换这两个顶点。重复这个过程，同时保证网络中的每个顶点只能移动一次。

继续算法，每一步都交换最大程度减少或最小程度增加群组之间边数的顶点对，直到没有可以变换的顶点对，此时本轮算法停止。在完成所有交换后，检查网络在此过程中经过的每一个状态，然后选择割集规模最小的状态。最后，重复执行上述整个过程，每次始于上次发现的最优网络划分，直到割集规模不在出现改善。

Kernighan-Lin 算法的主要缺点是运算速度缓慢，采用一些技巧来改善算法也只能使时间复杂度降至 $O \left(n^3\right)$ ，因此该算法仅适用于有几百或几千个顶点的网络，而不适用于更大规模的网络。

谱划分

请先了解附录中的拉普拉斯算子和拉普拉斯矩阵等相关概念。

考虑具有 $n$ 个顶点 $m$ 条边的网络，将其划分为两个群组，称为群组 1 和群组 2。可以把该划分的割集规模，也就是两个群组之间的边数表示为：

$$ \label{eq:r_1} R = \dfrac{1}{2} \sum_{i, j \text{ 属于不同群组}} A_{ij} $$

对于每个网络划分，定义有参数 $s_i$ 组成的集合，集合中每个元素对应于一个顶点 $i$ ，则有：

$$ s_i = \left\{\begin{array}{ll} +1 & \text{顶点 } i \text{ 在群组 1 中} \\ -1 & \text{顶点 } i \text{ 在群组 2 中} \end{array}\right. $$

那么：

$$ \dfrac{1}{2} \left(1 - s_i s_j\right) = \left\{\begin{array}{ll} 1 & \text{顶点 } i \text{ 和 } j \text{ 在不同的群组中} \\ 0 & \text{顶点 } i \text{ 和 } j \text{ 在相同的群组中} \end{array}\right. $$

则式 \ref{eq:r_1} 可以改写为：

$$ \begin{aligned} R & = \dfrac{1}{4} \sum_{ij} A_{ij} \left(1 - s_i s_j\right) \\ & = \dfrac{1}{4} \left(k_i \delta_{ij} - A_{ij}\right) s_i s_j \\ & = \dfrac{1}{4} \sum_{ij} L_{ij} s_i s_j \end{aligned} $$

其中， $\delta_{ij}$ 是克罗内克函数， $L_{ij}$ 是图拉普拉斯矩阵的第 $ij$ 个元素。写成矩阵的形式有：

$$ R = \dfrac{1}{4} \mathbf{s}^{\top} \mathbf{L} \mathbf{s} $$

由于每个 $s_i$ 的取值只能是 $\left\{+1, -1\right\}$ ，所以在给定 $\mathbf{L}$ 时求解 $\mathbf{s}$ 使其割集规模最小时并不容易。具体求解方法的推导在此不再展开说明，最终谱划分算法的过程如下所示：

计算图拉普拉斯矩阵的第二小特征值 $\lambda_2$ ，称为网络的代数连通度（algebraic connectivity），及其对应的特征向量 $\mathbf{v}_2$ 。
按从大到小的顺序对特征向量的元素进行排序。
把前 $n_1$ 个最大元素对应的顶点放入群组 1，其余放入群组 2，计算割集规模。
把前 $n_1$ 个最小（注意：中文译本中有错误）元素对应的顶点放入群组 2，其余放入群组 1，并重新计算割集规模。
在两种网络划分中，选择割集规模较小的那个划分。

谱划分方法在稀疏网络上的时间复杂度为 $O \left(n^2\right)$ ，这比 Kernighan-Lin 算法时间复杂度少了一个因子 $n$ ，从而使该算法能应用于更大规模的网络。

社团发现

社团发现（社区发现，社群发现，Community Detection）的基本目的与图划分类似，即把网络分成几个节点点群组，并使节点群组之间的连接较少。主要的差别就是群组的数量和规模是不确定的。社团发现的算法分类和具体实现很多，本文仅介绍几个常用的算法，更多方法及其细节请参见如下开放资源：

Community Detection in Graphs ⁵
Deep Learning for Community Detection: Progress, Challenges and Opportunities ⁶
复杂网络社团发现算法研究新进展 ⁷
benedekrozemberczki/awesome-community-detection

Fast Unfolding (Louvain)

Fast Unfolding (Louvain) ⁸ 是一种基于模块度的社团发现算法，通过模块度来衡量一个社团的紧密程度。算法包含两个阶段：

历遍网络中所有的节点，通过比较将节点给每个邻居社团带来的模块度变化，将这个节点加入到使模块度增加最大的社团中。
对于步骤 1 的结果，将属于同一个社团的节点合并成为一个大的节点，进而重型构造网络。新的节点之间边的权重是所包含的之前所有节点之间相连的边权重之和，然后重复步骤 1。

算法的两个步骤如下图所示：

Label Propagation Algorithm (LPA)

标签传播算法（Label Propagation Algorithm，LPA）是一种基于半监督学习的社团发现算法。对于每个节点都有对应的标签（即节点所隶属的社团），在算法迭代过程中，节点根据其邻居节点更新自身的标签。更新的规则是选择邻居节点中最多的标签作为自身的标签。

标签传播的过程中，节点的标签更新方式分为同步更新和异步更新两种方式。同步更新是指对于节点 $x$ ，在第 $t$ 步时，根据其所有邻居节点在 $t - 1$ 步时的标签对其进行更新，即：

$$ C_{x}(t)=f\left(C_{x_{1}}(t-1), C_{x_{2}}(t-1), \cdots, C_{x_{k}}(t-1)\right) $$

同步更新对于一个二分或者近似二分的网络来说可能会出现标签震荡的现象。对于异步更新方式，更新公式为：

$$ C_{x}(t)=f\left(C_{x_{i 1}}(t), \cdots, C_{x_{i m}}(t), C_{x_{i(m+1)}}(t-1), \cdots, C_{x_{i k}}(t-1)\right) $$

其中，邻居节点 $x_{i1}, \cdots, x_{im}$ 的标签在第 $t$ 步时已经更新过，而 $x_{i(m+1)}, \cdots, x_{ik}$ 的标签还未更新。

附录

拉普拉斯算子（Laplace operator，Laplacian）是由欧式空间中的一个函数的梯度的散度给出的微分算子，通常写作 $\Delta$ ， $\nabla^2$ 或 $\nabla \cdot \nabla$ 。

梯度（gradient）是对多元导数的概括，函数沿着梯度的方向变化最快，变化率则为梯度的模。假设二元函数 $f \left(x, y\right)$ 在区域 $G$ 内具有一阶连续偏导数，点 $P \left(x, y\right) \in G$ ，则称向量：

$$ \nabla f = \left(\dfrac{\partial f}{\partial x}, \dfrac{\partial f}{\partial y} \right) = \dfrac{\partial f}{\partial x} \mathbf{i} + \dfrac{\partial f}{\partial y} \mathbf{j} $$

为函数 $f$ 在点 $P$ 处的梯度，其中 $\mathbf{i}$ 和 $\mathbf{j}$ 为单位向量，分别指向 $x$ 和 $y$ 坐标方向。

散度（divergence）将向量空间上的一个向量场对应到一个标量场上，记为 $\nabla \cdot$ 。散度的意义是场的有源性，当 $\nabla \cdot F > 0$ 时，表示该点是发源点；当 $\nabla \cdot F < 0$ 时，表示该点是汇聚点；当 $\nabla \cdot F = 0$ 时，表示该点无源，如下图所示。

拉普拉斯离散化后即为拉普拉斯矩阵（laplacian matrix），也称为调和矩阵（harmonic matrix）。离散化的拉普拉斯算子形式如下：

$$ \begin{aligned} \Delta f & = \dfrac{\partial^2 f}{\partial x^2} + \dfrac{\partial^2 f}{\partial y^2} \\ & = f \left(x + 1, y\right) + f \left(x - 1, y\right) - 2 f \left(x, y\right) + f \left(x, y + 1\right) + f \left(x, y - 1\right) - 2 f \left(x, y\right) \\ & = f \left(x + 1, y\right) + f \left(x - 1, y\right) + f \left(x, y + 1\right) + f \left(x, y - 1\right) - 4 f \left(x, y\right) \end{aligned} $$

从上述离散化后的拉普拉斯算子形式可以看出，拉普拉斯矩阵表示的是对矩阵进行微小扰动后获得的收益。

设图 $G$ 有 $n$ 个节点，节点的邻域为 $N$ ，图上的函数 $f = \left(f_1, f_2, \cdots, f_n\right)$ ，其中 $f_i$ 表示节点 $i$ 处的函数值。对 $i$ 进行扰动，其可能变为邻域内的任意一个节点 $j \in N_i$ ：

$$ \Delta f_{i}=\sum_{j \in N_{i}}\left(f_{i}-f_{j}\right) $$

设每一条边 $e_{ij}$ 的权重为 $w_{ij}$ ， $w_{ij} = 0$ 表示节点 $i$ 和节点 $j$ 不相邻，则有：

$$ \begin{aligned} \Delta f_i & = \sum_{j \in N} w_{ij} \left(f_i - f_j\right) \\ & = \sum_{j \in N} w_{ij} f_i - \sum_{j \in N} w_{ij} f_i \\ & = d_i f_i - W_{i:} f \end{aligned} $$

对于所有节点有：

$$ \begin{aligned} \Delta f & = \left(\begin{array}{c} \Delta f_{1} \\ \vdots \\ \Delta f_{N} \end{array}\right)=\left(\begin{array}{c} d_{1} f_{1}-W_{1:} f \\ \vdots \\ d_{N} f_{N}-W_{N:} f \end{array}\right) \\ & = \left(\begin{array}{ccc} d_{1} & \cdots & 0 \\ \vdots & \ddots & \vdots \\ 0 & \cdots & d_{N} \end{array}\right) f-\left(\begin{array}{c} W_{1:} \\ \vdots \\ W_{N:} \end{array}\right) f \\ & = diag \left(d_i\right) f - W f \\ & = \left(D - W\right) f \\ & = L f \end{aligned} $$

令图 $G$ 的邻接矩阵为 $W$ ，度矩阵为 $D$ ，从上式可知拉普拉斯矩阵 $L = D - W$ ，其中：

$$ L_{ij} = \left\{\begin{array}{ll} \deg \left(v_i\right) & \text{如果 } i = j \\ -1 & \text{如果 } i \neq j \text{ 且 } v_i \text{ 与 } v_j \text{ 相邻} \\ 0 & \text{其他情况} \end{array}\right. $$

以下面的图为例：

邻接矩阵为：

$$ \left(\begin{array}{llllll} 0 & 1 & 0 & 0 & 1 & 0 \\ 1 & 0 & 1 & 0 & 1 & 0 \\ 0 & 1 & 0 & 1 & 0 & 0 \\ 0 & 0 & 1 & 0 & 1 & 1 \\ 1 & 1 & 0 & 1 & 0 & 0 \\ 0 & 0 & 0 & 1 & 0 & 0 \end{array}\right) $$

度矩阵为：

$$ \left(\begin{array}{cccccc} 2 & 0 & 0 & 0 & 0 & 0 \\ 0 & 3 & 0 & 0 & 0 & 0 \\ 0 & 0 & 2 & 0 & 0 & 0 \\ 0 & 0 & 0 & 3 & 0 & 0 \\ 0 & 0 & 0 & 0 & 3 & 0 \\ 0 & 0 & 0 & 0 & 0 & 1 \end{array}\right) $$

拉普拉斯矩阵为：

$$ \left(\begin{array}{rrrrrr} 2 & -1 & 0 & 0 & -1 & 0 \\ -1 & 3 & -1 & 0 & -1 & 0 \\ 0 & -1 & 2 & -1 & 0 & 0 \\ 0 & 0 & -1 & 3 & -1 & -1 \\ -1 & -1 & 0 & -1 & 3 & 0 \\ 0 & 0 & 0 & 1 & 0 & 1 \end{array}\right) $$

开放资源

常用网络算法包

名称	语言
NetworkX
graph-tool
SNAP	,
NetworKit	,
igraph	, , ,
lightgraphs

不同扩展包之间的性能比较如下表所示 ⁹：

数据集	算法	graph-tool	igraph	LightGraphs	NetworKit	NetworkX	SNAP
Amazon	CC	0.08	0.22	0.07	0.09	2.22	0.31
Amazon	k-core	0.08	0.15	0.04	0.15	3.63	0.37
Amazon	loading	2.61	0.57	4.66	0.98	4.72	1.61
Amazon	page rank	0.04	0.57	0.02	0.02	8.59	0.58
Amazon	shortest path	0.03	0.05	0.01	0.04	1.37	0.12
Google	CC	0.28	1.38	0.29	0.37	7.77	1.56
Google	k-core	0.39	0.92	0.16	0.83	42.6	1.31
Google	loading	11.02	3.87	16.75	4.38	19.24	7.56
Google	page rank	0.36	2.42	0.06	0.1	33.5	2.31
Google	shortest path	0.08	0.41	0.01	0.14	3.41	0.26
Pokec	CC	1.83	3.96	1.5	1.75	61.74	9.75
Pokec	k-core	3.6	5.99	0.95	5.05	296.26	6.91
Pokec	loading	71.46	25.75	170.63	26.77	140.19	52.73
Pokec	page rank	1.1	23.39	0.21	0.24	239.75	8.62
Pokec	shortest path	0.48	0.6	0.05	0.56	5.65	2.3

常用网络可视化软件

软件	平台
Cytoscape	, ,
Gephi	, ,
Tulip	, ,
Pajek

不同可视化软件之间的比较如下表所示 ¹⁰：

	Cytoscape	Tulip	Gephi	Pajek
Scalability	⭑⭑	⭑	⭑⭑⭑	⭑⭑⭑⭑
User friendliness	⭑⭑	⭑⭑⭑⭑	⭑⭑⭑	⭑
Visual styles	⭑⭑⭑⭑	⭑⭑	⭑⭑⭑	⭑
Edge bundling	⭑⭑⭑	⭑⭑⭑⭑	⭑⭑	-
Relevance to biology	⭑⭑⭑⭑	⭑⭑	⭑⭑⭑	⭑
Memory efficiency	⭑	⭑⭑	⭑⭑⭑	⭑⭑⭑⭑
Clustering	⭑⭑⭑⭑	⭑⭑⭑	⭑	⭑⭑
Manual node/edge editing	⭑⭑⭑	⭑⭑⭑⭑	⭑⭑⭑	⭑
Layouts	⭑⭑⭑	⭑⭑	⭑⭑⭑⭑	⭑
Network profiling	⭑⭑⭑⭑	⭑⭑	⭑⭑⭑	⭑
File formats	⭑⭑	⭑⭑⭑	⭑⭑⭑⭑	⭑
Plugins	⭑⭑⭑⭑	⭑⭑	⭑⭑⭑	⭑
Stability	⭑⭑⭑	⭑	⭑⭑⭑⭑	⭑⭑⭑
Speed	⭑⭑	⭑	⭑⭑⭑	⭑⭑⭑⭑
Documentation	⭑⭑⭑⭑	⭑	⭑⭑	⭑⭑⭑

其中，⭑ 表示较弱、⭑⭑ 表示中等、⭑⭑⭑ 表示较好、⭑⭑⭑⭑ 表示优秀。

Newman, M. E. J. (2014) 网络科学引论. 电子工业出版社. ↩︎
https://zh.wikipedia.org/wiki/戴克斯特拉算法 ↩︎
https://zh.wikipedia.org/zh-hans/Floyd-Warshall算法 ↩︎
Kernighan, B. W., & Lin, S. (1970). An efficient heuristic procedure for partitioning graphs. The Bell system technical journal, 49(2), 291-307. ↩︎
Fortunato, S. (2010). Community detection in graphs. Physics reports, 486(3-5), 75-174. ↩︎
Liu, F., Xue, S., Wu, J., Zhou, C., Hu, W., Paris, C., … & Yu, P. S. (2020). Deep Learning for Community Detection: Progress, Challenges and Opportunities. arXiv preprint arXiv:2005.08225. ↩︎
骆志刚, 丁凡, 蒋晓舟, & 石金龙. (2011). 复杂网络社团发现算法研究新进展. 国防科技大学学报, (1), 12. ↩︎
Blondel, V. D., Guillaume, J. L., Lambiotte, R., & Lefebvre, E. (2008). Fast unfolding of communities in large networks. Journal of statistical mechanics: theory and experiment, 2008(10), P10008. ↩︎
Benchmark of popular graph/network packages v2 ↩︎
Pavlopoulos, G. A., Paez-Espino, D., Kyrpides, N. C., & Iliopoulos, I. (2017). Empirical comparison of visualization tools for larger-scale network analysis. Advances in bioinformatics, 2017. ↩︎

真实世界网络结构 (Structure of Real-World Network)

Sat, 28 Nov 2020 00:00:00 +0000

本文为《复杂网络系列》文章
本文内容主要参考自：《网络科学引论》¹

分支

在无向网络中，一个典型的现象是很多网络都有一个分支，该分支占据了网络的绝大部分，而剩余部分则被划分为大量的小分支，这些小分支之间彼此并不相连。如下图所示：

一个网络通常不能有两个或更多占据网络大部分的大分支。如果将一个 $n$ 个顶点的网络分解为两个分支，每个分支约为 $\dfrac{1}{2} n$ 个顶点，则两个分支的顶点之间会有 $\dfrac{1}{4} n^2$ 个顶点对，这些顶点对有可能一个顶点在一个大分支中，而另一个顶点在另外一个大分支中。如果在任何一个顶点对之间有一条边，那么这两个分支就会合并为一个分支。

有向图中分支分为两种：弱连通分支和强连通分支。弱连通分支的定义与无向网络的分支定义类似，强连通分支是指网络顶点的一个最大子集，该子集中的顶点能够通过有向路径到达其余所有顶点，同时也能够通过有向路径从其余所有顶点到达。

每个连通分支拥有外向分支（即从强连通分支中的任意顶点出发，沿着有向路径能够到达的所有顶点的集合）和内向分支（即沿着有向路径能够到达强连通分支的所有顶点的集合）。利用**“领结”图**可以很好地刻画有向网络的总体情况，万维网的“领结”图如下所示：

小世界效应

小世界效应（small-world effect）是指对于大多数网络而言，网络顶点之间的测地距离都惊人的小，例如：六度分隔理论。网络的数学模型显示出网络测地路径长度的数量级通常与网络定点数 $n$ 成对数关系，即 $\log n$ 。

度分布

顶点的度是指连接到它的边的数量。度分布（degree distribution） $p_k$ 是指网络中节点度的概率分布，也可以理解为从网络中随机选择一个顶点，其度为 $k$ 的概率。度序列（degree sequence）是指所有顶点度的集合。

根据度 $k$ 描述出大型网络的度分布有着非常重要的作用，下图给出了 Internet 的度分布：

现实世界中，几乎所有网络的度分布都有类似的由度较大的核心顶点构成的尾部，统计上称为右偏（right-skewed）的。

幂律和无标度网络

以 Internet 为例，下图给出了度分布的一个有趣特征，下图使用了对数标度重新绘制了上图的直方图：

如上图所示，对数处理后，分布大致遵循一条直线。度分布 $p_k$ 的对数与度 $k$ 的对数之间具有线性函数关系：

$$ \ln p_k = - \alpha \ln k + c $$

对两侧同时做指数运算，有：

$$ p_k = C k^{- \alpha} $$

其中， $C = e^c$ 是一个常数。这种形式的分布，即按照 $k$ 的幂变化，称为幂律（power law）。在不同类型的网络中，幂律度分布是普遍存在的，常数 $\alpha$ 是幂律的指数，该值的典型取值区间为 $2 \leq \alpha \leq 3$ 。通常，度分布并非在整个区间都遵循幂律分布，当 $k$ 较小时，度分布并不是单调的。具有幂律度分布的网络也称为无标度网络（scale-free network）。

观察幂律分布的另外一种方式是构建累积分布函数，定义如下：

$$ P_k = \sum_{k' = k}^{\infty} p_{k'} $$

假设度分布 $p_k$ 在尾部服从幂律，确切地讲，对于某个 $k_{\min}$ ，当 $k \geq k_{\min}$ 时有 $p_k = C k^{- \alpha}$ ，则对于 $k \geq k_{\min}$ ，有：

$$ P_{k}=C \sum_{k^{\prime}=k}^{\infty} k^{\prime-\alpha} \simeq C \int_{k}^{\infty} k^{\prime-\alpha} \mathrm{d} k^{\prime}=\frac{C}{\alpha-1} k^{-(\alpha-1)} $$

这里通过积分来近似求和是合理的，因为当 $k$ 值较大时，幂律函数的变化率较小。所以，如果度分布 $p_k$ 服从幂律，那么 $p_k$ 的累积分布函数也服从幂律。

聚类系数

聚类系数是度量某个顶点的两个邻居顶点也互为邻居的平均概率。该测度计算值与随机条件下得到的期望值之间有较大的差异，这种巨大差异可能也显示出了真正发挥作用的社会效应。在合作网络中，与随机选择合作者相比，实际的合作网络中包含更多的三角形结构。这种现象背后有很多原因，其中一个原因可能是人们会介绍其合作者认识，而这些合作者两两之间也开始进行合作。

随着度的增加，局部聚类系数不断减少，这种现象的一个可能的解释是顶点分成紧密的群组或社团，同一个群组内部的顶点之间连接较多。在表现出此类行为的网络中，属于小型群组的顶点的度较小，因为这种群组的成员也相对较少，但在较大的群组中的顶点的度较大。同时，小型群组中的顶点的局部聚类系数较高。出现这种情况是因为将每个群组与网络的其余部分隔离开之后，每个群组大体上相当于一个小型网络，较小的网络会有更大的聚类系数。当对不同规模的网络取平均之后，会发现度小的顶点具有较高的聚类系数，如下图所示：

Newman, M. E. J. (2014) 网络科学引论. 电子工业出版社. ↩︎

网络表示，测度和度量 (Network Representation, Measures & Metrics)

Sat, 21 Nov 2020 00:00:00 +0000

本文为《复杂网络系列》文章
本文内容主要参考自：《网络科学引论》¹

网络（network）也称为图（graph），是一个由多个顶点（vertex）及连接顶点的边（edge）组成的集合。在网络中，我们通常用 $n$ 表示顶点的数目，用 $m$ 表示边的数目。在大多数网络中两个顶点之间都只有一条边，极少数情况下，两个顶点之间有多条边，称之为重边（multiedge）。在极特殊情况下，还会存在连接到顶点自身的边，称之为自边（self-edge）。既没有自边也没有重边的图称之为简单网络（simple network）或简单图（simple graph），存在重边的网络称之为重图（multigraph）。相关概念示例如下：

网络表示

无向网络

对于一个包含 $n$ 个顶点的无向图，可以用整数 $1$ 到 $n$ 对各个顶点进行标注。如果用 $\left(i, j\right)$ 表示顶点 $i$ 和顶点 $j$ 之间的边，那么通过给定 $n$ 的值及所有边的列表就能表示一个完整的网络，这种表示方法称之为边列表（edge list）。

相比于边列表，邻接矩阵（adjacency matrix）可以更好地表示网络。一个简单图的邻接矩阵 $\mathbf{A}$ 中元素 $A_{ij}$ 的含义如下：

$$ A_{ij}=\left\{\begin{array}{ll} 1 & \text{如果顶点 } i \text{ 和顶点 } j \text{ 之间存在一条边} \\ 0 & \text{其他} \end{array}\right. $$

对于一个没有自边的网络，其邻接矩阵有两个特点：

邻接矩阵对角线上的元素取值均为零。
邻接矩阵是对称的。

加权网络

对于加权网络（weighted network）和赋值网络（valued network）可以将邻接矩阵中对应元素的值设定为相应的权重的方式来进行表示。

有向网络

有向网络（directed network）或有向图（directed graph）有时简称为 digraph，在这类网络中，每条边都有方向，从一个顶点指向另一个顶点，称之为有向边（directed edge）。

注意： 有向网络的邻接矩阵中元素 $A_{ij} = 1$ 时表示存在从顶点 $j$ 到顶点 $i$ 的边。虽然表示方法有些出人意料，但在数据计算上会带来极大的方便。

超图

在某些类型的网络中，一些边会同时连接多个顶点。例如：创建一个社会网络，用来表示一个大规模社区中的各个家庭。每个家庭都可能会有两名或多名成员，因此表示这些家庭之间关系的做好方法就是使用一种广义边来同时连接多个顶点。这样的边称之为超边（hyperedge），含有超边的网络称之为超图（hypergraph）。下图 (a) 表示一个小型超图，其中超边用环的形式表示。

当一个网络中的顶点因为某种群组之间的关系被连接在一起时，可以使用超图来表示这个网络，在社会学中，这样的网络称之为隶属网络。对于超图，可于采用二分图的方式进行表示，通过引入 4 个新的顶点代表 4 个群组，在顶点及其所属群组之间通过边连接，如上图 (b) 所示。

二分网络

群组内成员之间的关系可以用超图中的超边表示，也可以等价地用更方便的二分图（bipartite network）表示。这种网络中有两类顶点，一类顶点代表原始顶点，另一类顶点则表示原始顶点所属的群组。

二分网络中，与邻接矩阵等价的是一个矩形矩阵，称之为关联矩阵（incidence matrix）。如果 $n$ 代表人数或网络中的成员数目， $g$ 是群组的数目，那么关联矩阵 $\mathbf{B}$ 是一个 $g \times n$ 的矩阵，其元素 $B_{ij}$ 的取值含义如下：

$$ B_{ij}=\left\{\begin{array}{ll} 1 & \text{如果顶点 } j \text{ 属于群组 } i \\ 0 & \text{其他} \end{array}\right. $$

研究统一类型顶点之间的直接联系可以通过对二分网络进行单模投影（one-mode projection），推导出同类顶点之间的直接联系，如下图所示。

树

**树（tree）**是连通的、无向的且不包含闭合循环的网络，如下图所示。

连通是指任意两个顶点之间都存在一条相互可达的路径。一个网络可能有两个或多个部分组成，每个部分相互之间不连通，如果任意单独的部分都为树，则称这个网络为森林（forest）。

由于树没有闭合循环，因此任意两个顶点之间有且只有一条相连的路径。如果一个树有 $n$ 个顶点，那么它有且仅有 $n - 1$ 条边。

度

图中顶点的度（degree）是指与其直接相连的边数目。将顶点 $i$ 的度表示为 $k_i$ ，对于有 $n$ 个顶点构成的无向图，可利用邻接矩阵将度表示为：

$$ k_i = \sum_{j=1}^{n} A_{ij} $$

在无向图中，每个边都有两端，如果一共有 $m$ 条边，那么就有 $2m$ 个边的端点。同时，边的端点数与所有顶点度的总和相等：

$$ 2m = \sum_{j=1}^{n} k_i $$

即

$$ m = \dfrac{1}{2} \sum_{i=1}^{n} k_i = \dfrac{1}{2} \sum_{ij} A_{ij} $$

无向图中顶点度的均值 $c$ 为：

$$ c = \dfrac{1}{n} \sum_{i=1}^{n} k_i $$

综上可得：

$$ c = \dfrac{2m}{n} $$

在一个简单图中，可能的边数的最大值是 $\dbinom{n}{2} = \dfrac{1}{2} n \left(n - 1\right)$ 个。图的连通度（connectance）或密度（density） $\rho$ 是所有图中实际出现的边的数目与边数最大值之间的比值：

$$ \rho = \dfrac{m}{\dbinom{n}{2}} = \dfrac{2m}{n \left(n - 1\right)} = \dfrac{c}{n - 1} $$

在有向图中，每个顶点有两个度：入度（in-degree）是连接到该顶点的入边的数目，出度（out-degree）是出边数目。当从顶点 $j$ 到 $i$ 有一条边时，邻接矩阵中对应的元素 $A_{ij} = 1$ ，则入度和出度记为：

$$ k_i^{\text{in}} = \sum_{j=1}^{n} A_{ij}, k_j^{\text{out}} = \sum_{i=1}^{n} A_{ij} $$

在有向图中，边的数目 $m$ 等于入边的端点数总和，也等于出边的端点数总和，有：

$$ m=\sum_{i=1}^{n} k_{i}^{\mathrm{in}}=\sum_{j=1}^{n} k_{j}^{\mathrm{out}}=\sum_{i j} A_{i j} $$

每个有向图的入度的均值 $c_{\text{in}}$ 和出度的均值 $c_{\text{out}}$ 是相等的：

$$ c_{\text {in }}=\frac{1}{n} \sum_{i=1}^{n} k_{i}^{\text {in }}=\frac{1}{n} \sum_{j=1}^{n} k_{j}^{\text {out }}=c_{\text {out }} $$

简化后有：

$$ c = \dfrac{m}{n} $$

路径

网络中的路径是指由一组顶点构成的序列，序列中每两个连续顶点都通过网络中的边连接在一起，路径长度等于该路径经过的边的数目（而非顶点的数目）。从顶点 $j$ 到顶点 $i$ 存在长度为 $r$ 的路径总数为：

$$ N_{ij}^{\left(r\right)} = \left[\mathbf{A}^r\right]_{ij} $$

其中， $\left[\cdots\right]_{ij}$ 表示矩阵中的第 $i$ 行、第 $j$ 列的元素。

测地路径（geodesic path），简称为最短路径（shortest path），即两个顶点间不存在更短路径的路径。图的直径（diameter）是指图中任意一对相互连接的顶点之间的最长测地路径长度。欧拉路径（Eulerian path）是经过网络中的所有边且每条边只经过一次的路径。哈密顿路径（Hamiltonian path）是访问网络的所有顶点且每个顶点只访问一次的路径。

分支

如果一个网络中两个顶点之间不存在路径，则称这个网络是非连通（disconnected）的，如果网络中任意两个顶点之间都能找到一条路径，则称这个网络是连通（connected）的。

网络中的子群称为分支（component）。分支是网络中顶点的子集，该子集中任何两个顶点之间至少存在一条路径，在保证该性质的前提下，网络中其他顶点都不能被添加到这个子集中。在保证一个给定性质的前提下，不能再向它添加其他顶点，就称其为最大子集（maximal subset）。

连通度

如果两条路经除了起点和终点外，不共享其他任何顶点，那么这两条路径是顶点独立（vertex-independent）的。如果两条路径是顶点独立的，那么也是边独立的，反之则不成立。

两个顶点之间的独立路径数称为顶点之间的连通度（connectivity），如果明确考虑边还是顶点，则需利用边连通度（edge connectivity）及顶点连通度（vertex connectivity）的概念。

子图

令原图表示为 $G = \left(V, E\right)$ ，其中， $V$ 是图中所有顶点的集合， $E$ 是图中所有边的集合，有：

子图（subgraph）： $G'$ 中所有顶点和边均包含于原图 $G$ 中，即 $E' \in E, V' \in V$ 。
生成子图（spanning subgraph）： $G'$ 中顶点同原图 $G$ 相同，且 $E' \in E$ 。
导出子图（induced subgraph）： $G'$ 中， $V' \in V$ ，同时对于 $V'$ 中任意一个顶点，只要在原图 $G$ 中有对应的边，则也应包含在 $E'$ 中。

Motif

Motif ² 被定义为反复出现的重要连接模式。这些模式在真实的网络中要比随机网络中出现的更加频繁，如下图所示：

Motif 的显著性定义为：

$$ Z_i = \dfrac{N_i^{\text{real}} - \bar{N}_i^{\text{rand}}}{\text{std} \left(N_i^{\text{rand}}\right)} $$

其中， $N_i^{\text{real}}$ 为模式在真实图中出现的次数， $N_i^{\text{rand}}$ 为模式在随机图中出现的次数。

Graphlets

Graphlets 是对 Motif 的扩展，Motif 是从全局的角度发现模式，而 Graphlets 是从局部角度出发。Graphlets 是连接的非同构子图，这里要求子图为导出子图。下图展示了节点数为 2 至 5 的所有 Graphlets：

更多关于 Motif 和 Graphlets 的细节请参见 ³ ⁴ 。

测度和度量

中心性

度中心性

中心性（centrality）是研究“网络中哪些顶点是最重要或最核心的？”这个问题的一个概念。网络中心性的最简单的测度是顶点的度，即与顶点相连的边的数量。有时为了强调度作为中心性测度的用途，在社会学中也称之为度中心性（degree centrality）。

特征向量中心性

度中心性可自然地扩展为特征向量中心性（eigenvector centrality）。可以将度中心性理解为给某顶点所有邻居顶点赋予一个“中心性值”，但并非所有连接顶点的值都是相同的。很多情况下，一个顶点会由于连接到一些本身很重要的点，而使自身的重要性得到提升，这就是特征向量中心性的本质。

对于每个顶点 $i$ ，假设其中心性为 $x_i$ 。对于所有 $i$ ，可以设其初始值 $x_i = 1$ ，利用该值可以计算出另一个更能体现中心性的值 $x'_i$ ，将 $x'_i$ 定义为 $i$ 所有邻居顶点的中心性之和：

$$ x'_i = \sum_{j} A_{ij} x_j $$

重复该过程可以得到更好的估计值，重复 $t$ 步后，中心性 $\mathbf{x} \left(t\right)$ 的计算公式如下：

$$ \mathbf{x} \left(t\right) = \mathbf{A}^t \mathbf{x} \left(0\right) $$

当 $t \to \infty$ 时，中心性向量的极限与邻接矩阵中的主特征向量成正比。因此，可以等价地认为中心性 $\mathbf{x}$ 满足：

$$ \mathbf{A} \mathbf{x} = \kappa_1 \mathbf{x} $$

其中， $\kappa_1$ 为矩阵 $\mathbf{A}$ 的特征值中的最大值。

特征向量中心性对于有向图和无向图都适用。在有向图中，邻接矩阵是非对称的，因此网络有两类特征向量，通常情况下我们选择右特征向量来定义中心性。因为在有向网络中，中心性主要是由指向顶点的顶点，而不是由顶点指向的顶点赋予的。

Katz 中心性

Katz 中心性解决了特征向量中心性中节点中心性可能为零的问题。通过为网络中每个顶点赋予少量的“免费”中心性，可以定义：

$$ x_i = \alpha \sum_{j} A_{ij} x_j + \beta $$

其中， $\alpha$ 和 $\beta$ 是正常数。使用矩阵表示可以写成：

$$ \mathbf{x} = \alpha \mathbf{A} \mathbf{x} + \beta \mathbf{1} $$

其中， $\mathbf{1}$ 代表向量 $\left(1, 1, 1, \cdots\right)$ 。重新整理有 $\mathbf{x} = \beta \left(\mathbf{I} - \alpha \mathbf{A}\right)^{-1} \mathbf{1}$ ，由于只关心相对值，通常可以设置 $\beta = 1$ ，则有：

$$ \mathbf{x} = \left(\mathbf{I} - \alpha \mathbf{A}\right)^{-1} \mathbf{1} $$

PageRank

Katz 中心性有一个不足，被一个 Katz 中心性较高的顶点指向的顶点具有较高的 Katz 中心性，但如果这个中心性较高的顶点指向大量顶点，那么这些大量被指向的顶点也会拥有较高的中心性，但这种估计并非总是恰当的。在新的中心性中，那些指向很多其他顶点的顶点，即使本身的中心性很高，但也只能传递给它指向的每个顶点少量的中心性，定义为：

$$ x_{i}=\alpha \sum_{j} A_{i j} \frac{x_{j}}{k_{j}^{\text {out }}}+\beta $$

其中， $k_j^{\text{out}}$ 为顶点的出度，当 $k_j^{\text{out}} = 0$ 时可以将其设定为任何一个非零值，都不会影响计算结果。利用矩阵的形式，可以表示为：

$$ \mathbf{x}=\alpha \mathbf{AD}^{-1} \mathbf{x}+\beta \mathbf{1} $$

其中， $\mathbf{D}$ 为对角矩阵， $D_{ii} = \max \left(k_j^{\text{out}}, 1\right)$ 。同之前一样， $\beta$ 只是整个公式的因子，设置 $\beta = 1$ ，有：

$$ \mathbf{x}=\left(\mathbf{I}-\alpha \mathbf{A} \mathbf{D}^{-1}\right)^{-1} \mathbf{1} $$

该中心性即为 PageRank。

上述 4 种中心性的区别和联系如下表所示：

	带有常数项	不带常数项
除以出度	$\mathbf{x} = \left(\mathbf{I}-\alpha \mathbf{A} \mathbf{D}^{-1}\right)^{-1} \mathbf{1}$ PageRank	$\mathbf{x} = \mathbf{A} \mathbf{D}^{-1} \mathbf{x}$ 度中心性
不除出度	$\mathbf{x} = \left(\mathbf{I} - \alpha \mathbf{A}\right)^{-1} \mathbf{1}$ Katz 中心性	$\mathbf{x} = \kappa_1^{-1} \mathbf{A} \mathbf{x}$ 特征向量中心性

接近度中心性

接近度中心性（closeness centrality）用于度量一个顶点到其他顶点的平均距离。

$$ C_{i}=\frac{1}{\ell_{i}}=\frac{n}{\sum_{j} d_{i j}} $$

其中， $d_{i j}$ 表示从顶点 $i$ 到 $j$ 的测地路径长度，即路径中边的总数， $\ell_{i}$ 表示从 $i$ 到 $j$ 的平均测地距离。在大多数网络中，顶点之间的测地距离一般都较小，并且随着网络规模的增长，该值只是以对数级别速度缓慢增长。

在不同分支中的两个顶点之间的测地距离定义为无穷大，则 $C_i$ 为零。为了解决这个问题，最常见的方法是只计算同一分支内部的顶点的平均测地距离。新的定义使用顶点之间的调和平均测地距离：

$$ C_{i}^{\prime}=\frac{1}{n-1} \sum_{j(\neq i)} \frac{1}{d_{i j}} $$

公式中排除了 $j = i$ 的情况，因为 $d_{ii} = 0$ 。结果也称之为调和中心性（harmonic centrality）。

介数中心性

介数中心性（betweenness centrality）描述了一个顶点在其他顶点之间路径上的分布程度。假设在网络中每两个顶点之间，在每个单位时间内以相等的概率交换信息，信息总是沿着网络中最短测地路径传播，如果有多条最短测地路径则随机选择。由于消息是沿着最短路径以相同的速率传播，因此经过某个顶点的消息数与经过该顶点的测地路径数成正比。测地路径数就是所谓的介数中心性，简称介数。

定义 $n_{st}^i$ 为从 $s$ 到 $t$ 经过 $i$ 的测地路径数量，定义 $g_{st}$ 为从 $s$ 到 $t$ 的测地路径总数，那么顶点 $i$ 的介数中心性可以表示为：

$$ x_{i}=\sum_{s t} \frac{n_{s t}^{i}}{g_{s t}} $$

高介数中心性的顶点由于控制着其他顶点之间的消息传递，在网络中有着很强的影响力。删除介数最高的顶点，也最有可能破坏其他顶点之间的通信。

不同中心性的可视化如下图所示：

不同中心性可视化 By Tapiocozzo, CC BY-SA 4.0

其中，A：介数中心性；B：接近度中心性；C：特征向量中心性；D：度中心性；E：调和中心性；F：Katz 中心性。

传递性

传递性（transitivity）在社会网络中的重要性要比其他网络中重要得多。在数学上，对于关系“ $\circ$ ”，如果 $a \circ b$ 和 $b \circ c$ ，若能推出 $a \circ c$ ，则称 $\circ$ 具有传递性。

完全传递性值出现在每一个分支都是全连通的子图或团的网络中。团（clique）是指无向图网络中的一个最大顶点子集，在该子集中任何两个顶点之间都有一条边直接连接。完全传递性没有太多的实际意义，而部分传递性却很有用。在很多网络中， $u$ 认识 $v$ 且 $v$ 认识 $w$ ，并不能保证 $u$ 认识 $w$ ，但两者之间相互认识的概率很大。

如果 $u$ 也认识 $w$ ，则称该路径是闭合的。在社会网络术语中，称 $u, v, w$ 这 3 个顶点形成一个闭合三元组（closed triad）。我们将聚类系数（clustering coefficient）定义为网络中所有长度为 2 的路径中闭合路径所占的比例：

$$ C = \dfrac{\text{长度为 2 的路径中闭合路径数}}{\text{长度为 2 的路径数}} $$

其取值范围在 0 到 1 之间。社会网络的聚类系数比其他网络偏高。

对于顶点 $i$ ，定地单个顶点的聚类系数为：

$$ C_i = \dfrac{\text{顶点 i 的邻居顶点中直接相连的顶点对数}}{\text{顶点 i 的邻居顶点对总数}} $$

$C_i$ 也称为局部聚类系数（local clustering coefficient），该值代表了 $i$ 的朋友之间互为朋友的平均概率。

相互性

聚类系数观察的是长度为 3 的循环，长度为 2 的循环的频率通过相互性（reciprocity）来度量，该频率描述了两个顶点之间相互指向的概率。

相似性

社会网络分析的另一个核心概念是顶点之间的相似性。构造网络相似性的测度有两种基本方法：结构等价（structural equivalence）和规则等价（regular equivalence），如下图所示：

结构等价

针对无向网络中，最简单和最显而易见的结构等价测度就是计算两个顶点的共享邻居顶点数。在无向网络中，顶点 $i$ 和 $j$ 的共享邻居顶点数表示为 $n_{ij}$ ，有：

$$ n_{ij} = \sum_{k} A_{ik} A_{kj} $$

利用余弦相似度可以更好的对其进行度量。将邻接矩阵的第 $i$ 和第 $j$ 行分别看成两个向量，然后将这两个向量之间的夹角余弦值用于相似性度量，有：

$$ \sigma_{i j}=\cos \theta=\frac{\sum_{k} A_{i k} A_{k j}}{\sqrt{\sum_{k} A_{i k}^{2}} \sqrt{\Sigma_{k} A_{j k}^{2}}} $$

假设网络是不带权重的简单图，上式可以化简为：

$$ \sigma_{i j}=\frac{\sum_{k} A_{i k} A_{k j}}{\sqrt{k_{i}} \sqrt{k_{j}}}=\frac{n_{i j}}{\sqrt{k_{i} k_{j}}} $$

其中， $k_i$ 是顶点 $i$ 的度。余弦相似度的取值范围为从 0 到 1，1 表示两个顶点之间拥有完全相同的邻居节点。

皮尔逊相关系数通过同随机选择邻居顶点条件下共享邻居顶点数的期望值进行比较的方式进行计算，得到的标准的皮尔逊相关系数为：

$$ r_{i j}=\frac{\sum_{k}\left(A_{i k}-\left\langle A_{i}\right\rangle\right)\left(A_{j k}-\left\langle A_{j}\right\rangle\right)}{\sqrt{\sum_{k}\left(A_{i k}-\left\langle A_{i}\right\rangle\right)^{2}} \sqrt{\sum_{k}\left(A_{j k}-\left\langle A_{j}\right\rangle\right)^{2}}} $$

上式的取值范围从 -1 到 1，数值越大表明两者之间越相似。

规则等价

规则等价的顶点不必共享邻居顶点，但是两个顶点的邻居顶点本身要具有相似性。一些简单的代数测度思想如下：定义一个相似性值 $\sigma_{ij}$ ，若顶点 $i$ 和 $j$ 各自的邻居顶点 $k$ 和 $l$ 本身具有较高的相似性，则 $i$ 和 $j$ 的相似性也较高。对于无向网络，有以下公式：

$$ \sigma_{i j}=\alpha \sum_{k l} A_{i k} A_{j l} \sigma_{k l} $$

或者利用矩阵性质表示为 $\mathbf{\sigma} = \alpha \mathbf{A \sigma A}$ 。

同质性

在社会网络中，人们倾向于选择那些他们认为与其自身在某些方面相似的人作为朋友，这种倾向性称为同质性（homophily）或同配混合（assortative mixing）。

依据枚举特征的同配混合

假设有一个网络，其顶点根据某个枚举特征（例如：国籍、种族、性别等）分类，且该特征的取值是一个有限集合。如果网络中连接相同类型顶点之间的边所占比例很大，那么该网络就是同配的。量化同配性简单的方法是观测这部分边占总边数的比例，但这并不是很好的度量方法，因为如果所有顶点都是同一个类型，那么测度值就是 1。

好的测度可以通过首先找出连接同类顶点的边所占的比例，然后减去在不考虑顶点类型时，随机连接的边中，连接两个同类顶点的边所占比例的期望值的方式得到。常用的测度为模块度（modularity）：

$$ Q=\frac{1}{2 m} \sum_{i j}\left(A_{i j}-\frac{k_{i} k_{j}}{2 m}\right) \delta_{g_{i} g_{i}} $$

其中， $k_i$ 为顶点 $i$ 的度， $g_i$ 为顶点 $i$ 的类型， $m$ 为总边数， $\delta_{ij}$ 为克罗内克函数。该值严格小于 1，如果同类顶点之间边数的实际值大于随机条件下的期望值，则该值为正数，否则为负数，值为正说明该网络是同配混合的。

依据标量特征的同配混合

如果根据标量特征（例如：年龄、收入等）来度量网络中的同质性。由于该类特征具有确定的顺序，因此根据标量的数值，不仅可以指出两个顶点在什么情况下是完全相同的，也可以指出它们在真么情况下是近似相同的。

令 $x_i$ 为顶点 $i$ 的标量值， $\left(x_i, x_j\right)$ 为网络中每一条边 $\left(i, j\right)$ 的两个端点的值，利用协方差可以得到同配系数：

$$ r=\frac{\sum_{i j}\left(A_{i j}-k_{i} k_{j} / 2 m\right) x_{i} x_{j}}{\sum_{i j}\left(k_{i} \delta_{i j}-k_{i} k_{j} / 2 m\right) x_{i} x_{j}} $$

该系数在全同配混合网络中取最大值 1，在全异配混合网络中取最小值 -1，值 0 意味着边两端的顶点值是非相关的。

依据度的同配混合

依据度的同配混合是依据标量特征的同配混合的一个特例。依据度的同配混合网络中，高度数顶点倾向于与其他高度数顶点相连，而低度数顶点倾向于与其他低度数顶点相连。

在同配网络中，度大的顶点倾向于聚集在一起的网络中，我们希望得到网络中这些度大的顶点构成的顶点块或核，它们周围是一些度小的顶点构成的低密度边缘（periphery）。这种核心/边缘结构（core/periphery structure）是社会网络的普遍特征。

上图 (a) 给出了一个小型的同配混合网络，其核心/边缘结构明显，上图 (b) 给出了一个小型异配混合网络，通常不具备核心/边缘结构，但顶点的分布更加均匀。

Newman, M. E. J. (2014) 网络科学引论. 电子工业出版社. ↩︎
Milo, R., Shen-Orr, S., Itzkovitz, S., Kashtan, N., Chklovskii, D., & Alon, U. (2002). Network motifs: simple building blocks of complex networks. Science, 298(5594), 824-827. ↩︎
Jain, D., & Patgiri, R. (2019, April). Network Motifs: A Survey. In International Conference on Advances in Computing and Data Sciences (pp. 80-91). Springer, Singapore. ↩︎
Henderson, K., Gallagher, B., Eliassi-Rad, T., Tong, H., Basu, S., Akoglu, L., … & Li, L. (2012, August). Rolx: structural role extraction & mining in large graphs. In Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining (pp. 1231-1239). ↩︎