贾霄生(1996-), 男, 硕士生, 主要研究领域为学术网络分析, 异质信息网络表示学习
赵中英(1983-), 女, 博士, 副教授, 博士生导师, CCF高级会员, 主要研究领域为网络表示学习, 社交网络分析与挖掘
李超(1984-), 男, 博士, 副教授, 博士生导师, CCF高级会员, 主要研究领域为异质图神经网络分析, 自然语言处理, 表示学习
栾文静(1987-), 女, 博士, 讲师, 主要研究领域为基于位置的社交网络, 推荐系统, 机器学习
梁永全(1983-), 男, 博士, 教授, 博士生导师, CCF高级会员, 主要研究领域为分布式人工智能, 数据挖掘, 机器学习, 多媒体信息智能处理
异质信息网络能够对真实世界的诸多复杂应用场景进行建模, 其表示学习研究也得到了众多学者的广泛关注. 现有的异质网络表示学习方法大多基于元路径来捕获网络中的结构和语义信息, 已经在后续的网络分析任务中取得很好的效果. 然而, 此类方法忽略了元路径的内部节点信息和不同元路径实例的重要性; 仅能捕捉到节点的局部信息. 因此, 提出互信息与多条元路径融合的异质网络表示学习方法. 首先, 利用一种称为关系旋转编码的元路径内部编码方式, 基于相邻节点和元路径上下文节点捕获异质信息网络的结构和语义信息, 采用注意力机制来建模各元路径实例的重要性; 然后, 提出一种互信息最大化与多条元路径融合的无监督异质网络表示学习方法, 使用互信息捕获全局信息以及全局信息和局部信息之间的联系. 最后, 在两个真实数据集上进行实验, 并与当前主流的算法进行比较分析. 结果表明, 所提方法在节点分类和聚类任务上性能都有提升, 甚至和一些半监督算法相比也表现出强劲性能.
Heterogeneous information networks can be used for modeling several applications in the real world. Their representation learning has received extensive attention from scholars. Most of the representation learning methods extract structural and semantic information based on meta-paths and their effectiveness in network analysis have been proved. However, these methods ignore the node internal information and different degrees of importance of meta-path instances. Besides, they can capture only the local node information. Thus, this study proposes a heterogeneous network representation learning method fusing mutual information and multiple meta-paths. First, a meta-path internal encoding method called relational rotation encoding is used, which captures the structural and semantic information of the heterogeneous information network according to adjacent nodes and meta-path context nodes. It uses an attention mechanism to model the importance of each meta-path instance. Then, an unsupervised heterogeneous network representation learning method fusing mutual information maximization and multiple meta-paths is proposed and mutual information can capture both global and local information. Finally, experiments are conducted on two real datasets. Compared with the current mainstream algorithms as well as some semi-supervised algorithms, the results show that the proposed method has better performance on node classification and clustering.
真实世界的许多应用场景都可以用网络建模, 如属性网络[
异质信息网络表示学习(heterogeneous information network embedding, HINE)是将网络中的节点映射为欧式空间的低维稠密向量, 同时最大限度地保持网络中的拓扑结构与异质信息. 主流的方法大多都是基于元路径的, 例如石川教授团队提出的HERec[
一些无监督学习方法, 如PGRA[
The comparison of different processing methods of meta-paths
元路径不同处理方式的对比
综上所述, 现有的HINE仍然存在着以下亟待解决的问题: (1)没有充分挖掘元路径内部节点的信息, 忽略了不同元路径实例具有不同重要性的特点; (2)仅能捕捉到节点的局部信息. 为了解决上述问题, 本文提出一种新的互信息与多条元路径融合的异质网络表示学习方法, 主要贡献如下.
(1) 利用关系旋转编码, 基于相邻节点和元路径上下文节点建模元路径内部节点, 使用注意力机制建模各元路径实例的不同重要性, 以融合多种语义信息.
(2) 提出一种互信息最大化与多条元路径融合的异质信息网络节点表示学习方法, 通过最大化局部表示和全局表示之间的互信息, 捕获全局信息以及全局信息和局部信息之间的联系.
(3) 在真实数据集上进行实验并与主流的方法进行比较, 实验结果表明, 本文提出的方法具有很好的表征能力, 在分类和聚类任务上均优于主流的方法.
本文第1节介绍相关工作. 第2节给出相关概念的解释. 第3节介绍互信息与多条元路径融合的异质网络表示学习方法. 第4节介绍实验设置和结果分析. 第5节总结全文.
元路径未提出之前, 基于边的代表性模型如DeepWalk[
深度模型能够更好地捕捉非线性关系, 因此最近一些工作也开始利用深度模型来对异质网络进行建模. 基于深度神经网络的异质网络表示学习大致可以分为4类: 基于自动编码器[
基于自动编码器的方法, 如SDNE使用深度自动编码器优化一阶和二阶相似度, 在保留局部和全局结构的同时, 抽取网络结构的非线性特征; SHINE[
基于图神经网络的异质网络表示学习方法的核心思想是消息传递机制, 将邻域信息聚合传递给目标节点, 在特定域进行卷积操作捕捉高阶非线性的依赖关系从而学习节点的表示; HAN[
近年来, 由于互信息可以捕捉到变量间非线性的统计相关性, 基于互信息的网络表示学习方法引起学者的广泛关注. MINE[
本文用到的主要符号及其含义如
Notations and explanations.
符号及相关说明
名称 | 描述 |
|
|
|
图中的节点集合 |
|
节点
|
|
元路径 |
|
节点
|
|
节点
|
|
节点
|
|
元路径数量 |
|
节点的全局表示 |
|
权重矩阵 |
|
标准化注意力参数 |
|
激活函数 |
|
逐元素乘法 |
|
向量连接符 |
|
Shuffle()操作 |
平均编码函数 | |
|
鉴别器 |
定义
An example of heterogeneous information network
异质信息网络示例
定义
The network schema of citation network
引文网络的网络模式
定义
互信息与多条元路径融合的异质网络表示学习方法如
The method of heterogeneous network representation learning fusing mutual information and multiple meta-paths
互信息与多条元路径融合的异质网络表示学习方法
HIN中不同类型的节点有不同的属性, 因此不同的节点类型具有不同的特征向量维度, 属于不同的特征空间. 为了便于统一处理, 本文对特定类型的节点进行线性变换, 将特征向量投影到相同的特征空间中:
其中,
给定元路径
其中,
● 求平均值编码. 对元路径实例
● 线性编码. 对求平均值的编码器进行扩展, 添加一个线性变换:
● 关系旋转编码[
其中,
对目标节点
其中,
此外, 本文将注意力机制扩展为多头, 有助于提高学习过程中的稳定性, 减小网络的异质性带来的高方差, 具体如下:
其中,
每条元路径在HIN中的重要性是不一样的. 受HAN算法的启发, 本文设计了语义注意力层
具体地, 语义注意力层
(1) 对所有节点转换后的特定元路径的节点向量进行取平均操作:
其中,
(2) 使用注意力机制融合节点
其中,
(3) 使用
(4) 使用线性变换函数和一层非线性函数, 将节点表示映射到输出所需维度的向量空间中:
其中,
语义注意力层
算法
Input:
Output: 融合不同元路径权重的节点表示
对元路径特定的节点向量取平均获得
使用注意力机制融合节点向量获得
归一化得到元路径
重要性权重与特定元路径的向量进行加权求和得到
线性变换将节点表示映射到所需的向量空间得到
本文方法需要通过最大化局部表示和全局表示之间的互信息来进行模型的优化, 首先通过多条元路径间的聚合得到节点
(1) 最大池化编码函数: 将每个节点向量单独输入到一个全连接层. 使用元素级的max-pooling操作(对应维度的所有元素取最大值), 汇总出节点集的信息:
(2) 平均编码函数
为了获得高质量的负样本, 本文采用DGI和HDGI中改变节点特征的方法来获取负样本:
此方法保证所有基于元路径的邻接矩阵不变, 使得异质信息网络
互信息可以捕捉到变量间非线性的统计相关性, 因此其能够度量真实的依赖性. 互信息表示当给定变量
其中,
由公式(17)可以得到互信息与
由于互信息计算难度高的缺点, Belghazi等人[
其中,
然而, 函数族的搜索空间非常大, 公式(20)中的函数
根据这一理论, 本文通过训练鉴别器
在本文中, 基于Jensen-Shannon散度和互信息间的单调关系, 可以采用针对鉴别器
上述损失可以通过梯度下降进行优化.
综上所述, 我们给出互信息与多条元路径融合的异质网络表示学习方法的具体操作步骤, 见算法2.
算法
Input: 异质图
Output: 互信息与多条元路径的融合节点表示
对所有节点特征使用shuffle()函数生成负样本/*公式(16)*/
特定类型节点映射
对元路径实例进行编码得到
利用
利用readout函数得到全局表示
使用基于互信息最大化的鉴别器优化节点表示; /*公式(21), 公式(22)*/
本文采用以下两种数据集进行实验, 数据集的主要描述如
Description of Experimental Dataset
实验数据集描述
数据集 | 节点类型 | 节点数量 | 边类型 | 边数量 | 元路径 |
DBLP | Author (A) | 4 057 | A-P
|
19645
|
APA
|
Paper (P) | 14328 | ||||
Term (T) | 20 | ||||
Venue (V) | 20 | ||||
IMDB | Movie (M) | 4 278 | M-D
|
4 278
|
MDM |
Actor (A) | 5 257 | MAM | |||
Director (D) | 2 081 | DMD |
DBLP是一个计算机科学文献网站数据集, 包含4 057位作者、14 328篇论文、7 723个术语和20个出版地点. 作者分为4个研究领域(数据库、数据挖掘、人工智能和信息检索). DBLP数据集的网络模式如
Network schemas of datasets
数据集的网络模式
IMDB是一个关于电影和电视节目的在线数据库, 包括演员、导演和电影等信息, 包含4 278部电影、2 081名导演和5 257名演员. 经过数据预处理, 电影根据其类型信息被分为3类(动作片、喜剧片和戏剧片). IMDB数据集的网络模式如
实验采用了
其中,
此外, 实验采用
其中,
其中,
其中,
我们将本文方法与目前的主流算法进行比较, 包括无监督和半监督的算法.
Raw Feature: 对节点原始特征组成的词袋(bag-of-words)学习节点的表示, 并直接在任务中测试.
DeepWalk[
DeepWalk+Raw Feature (DeepWalk+F): 将从DeepWalk中学到的节点表示和依据节点原始特征组成的词袋学习的表示连接起来作为节点的最终表示.
Metapath2vec[
DGI[
HDGI[
GCN[
GAT[
HAN[
我们通过实验不断地调整参数, 将各参数设置如下: 丢弃率(dropout_rate)为 0.3、学习率(learning_rate)为 0.001、权重衰减(weight_decay)为 0.001、批量大小(batch-size)为8, 使用早停法降低模型过拟合并设置耐心值为30. 对比算法中的模型参数则采用了原文中作者建议的参数设置. 对于GCN、GAT和HAN, 本文使用相同的训练集、验证集和测试集, 使用Adam优化器, 学习率和权重衰减设置为0.001, 注意力头数设置为8.
在节点分类任务中, 本文使用
The results of node classification tasks
节点分类结果 (%)
数据集 | 评价指标 | 训练比例 | 无监督算法 | 半监督算法 (X+A) | |||||||||||
A | X | X+A | |||||||||||||
DeepWalk | Metapath2vec | Raw Feature | DeepWalk+F | DGI | HDGI | Ours | GCN | GAT | HAN | ||||||
DBLP | 20 | 23.02 | 68.74 | 85.85 | 70.63 | 89.21 | 89.88 | 81.28 | 81.48 | 89.23 | |||||
80 | 24.01 | 80.14 | 88.02 | 77.99 | 90.52 | 91.06 | 83.08 | 84.76 | 90.55 | ||||||
20 | 28.05 | 69.85 | 85.90 | 71.63 | 89.75 | 90.62 | 81.92 | 82.44 | 89.92 | ||||||
80 | 30.79 | 82.11 | 88.20 | 78.60 | 91.92 | 91.92 | 83.83 | 85.4 | 91.00 | ||||||
IMDB | 20 | 38.88 | 40.12 | 51.07 | 52.93 | 56.90 | 55.52 | 58.69 | 59.44 | 60.27 | |||||
80 | 40.01 | 41.19 | 58.84 | 60.49 | 59.50 | 58.34 | 64.57 | 65.50 | 65.86 | ||||||
20 | 39.13 | 39.85 | 51.12 | 52.62 | 57.28 | 54.82 | 59.31 | 59.85 | 60.77 | ||||||
80 | 39.53 | 42.03 | 59.00 | 60.17 | 60.03 | 58.61 | 64.67 | 65.40 | 66.00 |
在节点聚类任务中, 本文将学习到的节点表示使用K-means[
The results of node clustering tasks
节点聚类任务结果
数据集 | 评价指标 | DeepWalk | Raw Feature | DeepWalk+F | Metapath2vec | DGI | HDGI | Ours |
DBLP | 7.40 | 11.21 | 11.98 | 34.30 | 59.23 | 60.76 | ||
5.30 | 6.98 | 6.99 | 37.54 | 61.85 | 62.67 | |||
IMDB | 1.23 | 1.06 | 1.23 | 1.15 | 0.56 | 0.8 | ||
1.22 | 1.17 | 1.22 | 1.51 | 2.6 | 1.29 |
通过
值得注意的是, 对于节点分类与聚类任务, IMDB数据集的效果都比在DBLP上差, 这是因为: (1)原始的IMDB数据集中每部电影都有多个标签, 实验中所使用的数据集只选择第一个标签作为该电影的类别标签; (2) IMDB数据集中的数据特征比较稀疏. 因此相较于DBLP数据集, IMDB数据集的实验效果在分类和聚类任务上相对较差.
本节分析了GRU、Bi-GRU、LSTM、Bi-LSTM、RotatE、linear、max-pooling、average这8种编码方式在DBLP数据集下对分类结果的影响, 使用同样的实验参数设置, 得到了如
The impact of coding methods on experimental results
编码方式对实验结果的影响
由
本节测试了batch-size的大小对实验结果的影响, 在不同规模的训练集下
Effect of batch-size on experimental results
batch-size对实验结果的影响
Batch-size的大小影响训练速度和模型优化, 较大的batch-size能够得到更加精确的梯度估计, 但会导致内存溢出、收敛缓慢、泛化性差等问题; 较小的batch-size能够带来更好的泛化误差, 但会带来噪声, 甚至导致不收敛. 因此batch-size的选择也是一个重要问题. 从
本节测试了学习率(learning_rate)和丢失率(dropout_rate)对实验结果的影响, 在80%的训练集下,
Effect of learning_rate and dropout_rate on experimental results
学习率和丢失率对实验结果的影响
在模型迭代过程中, 学习率会控制模型的学习进度, 决定着目标函数能否收敛到局部最小值. 当学习率设置的过小时, 收敛过程将变得十分缓慢, 而当学习率设置的过大时, 梯度可能会在最小值附近来回震荡, 甚至可能无法收敛. 由
为了进一步证明本文方法的有效性, 将本文提出的方法与HDGI进行聚类可视化对比实验, 结果如
Clustering visualization
聚类可视化
从
本文提出一种互信息与多条元路径融合的异质网络表示学习方法. 针对大多数现有的HINE方法存在的元路径内部节点信息处理不充分, 忽略各元路径实例不同重要性的问题, 采用一种称为关系旋转编码的元路径内部节点编码方式, 基于相邻节点和上下文节点来获取元路径内部节点信息, 使用注意力机制建模各元路径实例的不同重要性和多种语义信息; 针对大多数现有HINE方法仅能捕获到节点的局部信息的问题, 提出一种互信息最大化与多条元路径融合的无监督异质网络节点表示学习方法, 利用互信息捕获全局信息以及它和局部信息之间的联系, 进而得到合理有效的节点表示. 在DBLP和IMDB两个真实数据集上进行实验并与主流算法进行对比与分析, 本文所提出的算法在节点分类和聚类任务上效果都有提升. 在下一步的研究工作中, 我们将致力于研究泛化能力更强、稳定性更好的算法, 并探索比元路径更加高效准确的异质信息提取方法.
Zhao ZY, Zhou H, Qi L, Chang L, Zhou MC. Inductive representation learning via CNN for partially-unseen attributed networks. IEEE Trans. on Network Science and Engineering, 2021, 8(1): 695–706.
Zhao ZY, Zhou H, Li C, Tang J, Zeng QT. DeepEmLAN: Deep embedding learning for attributed networks. Information Sciences, 2021, 543: 382–397.
Tan QY, Liu NH, Hu X. Deep representation learning for social network analysis. Frontiers in Big Data, 2019, 2: 2.
Wang Q, Mao ZD, Wang B, Guo L. Knowledge graph embedding: A survey of approaches and applications. IEEE Trans. on Knowledge and Data Engineering, 2017, 29(12): 2724–2743.
Alshahrani M, Khan MA, Maddouri O, Kinjo AR, Queralt-Rosinach N, Hoehndorf R. Neuro-symbolic representation learning on biological knowledge graphs. Bioinformatics, 2017, 33(17): 2723–2730.
Jin ST, Zeng XX, Xia F, Huang W, Liu XR. Application of deep learning methods in biological networks. Briefings in Bioinformatics, 2021, 22(2): 1902–1917.
Park C, Kim D, Han JW, Yu H. Unsupervised attributed multiplex network embedding. In: Proc. of the AAAI Conf. on Artificial Intelligence, 2020, 34(4): 5371–5378.
Deshpande M, Karypis G. Item-based top-N recommendation algorithms. ACM Trans. on Information Systems (TOIS), 2004, 22(1): 143–177.
Shi C, Hu BB, Zhao WX, Yu PS. Heterogeneous information network embedding for recommendation. IEEE Trans. on Knowledge and Data Engineering, 2019, 31(2): 357–370.
http://mccormickml.com/2016/04/19/word2vec-tutorial-the-skip-gram-model.]]>
Wang X, Zhang YD, Shi C. Hyperbolic heterogeneous information network embedding. Proc. of the 2019 AAAI Conf. on Artificial Intelligence, 2019, 33(1): 5337–5344.
Wang LL, Gao CY, Huang CH, Liu RB, Ma WC, Vosoughi S. Embedding heterogeneous networks into hyperbolic space without meta-path. Proc. of the 2021 AAAI Conf. on Artificial Intelligence, 2021, 35(11): 10147–10155.
Chairatanakul N, Liu X, Murata T. PGRA: Projected graph relation-feature attention network for heterogeneous information network embedding. Information Sciences, 2021, 570: 769–794.
–2117.]]>
Wang HW, Wang J, Wang JL, Zhao M, Zhang WN, Zhang FZ, Xie X, Guo MY. GraphGAN: Graph representation learning with generative adversarial nets. Proc. of the 2018 AAAI Conf. on Artificial Intelligence, 2018, 32(1): 2508–2515.
Wan GJ, Du B, Pan SR, Haffari G. Reinforcement learning based meta-path discovery in large-scale heterogeneous information networks. Proc. of the 2020 AAAI Conf. on Artificial Intelligence, 2020, 34(4): 6094–6101.
Hong HT, Guo HT, Lin YC, Yang XQ, Li Z, Ye JP. An attention-based graph neural network for heterogeneous structural learning. Proc. of the 2020 AAAI Conf. on Artificial Intelligence, 2020, 34(4): 4132–4139.
Sun YZ, Han JW, Yan XF, Yu PS, Wu TY. Pathsim: Meta path-based top-k similarity search in heterogeneous information networks. Proc. of the VLDB Endowment, 2011, 4(11): 992–1003.
Donsker MD, Varadhan SRS. Asymptotic evaluation of certain Markov process expectations for large time, I. Communications on Pure and Applied Mathematics, 1975, 28(1): 1–47.