本文由“本体工程与知识图谱”专题特约编辑李涓子教授推荐
实体集扩展是指已知某个特定类别的几个种子实体,根据一定的规则得到该类别的更多实体.作为一种经典的数据挖掘任务,实体集扩展已经有很多的应用,诸如字典建立、查询建议等.现有的实体集扩展主要是基于文本或网页信息,即实体之间的关系从其在文本或者网页中的共现来推断.随着知识图谱研究的兴起,根据知识图谱中知识的共现来研究实体集扩展也成为了一种可能.主要研究知识图谱中的实体集扩展问题,即:给定几个种子实体,利用知识图谱来得到更多的同类别的实体.首先,把知识图谱建模成一个异质信息网络,即含有多种实体类型或者关系类型的网络,提出了一种新的元路径下基于频繁模式的实体集扩展方法,称为FPMP_ESE.FPMP_ESE采用异质信息网络中的元路径来捕捉种子实体之间的潜在共同特征.为了找到种子实体之间重要的元路径,设计了一种新的基于频繁模式的元路径自动产生算法FPMPG.之后,为了更好地给每条元路径分配相应的权重,设计了启发式的方法和PU learning的方法.最后,在真实数据集Yago上的实验结果表明,所提出方法较其他方法在实体集扩展任务上具有更好的性能和更高的效率.
Entity set expansion (ESE) refers to getting a more complete set according to some rules, given several seed entities with specific semantic meaning. As a popular data mining task, ESE has many applications, such as dictionary construction and query suggestion. Contemporary ESE mainly utilizes text or Web information. That is, the intrinsic relations among entities are inferred from theirco-occurrences in text or Web. With the surge of knowledge graph in recent years, it is possible to extend entities according to their co-occurrences in knowledge graph. This paper studies the problem of the entity set expansion in knowledge graph. That is, given several seed entities, how to obtain more entities by leveraging knowledge graph. Firstly, the knowledge graph is modeled as a heterogeneous information network (HIN), which contains multiple types of entities or relationships. Next, a novel method of entity set expansion based on frequent pattern under Meta path, called FPMP_ESE, is proposed. FPMP_ESE employs Meta paths to capture the implicit common traits of seed entities. In order to find the important Meta paths between entities, an automatic Meta path generation method is designed based on frequent pattern called FPMPG. Then, two kinds of heuristic and PU learning methods are developed to distribute the weights of Meta paths. Finally, experiments on real dataset Yago demonstrate that the proposed method has better effectiveness and higher efficiency compared to other methods.
实体集扩展指的是这样一类问题:已知某个特定类别的几个种子实体, 根据一定的规则得到该类别的更多实体.比如给定种子集合{北京, 华盛顿, 莫斯科}, 利用数据确定种子集合潜在的类别语义即国家首都, 然后找出更多的同类别的实体, 诸如{汉城, 东京, 吉隆坡, …}.实体集扩展已经有很多的应用, 例如字典建立[
目前, 已经有很多实体集扩展的方法, 这些方法的数据源大都是文本或者网页[
然而, 利用知识图谱作为单独的数据源来进行实体集扩展的工作还很少.因为知识图谱不需要经过诸如文本等复杂的自然语言处理过程, 并且包含大量的对象和丰富的语义关系, 所以把知识图谱作为单独的数据源进行实体集扩展是可能的并且是很有必要的.知识图谱是由形如〈主体, 谓语, 客体〉; 的三元组构成, 包含有多种类型的实体和关系, 因此, 我们可以把知识图谱建模成一个异质信息网络, 即, 包含有多种实体类型或关系类型的网络[
● 一是知识图谱中实体之间的元路径非常多, 难以枚举.在传统的异质信息网络中, 存在少量的实体类型和关系类型, 可以人工列举出有意义的元路径.但是知识图谱中的实体类型和关系类型非常多, 无法一一列举, 因此, 一种高效的自动寻找元路径的方法是非常有必要的;
● 二是即使我们可以自动地找到实体之间的重要元路径, 如何对这些元路径进行组合从而进行实体集扩展, 也是非常具有挑战性的.正如实体集扩展中有很少的种子实体, 很难用传统的监督式的机器学习方法来建立一个分类或者排序模型, 因此, 我们需要设计一种方法来对这些元路径进行有效组合.
为了解决第1个方面的挑战, 我们设计了一种基于频繁模式的元路径自动产生算法, 称为FPMPG(frequent pattern based meta path generation).具体地, FPMPG算法利用了频繁模式挖掘技术, 先将种子实体映射为实体事务, 然后探测出所有种子实体的频繁模式(重要的
本文第1节介绍与知识图谱中的实体集扩展相关的工作.第2节介绍异质信息网络、知识图谱等基本概念知识.第3节详细描述本文提出的新颖的实体集扩展方法.第4节设计相关实验, 验证提出方法的有效性和效率, 并且进一步研究不同种子组合和种子数目等对性能的影响.第5节对全文进行概括总结, 并对进一步的研究方向进行初步探讨.
知识图谱中, 基于频繁模式和元路径的实体集扩展的相关工作主要涉及以下4个方面:(1)知识图谱; (2)异质信息网络; (3)频繁模式挖掘; (4)实体集扩展.本节主要围绕这4个方面讨论已有的相关工作.
知识图谱是谷歌于2012年为优化搜索结果而提出来的[
知识图谱建立方面的工作主要包括诸如CYC[
实际上, 无论采用哪种方法建立起来的知识图谱都不一定具有完全的覆盖率和准确率.为了增加知识图谱的可使用性, 相关研究学者提出了很多精炼方法, 主要包括知识图谱的补全和纠错两大类.
知识图谱补全的目标是增加知识图谱的覆盖率, 依据其补全的信息不同, 又可以分为补全实体、实体类型以及实体之间的关系等.补全实体类型的方法通常是将其看作一个分类问题, 利用已有的实体之间的关系或者不同的知识图谱中的链接关系来预测实体类型[
知识图谱纠错的目标是改正已有的错误.依据其纠错的信息, 可以分为类型纠错、关系纠错、属性值纠错以及不同知识图谱中的相同实体之间的对应关系的纠错.例如, Paulheim等人[
基于知识图谱的数据挖掘工作有问答、搜索、链接预测、决策支持等[
异质信息网络是由不同类型的实体或关系构成的信息网络[
频繁模式挖掘是指发现数据集中出现频率超过一定阈值的模式, 它是数据挖掘中的一项基础性工作, 也是关联规则挖掘的一个关键步骤, 可以应用于分类、聚类等数据挖掘任务.
为了发现大型超市中顾客购买行为之间的有趣联系, Agrawal于1994年开创性地提出了关联规则挖掘问题, 并提出了著名的Apriori算法[
最近几年, 实体集扩展已经得到了学术界[
基于文本数据源的实体集扩展方法, 主要是基于这样一个假设, 即, 具有相似意义的单词往往出现在相似的上下文中, 从而利用实体周围单词的分布信息来扩展特定类[
近来, 异质信息网络和知识图谱也已被应用在相关研究中.例如, Yu等人[
在这一节, 我们介绍本文中用到的一些基本概念和基本知识.
例如, 在
Yago中实体、关系及类型示例
A tiny example of entity, relationship and type in Yago
异质信息网络中一个很重要的概念是元路径[
例如,
其中,
例如, 在
为了解决知识图谱中的实体集扩展问题, 本文提出了一种新的元路径下基于频繁模式的实体集扩展方法, 称为FPMP_ESE(entity set expansion based on frequent pattern under meta path).如前所述, 知识图谱本身是一个异质信息网络, 我们采用元路径来表征种子实体之间潜在的共同特征.而知识图谱中的实体之间的元路径数目庞大, 无法枚举, 为了自动产生重要元路径, 我们设计了一种基于频繁模式的元路径自动产生算法FPMPG.之后, 我们设计了两种权重学习方法对元路径进行组合:一种是启发式方法, 另一种是PU learning(positive and unlabeled learning)方法.下面详细阐述各个步骤.
受Apriori算法[
受频繁模式挖掘的启发, 我们将其应用在种子实体的特征挖掘上, 将种子实体映射为相对应的实体事务.具体地, 我们将知识图谱中的一个种子实体看作事务数据库中的一个事务, 将实体的
知识图谱中的种子实体事务的例子
An example of seed entity transaction in knowledge graph
种子实体 | 1-关系 | 2-关系 | 33-关系 |
by_Kebbell | … | ||
Nigel_Havers | … | ||
Harrison_Ford | … |
第1阶段将种子实体映射为相应的实体事务, 然后, 我们利用频繁模式挖掘技术来产生重要的元路径.其基本思路是:首先扫描所有种子实体事务, 设定
(1) 第1步:记录实体事务的
(2) 第2步:
(3) 第3步:
(4) 第4步:关系路径剪枝.针对
(5) 第5步:添加实体类型得到重要元路径.根据第4步得到的频繁关系路径集, 我们用实体类型取代实体本身, 就可以得到重要的元路径, 同时保留下连接的种子对数, 记为重要元路径
特别地, 为了清晰地记录每个状态的数据, 我们给出一个新的数据结构, 如
基于频繁模式的元路径产生算法
Frequent pattern based meta path generation algorithm
为了更清晰地阐述重要元路径的产生过程, 我们给出如
(1) 第1步:记录种子实体满足的所有不同长度的
(2) 第2步:
(3) 第3步:
(4) 第4步:关系路径剪枝.这一步剪掉种子对数小于阈值
(5) 第5步:我们利用实体类型的数据, 得到Steven_Spielberg的实体类型为Person, 再添加其他的实体类型, 得到这条关系路径对应的最终的重要元路径:
以同样的方式得到其他的重要元路径, 如
算法1是FPMPG的伪代码.
FPMPG包括种子实体映射TRANSFORMATION和元路径自动产生GENERATEPATH两个过程.第1步~第5步是种子映射为实体事务的过程.第6步~第25步是产生重要元路径的过程, 其中, 第7步~第9步获得候选
输入:知识图谱
输出:元路径集合
1: procedure TRANSFORMATION
2: for each
3: 获得实体事务
4: end for
5: end procedure
6: procedure GENERATEPATH
7: for each
8: 获得
9: end for
10: for each in
11: 获得
12: end for
13: for each in
14: 根据连接规则得到候选关系路径
15: 记录连接的种子实体对数
16: if
17: 把相应的关系路径添加到频繁关系路径集
18: end for
19: for each
20: 添加实体类型得到元路径
21:
22:
23: end for
24: return
25: end procedure
算法FPMPG产生了重要元的路径
其中,
直观上, 若一条元路径连接的种子对越多, 就越能反映种子实体之间的共同特征, 也就越重要.基于这个思想, 我们设计了一种与文献[
其中, |
PU learning方法的主要思想是:利用少量的正例和没有标签的数据(包含潜在的正例和负例)来建立一个分类器进而用于没有标签的数据, 判断其是否属于正例或者有多大概率属于正例[
Yago是一个大规模的知识图谱, 它的数据主要来源于Wikipedia、权威英文词典WordNet和著名数据库GeoNames[
数据的描述
Description of the data
数据 | 三元组样式 | #三元组 |
yagoFacts | 〈entity relation entity〉; | 4 484 914 |
yagoSimpleTypes | 〈entity rdt:typewordnet_type〉; | 5 437 149 |
yagoTaxonomy | 〈wordnet_typerdfs:subclassofwordnet_type_〉; | 69 826 |
我们选择了4个具有代表性的实体集扩展任务来验证FPMP_ESE的性能.4个扩展任务如下:配偶是演员且获得过艾美奖(Emmy award)的演员、在纽约的大学毕业的作家、获得过国家电影奖(national film award)奖项的导演导的电影、在位于马萨诸塞州剑桥(Cambridge of Massachusetts)的大学工作的科学家, 分别记为Actor*、Writer*、Movie*和Scientist*, 它们分别包含193, 60, 653和202个实例.
实验中, 我们采用
本小节我们详细介绍实验的有关设置, 将启发式和PU learning的权重方法相对应的实体集扩展方法分别记为FPMP_ESE_He和FPMP_ESE_PU.因为已有的关于知识图谱中的实体集扩展问题的方法很少, 因此我们设计了几种基本的方法Link-Based、Neighbor、PCRW和MP_ESE.详细介绍如下.
● Link-Based:受文本或者网页中的基于模式的方法的启发[
● Neighbor:受文献[
● PCRW:一种基于路径受限随机游走的相似性度量方法[
● MP_ESE:最近, 文献[
在算法FPMP_ESE中, 我们根据经验设置支持数阈值
在这一小节, 我们将FPMP_ESE和其他基本方法进行比较, 验证其在以上4个任务上的有效性.对每个任务, 我们随机选择3个种子进行实验, 实验运行20次取平均值, 如
在4个任务上的实体集扩展结果
Results of entity set expansion on four tasks
从
(1) 采用元路径的方法MP_ESE和FPMP_ESE较其他方法具有更好的性能.因为重要元路径可以捕捉种子实体之间潜在的共同特征, 过滤掉一些噪音, 从而进行更好的实体集扩展;
(2) 本文提出的方法FPMP_ESE_He和FPMP_ESE_PU较其他方法有更好的性能, 因为FPMP_ESE可以尽可能全面地找到种子实体之间的重要元路径, 不会因为一些潜在的因素剪掉某些重要元路径.例如, 在Actor*任务中, 方法MP_ESE中寻找元路径的方法是单向搜索的, 在搜索到第3跳时, 其中的一条路径
(3) FPMP_ESE_PU较FPMP_ESE_He有更好的性能, 说明与启发式的方法相比, PU learning方法可以更好地学习到不同元路径的重要性, 从而为不同的元路径分配更恰当的权重.
总之, FPMP_ESE方法有最好的性能, 因为它可以尽可能全面地找到种子实体之间重要的元路径, 从而更好地捕捉种子实体之间潜在的共同特征, 并且, PU learning的方法可以学习到更加恰当的元路径权重, 从而建立更恰当的实体集扩展模型.
为了更加直观地观察元路径的有效性,
Movie*任务上最重要的前3条元路径
Top 3 meta paths for Movie*
元路径 | Gini重要性 | 启发式权重 |
0.120 77 | 0.026 77 | |
0.119 74 | 0.098 88 | |
0.112 56 | 0.098 88 |
本小节我们比较采用不同方法寻找元路径的时间, 主要从两个角度来研究, 即, 种子数目和不同的种子组合对寻找路径的效率的影响.
在种子数目对寻找路径时间的影响上, 我们分别在Movie*和Scientist*任务上选取2~6个种子进行实验, 对不同种子数目, 我们分别在相应的任务上随机选取同等规模的种子进行实验, 重复20次取平均值, 结果如
不同的种子数目下采用不同方法寻找元路径的时间
Running time of finding path of different methods with different seed size
从图中可以看出:随着种子数目的增加, 寻找路径的时间整体上有增长的趋势, 我们的方法FPMPG寻找路径的时间是最短的, 因为FPMPG是基于种子实体进行路径扩展, 然后进行路径连接, 比其他单向的扩展方法要节省很多时间.PCRW2也有较短的运行时间, 这是因为它只找了最大长度为2的路径, 这也导致了其不好的扩展性能.MP_ESE方法寻找路径的时间是比较慢的, 原因是它不仅采用的是单向搜索方式, 而且在搜索过程中需要进行各种设定条件的判断, 还需要进行剪枝等操作.
对于不同的种子组合对寻找路径时间的影响, 我们也分别在Movie*和Scientist*任务上选取3个种子情况下不同的种子组合进行了20次实验取均值, 结果如
不同的种子组合下采用不同方法寻找元路径的时间
Running time of finding path of different methods with different seed combination
总之, 种子数目和不同的种子组合对寻找路径的时间都是有影响的, 因此在下一步工作中, 我们可以进一步研究如何选择恰当数目的种子和最优的种子组合, 进而得到最佳的寻找路径时间和最优的扩展性能.
在这一小节, 我们主要研究种子个数和不同的种子组合对实体集扩展性能的影响.为了研究种子个数对实体集扩展性能的影响, 我们分别在Movie*和Scientist*任务上进行实验, 从2~6变化种子数目, 对不同种子数目, 随机选择相同规模的种子进行实验20次取MAP的平均值, 结果如
种子个数和不同的种子组合对实体集扩展性能的影响
Influence of seed size and different seed combinationon expansion performance
从图中可以看出:在Movie*任务上, 随着种子数目的增加, FPMP_ESE_PU的性能有稳定提升, FPMP_ESE_ He有一些震荡但整体性能是提升的, 说明太少的种子数(如两个)包含较少的语义信息, 其性能是较差的; 当种子数增多时, 语义信息比较丰富, 性能就比较好.在Scientist*任务上, FPMP_ESE_PU和FPMP_ESE_He性能都比较好, 原因可能是其语义类比较单一、明确.总之, 越多的种子包含更多的信息, 可以更好地表达潜在的语义, 对算法找到重要的元路径有更大的帮助; 当种子数目增加到一定值时, 性能趋于稳定.
为了研究不同的种子组合对性能的影响, 我们分别在Actor*和Movie*任务上随机选择3个种子进行实验20次, 取MAP的平均值, 结果如
本文主要研究知识图谱中的实体集扩展问题, 即:给定几个种子实体, 利用知识图谱来得到更多的同类别的实体.具体地, 我们把知识图谱建模成一个异质信息网络, 采用元路径来探测种子实体之间潜在的共同特征.为了找到种子实体之间的重要的元路径, 我们采用频繁模式挖掘技术, 提出了一种新的自动寻找元路径的方法FPMPG.FPMPG把每个种子实体映射为一个实体事务, 首先找到种子实体的频繁模式, 然后连接频繁模式得到重要元路径.为了更好地组合元路径, 我们设计了两种权重学习方法:一种是启发式方法, 另一种是PU learning方法.最后, 在Yago数据集上的实验, 验证了所提方法较其他基本方法有更好的有效性以及更高的效率, 并且研究了种子个数和不同的种子组合对实体集扩展性能的影响.在未来的工作中, 我们将进一步研究实体集扩展问题中如何确定恰当的种子数目以及如何选取最优的种子.
Cohen WW, Sarawagi S. Exploiting dictionaries in namedentity extraction: Combining semi-Markov extraction processesand data integration methods. In: Proc. of the KDD. ACM Press, 2004. 89-98.
Pantel P, Lin D. Discovering word senses from text. In: Proc. of the 8th ACM SIGKDD Int'l Conf. on Knowledge Discovery and Data Mining. ACM Press, 2002. 613-619.
He Y, Xin D. Seisa: Set expansion by iterative similarity aggregation. In: Proc. of the WWW. ACM Press, 2011. 427-436.
Wang RC, Cohen WW. Language-Independent set expansionof named entities using the Web. In: Proc. of the ICDM. IEEE, 2007. 342-350.
Wang RC, Cohen WW. Iterative set expansion of named entities using the Web. In: Proc. of the ICDM. IEEE, 2008. 1091-1096.
Li XL, Zhang L, Liu B, Ng SK. Distributional similarityvs. PU learning for entity set expansion. In: Proc. of the ACL. ACL Press, 2010. 359-364.
Qi ZY, Liu K, Zhao J. A novel entity set expansion method leveraging entity semantic knowledge. Journal of Chinese Informantion Processing, 2013, 27(2):1-10(in Chinese with English abstract).
齐振宇, 刘康, 赵军.一种融合实体语义知识的实体集合扩展方法.中文信息学报, 2013, 27(2):1-10.
Sun Y, Han J, Yan X, Yu PS, Wu T. Pathsim: Meta path-based top-k similarity search in heterogeneous information networks. Proc. of the VLDB Endowment, 2011, 4(11): 992-1003.
Zheng Y, Shi C, Cao X, Li X, Wu B. Entity set expansion with meta path in knowledge graph. In: Proc. of the Pacific-Asia Conf. on Knowledge Discovery and Data Mining. Cham: Springer-Verlag, 2017. 317-329.
Singhal A. Introducing the knowledge graph: Things, not strings. In: Proc. of the Official Google Blog. 2012.
Lenat DB. CYC:A large-scale investment in knowledge infrastructure. Communications of the ACM, 1995, 38(11):33-38.
Bollacker K, Evans C, Paritosh P, Sturge T, Taylor J. Freebase: A collaboratively createdgraph database for structuring human knowledge. In: Proc. of the 2008 ACM SIGMOD Int'l Conf. on Management of Data. New York. ACM Press, 2008. 1247-1250.
Suchanek FM, Kasneci G, Weikum G. YAGO: A core of semantic knowledge unifying word netand wikipedia. In: Proc. of the 16th Int'l Conf. on World Wide Web. New York: ACM Press, 2007. 697-706.
Dong XL, Murphy K, Gabrilovich E, Heitz G, Horn W, Lao N, Strohmann T, Sun SH, Zhang W. Knowledge vault: A Web-scale approach to probabilisticknowledge fusion. In: Proc. of the 20th ACM SIGKDD Int'l Conf. on Knowledge Discovery and Data Mining. New York: ACM Press, 2014. 601-610.
Paulheim H, Bizer C. Type inference on noisy RDF data. In: Proc. of the Semantic Web (ISWC 2013). LNCS 8218, Berlin, Heidelberg: Springer-Verlag, 2013. 510-525.
Socher R, Chen DQ, Manning CD, Ng A. Reasoning with neural tensor networks for knowledge base completion. In: Proc. of the Advances in Neural Information Processing Systems 26(NIPS 2013). Curran Associates, Inc., 2013. 926-934.
Zhao Y, Gao S, Gallinari P, Guo J. Knowledgebase completion by learning pairwise-interaction differentiate dembeddings. Data Mining and Knowledge Discovery, 2015, 29(5):1486-1504.
Bryl V, Bizer C. Learning conflict resolutionstrategies for cross-language wikipedia data fusion. In: Proc. of the Companion Publication of the 23rd Int'l Conf. on World Wide Web Companion. Geneva: Int'l World Wide Web Conf. Steering Committee, 2014. 1129-1134.
Paulheim H, Bizer C. Improving the qualityof linked data using statistical distributions. Int'l Journal on Semantic Web and Information Systems (IJSWIS), 2014, 10(2):63-86.
Zou L, Huang R, Wang H, Yu JX, He W, Zhao D. Natural language question answering over RDF: A graph datadriven approach. In: Proc. of the SIGMOD. ACM Press, 2014. 313-324.
Cao X, Zheng Y, Shi C, Li J, Wu B. Link prediction in schema-rich heterogeneous information network. In: Proc. of the PacificAsia Conf. on Knowledge Discovery and Data Mining. Springer Int'l Publishing, 2016. 449-460.
Nickel M, Murphy K, Tresp V, Gabrilovich E. A review of relational machine learning for knowledge graphs. Proc. of the IEEE, 2016, 104(1):11-33.
Sun Y, Yu Y, Han J. Ranking-Based clustering of heterogeneous information networks with star network schema. In: Proc. of the KDD. 2009. 797-806.
Shi C, Li Y, Zhang J, Sun Y, Yu PS. A survey on heterogeneous information network analysis. IEEE Trans. on Knowledge and Data Engineering, 2017, 29(1):17-37.
Shi C, Kong X, Huang Y, Philip SY, Wu B. HeteSim:A general framework for relevance measure in heterogeneous networks. IEEE Trans. on Knowledge & Data Engineering, 2014, 26(10):2479-2492.
Agrawal R, Srikant R, et al. Fast algorithms for mining associationrules. In: Proc. of the 20th Int'l Conf. Very Large Data Bases, Vol.1215. VLDB, 1994. 487-499.
Han J, Pei J, Yin Y. Mining frequent patterns withoutcandidate generation. ACM SIGMOD Record, 2000, 29(2):1-12.
Rakesh A, Srikant R. Mining sequential patterns. In: Proc. of the 11th Int'l Conf. on Data Engineering. IEEE, 1995.
Abedjan Z, Naumann F. Improving RDF data through associationrule mining. Datenbank-Spektrum, 2013, 13(2):111-120.
Jiang T, Tan AH. Mining RDF metadata for generalized association rules. In: Proc. of the Int'l Conf. on Database and Expert Systems Applications. Springer-Verlag, 2006. 223-233.
Pasca M. Weakly-Supervised discovery of named entities using Web search queries. In: Proc. of the CIKM. ACM Press, 2007. 683-690.
Jindal P, Roth D. Learning from negative examples in setexpansion. In: Proc. of the ICDM. IEEE, 2011. 1110-1115.
Yu X, Sun Y, Norick B, Mao T, Han J. User guided entitysimilarity search using meta-path selection in heterogeneous information networks. In: Proc. of the CIKM. ACM Press, 2012. 2025-2029.
Metzger S, Schenkel R, Sydow M. Qbees: Query by entityexamples. In: Proc. of the CIKM. ACM Press, 2013. 1829-1832.
Metzger S, Schenkel R, Sydow M. Aspect-Based similar entity search in semantic knowledge graphs with diversity-awareness and relaxation. In: Proc. of the CWI and IAT. IEEE Computer Society, 2014. 60-69.
Chen J, Chen Y, Du X, Zhang X, Zhou X. Seed: A systemfor entity exploration and debugging in large-scale knowledgegraphs. In: Proc. of the ICDM. IEEE, 2016. 1350-1353.
Zhang J, Tang J. Focus of the next generation search engineer:Knowledge graph. Chinese Computer Society Communication, 2013, 9(4):64-68(in Chinese with English abstract).
张静, 唐杰.下一代搜索引擎的焦点:知识图谱.中国计算机学会通讯, 2013, 9(4):64-68.
Zou L, Chen YG. Massive RDF data management. Chinese Computer Society Communication, 2012, 8(11):32-43(in Chinese with English abstract).
邹磊, 陈跃国.海量RDF数据管理.中国计算机学会通讯, 2012, 8(11):32-43.
Aggarwal CC, Han J. Frequent Pattern Mining. Springer-Verlag, 2014.
Elkan C, Noto K. Learning classifiers from only positive and unlabeled data. In: Proc. of the 14th ACM SIGKDD Int'l Conf. on Knowledge Discovery and Data Mining. ACM Press, 2008. 213-220.
Shi B, Zhang ZZ, Sun L, Han XP. A probabilistic co-bootstrapping method for entity set expansion. In: Proc. of the 25th Int'l Conf. on Computational Linguistics (COLING 2014), Proc. of the Conf.: Technical Papers. Dublin, 2014. 2280-2290.
Lao N, Cohen WW. Relational retrieval using a combination of path-constrained random walks. Machine Learning, 2010, 81(1):53-67.