PandaDB: 一种异构数据智能融合管理系统

引用本文

沈志宏, 赵子豪, 王华进, 刘忠新, 胡川, 周园春. PandaDB: 一种异构数据智能融合管理系统[J]. 软件学报, 2021, 32(3): 763-780. http://www.jos.org.cn/1000-9825/6180.htm

Shen ZH, Zhao ZH, Wang HJ, Liu ZX, Hu C, Zhou YC. PandaDB: Intelligent Management System for Heterogeneous Data[J]. Journal of Software, 2021, 32(3): 763-780(in Chinese). http://www.jos.org.cn/1000-9825/6180.htm

PandaDB: 一种异构数据智能融合管理系统

沈志宏¹ , 赵子豪^1,2 , 王华进¹ , 刘忠新¹ , 胡川^1,2 , 周园春^1,2

1. 中国科学院计算机网络信息中心, 北京 100190;
2. 中国科学院大学, 北京 100049

收稿时间: 2020-07-20; 修改时间: 2020-09-03; 采用时间: 2020-11-06; jos在线出版时间: 2021-02-21

基金项目: 中国科学院战略性先导科技专项(B类)课题(XDB38030300)；国家自然科学基金(61836013)；科技部创新方法工作专项(2019IM020100)；中国科学院信息化专项课题(XXH13503)

作者简介: 沈志宏(1977-), 男, 博士, 教授级高工, 博士生导师, 主要研究领域为大数据, 图数据管理, 语义网;
赵子豪(1994-), 男, 博士生, CCF学生会员, 主要研究领域为分布式图数据库, 融合数据查询;
王华进(1987-), 男, 博士, 助理研究员, CCF专业会员, 主要研究领域为分布式计算, 大数据分析技术;
刘忠新(1989-), 男, 工程师, 主要研究领域为分布式存储, 数据库;
胡川(1998-), 男, 硕士生, 主要研究领域为知识图谱可视化;
周园春(1975-), 男, 博士, 研究员, 博士生导师, CCF高级会员, 主要研究领域为科学大数据, 知识图谱.

通讯作者: 沈志宏, E-mail: bluejoe@cnic.cn.

本文由"支撑人工智能的数据管理与分析技术"专刊特约编辑陈雷教授、王宏志教授、童咏昕教授、高宏教授推荐.

摘要: 随着大数据应用的不断深入，对大规模结构化/非结构化数据进行融合管理和分析的需求日益凸显.然而，结构化/非结构化数据在存储管理方式、信息获取方式、检索方式方面的差异给融合管理和分析带来了技术挑战.提出了适用于异构数据融合管理和语义计算的属性图扩展模型，并定义了相关属性操作符和查询语法.接着，基于智能属性图模型提出异构数据智能融合管理系统PandaDB，并详细介绍了PandaDB的总体架构、存储机制、查询机制、属性协存和AI算法集成机制.性能测试和应用案例证明，PandaDB的协存机制、分布式架构和语义索引机制对大规模异构数据的即席查询和分析具有较好的性能表现，该系统可实际应用于学术图谱实体消歧与可视化等融合数据管理场景.

关键词: 数据管理系统异构数据融合图数据模型即席查询人工智能

PandaDB: Intelligent Management System for Heterogeneous Data

SHEN Zhi-Hong¹ , ZHAO Zi-Hao^1,2 , WANG Hua-Jin¹ , LIU Zhong-Xin¹ , HU Chuan^1,2 , ZHOU Yuan-Chun^1,2

1. Computer Network Information Center, Chinese Academy of Sciences, Beijing 100190, China;
2. University of Chinese Academy of Sciences, Beijing 100049, China

Foundation item: Foundation item: Strategic Priority Research Program of CAS (XDB38030300); Key Project of National Natural Science Foundation of China (61836013); Ministry of Science and Technology Innovation Methods Special work Project (2019IM020100); Informatization Plan of Chinese Academy of Sciences (XXH13503)

Abstract: With the development of big data application, the demand of large-scale structured/unstructured data fusion management and analysis is becoming increasingly prominent. However, the differences in management, process, retrieval of structured/unstructured data brings challenges for fusion management and analysis. This study proposes an extended property graph model for heterogeneous data fusion management and semantic computing, defines related property operators and query syntax. Based on the intelligent property graph model, this study implements PandaDB, an intelligent heterogeneous data fusion management system. This study depicts the architecture, storage mechanism, query mechanism, property co-storage, AI algorithm scheduling, and distributed architecture of PandaDB. Test experiments and cases show that the co-storage mechanism and distributed architecture of PandaDB have good performance acceleration effects, and can be applied in some scenarios of fusion data intelligent management such as academic knowledge graph entity disambiguation.

Key words: data management system heterogeneous data fusion graph data model ad-hoc query AI

在大数据时代, 随着各类应用的推广和使用, 数据产生速度越来越快、数据体量越来越大.一方面, 数据采集技术的迅猛发展, 使得数据的结构更多样、种类更丰富.数据表现出多元异构的特点, 非结构化数据在其中占有较大比重.有研究表明, 视频、音频、图片等非结构化数据占据高达90%的比例^[1].另一方面, 近年来, 数据中台、知识图谱等数据管理分析技术得到了广泛的应用.数据中台要求结构化/非结构化数据能够在统一的环境中得到良好的治理, 以便支持多种应用; 知识图谱, 特别是多模态知识图谱^[2], 要求对底层结构化/非结构化数据进行融合关联分析, 并支持用户进行交互式查询.这些技术均提出了对结构化/非结构化数据进行融合管理和分析的需求.

结构化数据通常具有较为规范、统一的形式.目前, 针对结构化数据的管理和分析, 已具有成熟的数据模型、查询语言和管理系统.与结构化数据相比, 非结构化数据的管理方式存在着诸多差异, 这给高效的结构化/非结构化数据的融合管理和分析带来了多方面的挑战.

(1) 分离的存储管理方式, 给结构化/非结构化数据的统一管理带来挑战.相对于结构化数据, 非结构化数据占有更大的空间, 出于读写效率考虑, 非结构化数据往往单独存在于文件系统, 或者对象存储系统, 这使得维护结构化/非结构化数据一致性的难度增大;

(2) 差异化的信息获取方式, 给结构化/非结构化数据的统一分析带来挑战.相对于结构化数据, 非结构化数据内容比较复杂, 为了实现高效检索和分析, 往往需要预先引入模式识别、深度学习等方法实现信息抽取和数据挖掘, 从而获取非结构化数据所蕴含的内在信息;

(3) 不一致的检索方式, 给结构化/非结构化数据的一致化即席查询带来挑战.与结构化数据具有较为成熟的SQL、类SQL查询语言的现状不同, 非结构化数据的信息检索往往缺乏统一的操作模式和查询语法, 目前采用的多是逐案的个性化方案.

为实现结构化/非结构化数据的融合管理和分析, 需要从模型层面出发, 设计统一的表示和查询方法.传统的关系模型、属性图模型不能有效揭示和表示非结构化数据的内在信息.有学者提出将数据和Schema表示为边标记图, 以此替代非结构化数据底层类型约束的缺失^[3].但该方法仅提出一种为非结构化数据添加Schema的方法, 不能实现对非结构化数据中信息的自由检索.Li等人提出从基本属性、语义特征、底层特征和原始数据等4个角度定义非结构化数据^[4], 但这种方法依赖于预定义, 并不适用于非结构化数据的交互查询.近年来, 有学者提出在非结构化数据流上抽取RDF三元组的方法^[5], 该方法只实现了三元组的抽取, 不能支持对非结构化数据内在信息的交互式查询, 且并不具备数据管理系统的基本能力.

另外一种融合管理的路线是将非结构化数据在数据库中存储为二进制大对象(binary large object, 简称BLOB), 当应用获取数据的时候, 返回一个二进制数组或者数据流.这种方法在性能和功能上都不令人满意^[6].针对此问题, 研究人员提出了一系列非结构化数据管理系统^[7-9], 这些系统综合考虑了非结构化数据体积大、结构复杂的特点, 设计了合适的存储模型, 一定程度上解决了非结构化数据的存储和管理问题, 但其提供的查询服务仅基于文件对象本身和元数据, 不能提供对非结构化数据内在信息的查询能力.

由此, 本文提出了属性图扩展模型及其查询方法.属性图扩展模型在传统属性图的基础增加了对非结构化数据内在信息的表示能力, 以及结构化和非结构化数据之间的互操作能力.在此基础上, 本文继而提出基于智能属性图模型的异构数据智能融合管理系统PandaDB.

本文第1节给出属性图扩展模型和相关概念, 包括层叠属性图、智能属性图、次级属性等, 并提出属性操作符和查询语法.第2节给出PandaDB的系统设计与具体实现.第3节通过实验和案例验证该系统的效率及可行性.第4节介绍与本文研究相关的工作.最后, 对未来研究可能面临的挑战进行展望.

1 概念设计

传统属性图模型无法有效表示非结构化属性, 本节提出属性图扩展模型, 以解决非结构化属性的有效表示问题; 然后介绍针对属性图扩展模型的语义操作和查询语法设计, 以支持因引入非结构化属性及其内在信息所带来的新的查询特性.

1.1 属性图扩展模型

传统的属性图模型可以形式化表示为G=(V, E, P), 其中, G表示全体数据, V表示数据中的实体集合, E表示实体间的关系集合, P表示数据集中实体的属性集合.

针对图片、语音、文本这样的非结构化属性, 属性图模型无法有效揭示其蕴含的内在信息(如: 某类顶点的photo属性蕴含有"车牌号"信息), 内在信息通常是离线且具有结构延迟的.

● 离线: 将非结构化属性转化为结构化、半结构化属性的信息抽取过程, 属于对数据的预处理;

● 结构延迟: 非结构化属性的内在信息不具备明确定义的结构, 而是根据应用的后期需要, 从而选择特定的信息抽取方法, 这种结构是不明确的、延迟定义的.

为增强对结构化属性、非结构化属性的统一表示能力, 本文针对属性图模型进行了扩展, 提出了层叠属性图模型和智能属性图模型.

定义 1. 具备以下特征的属性图被称为层叠属性图(cascading property graph).

1) 层叠属性图G^c可以表示为G^C=(V, E, PP, PN), 其中, PP是基本属性(primitive property)集合, PN是内嵌式属性(nested property)集合;

2) 基本属性的值为文本、数值、二进制数组等基本数据类型;

3) 内嵌式属性的值为另外一个属性图.

定义 2. 具备以下特征的属性图被称为智能属性图(intelligent property graph).

1) 智能属性图G^I可以表示为G^I=(V, E, PP, O), 其中, O为语义操作集合;

2) 存在PI⊆PP, PI为智能属性集合;

3) O=(S_φ, Sξ), 其中, S_φ为智能属性展开操作集合, S_ξ为智能属性语义计算操作集合;

4) 对于智能属性p_i∈PI, 存在展开操作φ∈S_φ, 可满足p_n=φ(p_i), 且p_n∈PN, 即, 将智能属性p_i展开为内嵌式属性p_n;

5) 对于智能属性p₁∈PI和p₂∈PI, 存在语义计算操作ξ∈S_ξ, 可满足σ=ξ(p₁, p₂).对p₁和p₂两个智能属性进行语义计算, 得到结果σ.

定义 3. 内嵌式属性具有次级属性(sub-property).

1) 对于智能属性图G^I=(V, E, PP, O), 若存在V_i∈V且V_i具有内嵌式属性$p_i^N$, 则根据定义1, 有$p_i^N = G_i^N$, 其中, $G_i^N$为传统属性图$(V_i^N, E_i^N, P_i^P);$

2) 若$|V_i^N| = 1$, 则$P_i^P$的任意元素$P_{ij}^S$称为V_i的次级属性.

作为示例, 图 1给出了一个智能属性图, 图中存在一个Car类型的顶点car1, 其具有一个智能属性photo, 执行展开操作后, photo具有两个次级属性: photo→plateNumber和photo→model.

Fig. 1 Intelligent property graph model 图 1 智能属性图模型

1.2 属性操作符

基于定义2, 本文定义了针对智能属性的次级属性抽取操作符和语义计算操作符.

● 次级属性抽取操作符: 次级属性抽取操作符"→"用以抽取智能属性的次级属性, 如针对photo属性执行"photo→plateNumber", 即可获取到photo中的车牌号;

● 语义计算操作符: 传统属性图查询语言中的谓词(predicate), 只支持对属性进行比较, 如=、>、＜、正则匹配等.本文针对智能属性新增~: , : : , : >等拓展谓词, 以表示非结构化属性之间的相似关系、相似度、包含关系等逻辑(见表 1).

Table 1 Semantic computation operators 表 1 语义计算操作符

在属性图模型中, 由于内在信息的不可见性, 非结构化属性之间的计算操作支持有限.结合定义1~定义3中关于非结构化属性的表述和属性操作符的特性, 智能属性图模型可以实现非结构化属性内在信息的在线获取, 且结构是预定义的.

● 在线: 从非结构化属性中获取结构化、半结构化信息(即次级属性)的过程是按需的, 无需对非结构化属性进行专门的预处理;

● 结构预定义: 非结构化数据内在信息依赖于schema层面的定义, 而非依赖于信息抽取工具的实现.在底层查询机制的支持下, 可以实现针对非结构化属性的直接运算.

1.3 查询语法

本文针对智能属性图模型, 针对标准化Cypher查询语言^[10]进行扩展, 形成CypherPlus语言.CypherPlus定义了BLOB属性类型, 用以表示非结构化属性的值.CypherPlus同时引入了BLOB字面值、次级属性抽取操作符、语义计算操作符等新特性, 从而支持对非结构化属性的表示和语义操作.

(1) BlobLiteral

用于表示非结构化属性的字面值, 格式如〈schema://path〉, 其中, schema可以为FILE, HTTP(S), FTP(S), BASE64等多种类型.如图 2所示.

Fig. 2 Grammer definition of BlobLiteral 图 2 BlobLiteral语法定义

(2) SubPropertyExtractor

用于表示次级属性的抽取操作, 如图 3所示, 其中, PropertyKeyName为次级属性的名称;

Fig. 3 Grammer definition of SubPropertyExtractor 图 3 SubPropertyExtractor语法定义

(3) SemanticComparison

语义计算操作符, 包括SemanticCompare, SemanticLike, SemanticUnlike, SemanticIn, SemanticContain等操作符.以SemanticLike为例, 它用以指示两个属性的值是否相似, 语法定义如图 4所示, 其中, AlgorithmName为指定计算的算法名称, Threshold为阈值, AlgorithmName和Threshold为可选项, 该情况下执行引擎则采用默认的比较器和阈值.

Fig. 4 Grammer definition of SemanticLike 图 4 SemanticLike语法定义

例如, 针对图 1的数据模型, 可以查找与车牌号为HHMF442的车相似的车, 查询语句如下:

● Q1: match (c1:CAR), (c2:CAR) where c1.photo~: c2.photo and c1→plateNumber='HHMF442' return c2;

● Q2: return 'Zhihong SHEN' : : jaro 'SHEN Zhihong'.

查询语句Q2用以计算两个文本的相似度.

2 系统实现

为实现结构化、非结构化数据的融合管理和关联查询分析, 本文采用智能属性图模型, 基于Neo4j开源版本, 设计并实现了异构数据智能融合管理系统PandaDB.本部分第2.1节介绍PandaDB的总体架构, 第2.2节~第2.5节分别介绍各模块的设计思路和实现细节.

2.1 总体架构

PandaDB基于智能属性图模型组织数据, 底层数据被分为图结构数据、结构化属性数据和非结构化属性数据这3部分.其中, 图结构数据指图的节点和边等描述图结构的数据; 结构化属性数据指数值、字符串、日期等类型的数据; 非结构化属性数据泛指除结构化数据之外的数据, 如视频、音频、图片、文档等.PandaDB以BLOB对象的形式存储非结构化数据, 并将其表示为实体(节点)的属性.根据上述3类数据的应用特点, PandaDB设计了分布式多元存储方案.

● 分布式图数据存储: 基于传统的图数据库保存图结构数据和属性数据, 在每个节点上保存相同的数据副本;

● 结构化属性协存: 基于ElasticSearch, Solr等外部存储实现大规模结构化属性数据的存储和索引构建;

● BLOB存储: 基于Hbase, Ceph等存储系统实现非结构化属性数据的分布式存储.

PandaDB总体架构如图 5所示, 重要模块描述如下.

Fig. 5 Architecture of PandaDB 图 5 PandaDB总体架构设计

● 存储引擎: 维护本地的图结构数据, 调度外部属性存储, 按需为查询引擎提供服务;

● 外部存储: 包括基于ElasticSearch的结构化属性协存和基于HBase的BLOB存储两部分;

● 查询引擎: 解析并执行CypherPlus查询;

● AIPM: AI模型服务框架, 通过模型和资源管理, 实现AI模型的灵活部署、高效按需运行; 同时, 有效屏蔽AI模型之间的依赖.

PandaDB集群采用了无主架构设计, 图 5中, PandaNode是其中的节点, 包含查询引擎和存储引擎两部分.属性数据和非结构化数据存储在外置分布式存储工具中, PandaNode只保存图结构数据, 通过属性存储接口与外置存储交互.

2.2 存储机制

PandaDB将BLOB引入了Neo4j的类型系统, 同时对Neo4j的存储结构进行了改造.存储结构如图 6所示, 除了Neo4j保留区, BLOB的属性字段同时记录了BLOB的元数据, 包括唯一标识blobid、长度length和MIME类型.

Fig. 6 Design of BLOB storage structure 图 6 BLOB存储结构设计

为实现对外部BLOB存储系统的调用, PandaDB中设计了BlobValueManager接口, 定义了getById(·)/store(·)/discard(·)等操作方法.作为BlobValueManager的一个实现, HBaseBlobValueManager基于HBase集群实现BLOB数据的存取.在该方案中, 为支持大规模BLOB的存储, HBase被设计成包含N列的宽表, 采用blobid/N作为HBase表的rowkey, blobid%N对应于HBase的某一列.

为加速BLOB的读取, BLOB的内容读取被封装为一个InputStream, 在用户通过Bolt协议获取BLOB内容或进行语义计算的时候, 这种流式读取的机制提高了运行的性能.

多元存储带来了存储事务保证的复杂性, 客户端在写入数据时, 将写操作请求发送到PandaDB的Leader节点, 然后由Leader节点执行具体的写入操作.Leader节点的具体操作流程如下.

(1) Leader节点开启事务, 执行Cypher解析, 翻译成具体的执行操作;

(2) 向BLOB存储引擎发送请求, 执行BLOB数据的写入操作.若执行失败, 则向上回滚, 标记事务失败;

(3) 若BLOB数据写入成功, 则执行图结构数据和结构化属性数据的写入操作; 若执行失败, 则向上回滚, 标记事务失败;

(4) 将结构化属性数据的修改, 同步到协存.若执行失败, 则向上回滚, 标记事务失败;

(5) 执行事务提交;

(6) 关闭事务, 返回操作成功.

2.3 查询机制

PandaDB查询引擎主要实现查询语句的解析、逻辑计划的生成与优化、物理计划的优化与执行.基于Neo4j, PandaDB查询引擎主要改进如下几个部分.

(1) 解析阶段: 增强Cypher语言的解析规则, 支持BLOB字面常量(BlobLiteral)、BLOB次级属性的抽取操作符(SubPropertyExtractor)以及属性语义操作符(SemanticComparison);

(2) 语法检查阶段: 针对BlobLiteral, SubPropertyExtractor, SemanticComparison执行形式检查, 如发现非法的BLOB路径、非法的语义算子和阈值等;

(3) 计划优化阶段: 针对BlobLiteral的操作进行优化, 针对大规模属性过滤情形, 采用谓词下推策略等;

(4) 计划执行阶段: 充分调度属性协存模块、AIPM模块以及BLOB存储模块, 实现高效的属性优先过滤、BLOB获取与语义计算.图 7示出了一个典型的查询过程, 该查询要求返回所有与photo0中人脸相似, 且age值大于30的节点.

Fig. 7 CypherPlus query process 图 7 CypherPlus查询流程

图 8从查询语法、查询计划、执行引擎这3个层面示出了PandaDB查询机制的设计.解析引擎将查询语句中的符号转化为语义算子, 执行引擎根据规则集选择AI模型处理对应的数据, 并将结果返回.

Fig. 8 Query mechanism of intelligent property graph 图 8 智能属性图查询机制

为加速非结构化数据的查询, PandaDB实现了语义索引功能.非结构化数据中的信息被认为是一种语义信息, 如图片中的人脸、图片中汽车的车牌号、录音中所包含的文字信息等.AI模型从非结构化数据中抽取信息的过程可以看作是数据从高维空间到低维空间的映射, 在低维空间映射的结果可以作为数据在该场景下的语义索引.

如在人脸比对查询的过程中, 需要比较不同图片中人脸的相似度, 通常的做法是利用人脸识别模型抽取人脸特征, 比较两个特征的相似度.在PandaDB中, 以向量形式表示的人脸特征被视为该非结构化在当前查询场景下的语义索引.系统处理涉及人脸比对的查询时, 优先检查是否有对应的语义索引, 若该查询对应的语义索引存在, 则不向AIPM发起处理请求, 直接比较语义索引得到结果.

语义索引可以减少查询引擎对AI服务的请求次数, 从而避免了重复的数据传输, 有利于提高系统效率.

2.4 属性数据协存

PandaDB引入属性数据协存机制, 用于实现结构化属性数据的全文索引, 提高节点属性的过滤查询效率.目前, PandaDB支持ElasticSearch作为协存引擎.

图 9示出PandaDB协存模块的写入流程, 协存机制的关键设计如下.

Fig. 9 Write progress of property co-store module in PandaDB 图 9 PandaDB协存模块的写入流程

(1) 属性数据在ElasticSearch中的存储结构: 每个Neo4j图数据库对应协存引擎(ElasticSearch)中一个独立的索引, 每个节点的属性数据和标签数据均组织成ElasticSearch中的一个文档, 其中, 节点在Neo4j数据库中的ID作为文档的ID, 节点属性名作为文档的属性标签, 节点属性值作为文档的属性数据, 节点的标签数据表示为特殊设置的属性标签.数值、字符串、坐标、日期、时间等结构化属性数据类型分别转换为ElasticSearch中的对应数据类型;

(2) 属性写入及更新: 为了维持Neo4j数据库中的本地数据和ElasticSearch中数据的一致性, PandaDB对Neo4j中事务操作执行模块(operations)中的节点更新部分进行了扩展, 设计了ExternalPropertyStore用于存储在Neo4j事务中执行的所有操作.当Neo4j数据库执行插入节点、添加标签、设置属性、删除节点等操作的同时, 也将对应的操作数据缓存到ExternalPropertyStore中, 当Neo4j数据库执行事务提交操作的同时, 将缓存的操作数据同步到ElasticSearch中;

(3) 属性过滤: 为了基于协存实现节点属性过滤, PandaDB对Neo4j的Cypher查询执行计划进行了改造, 将节点属性过滤谓词下推到协存管理模块.根据谓词过滤条件生成ElasticSearch的检索请求, 最后将命中的文档(节点)列表返回给查询引擎做进一步筛选.为了避免大量查询结果增大网络传输延迟, PandaDB采用了异步分批的方式传递的查询结果.

2.5 AI算法集成与调度

AI算法集成与调度主要包括本地算法驱动管理和AI算法服务框架.

(1) 本地算法驱动管理

为了对不同的抽取器(SubPropertyExtractor)和语义比较器(SemanticCompartor)进行统一管理, PandaDB制定了驱动管理规则库.图 10是对规则库中部分内容的展示, 其中, DogOrCatClassifier用以抽取宠物类型, 适用于blob/image类型的属性; CosineStringSimilarity用以计算两个文本串的余弦相似度, 仅适用于两个string类型的属性.

Fig. 10 Extractor and semantic comparator matching rule set 图 10 抽取器和语义比较器匹配规则库

(2) AI算法服务框架

PandaDB中的信息抽取能力通过AI服务方式实现, AIPM为PandaDB提供AI服务, 它可以屏蔽不同AI模型之间的依赖冲突问题, 降低人工智能模型的部署和维护难度, 便于PandaDB按需扩展AI算子.图 11给出了AIPM与系统之间的交互逻辑.系统以HTTP请求的方式向AIPM发出查询请求, 请求的路径与AI算法具有对应关系, AIPM接受到查询请求, 调用对应的AI算法处理数据, 以JSON字符串的形式返回结果.为了增强AI算子的可扩展性, AIPM设计了统一的集成接口, 并要求算子提供对这些接口的支持.图 12是AI模型管理框架的示意图.

Fig. 11 Interaction of PandaDB and AIPM 图 11 AIPM与PandaDB交互框架

Fig. 12 AI model management framework 图 12 AI模型管理框架

3 系统效果评估

为验证模型设计及PandaDB实现的有效性, 本文针对属性协存、分布式方案、非结构化数据信息查询进行了测试; 同时, 通过应用案例验证PandaDB对结构化和非结构化数据的融合管理能力.

3.1 属性协存性能测试

本测试验证基于ElasticSearch属性协存方案的性能, 对Neo4j和引入协存方案后的PandaDB的查询性能进行对比, 测试环境见表 2.

Table 2 Information about test environment 表 2 测试环境信息

实验中使用的Cypher查询语句见表 3.实验中对每条查询语句分别进行多次测试并取执行时间的平均值(如表 4、图 13所示).为避免冷启动带来的性能影响, 测试前对系统进行了预热.

Table 3 Query statement in propery co-store test 表 3 协存方案验证测试的查询语句

Table 4 Test result for property co-store 表 4 协存方案验证测试结果

Fig. 13 Comparison of query time in co-store 图 13 协存方案查询响应时间对比

从测试结果可看出: 由于采用了ElasticSearch作为节点属性的协存和索引, 在上述查询语句执行测试中，PandaDB占据明显优势; 尤其在节点多属性过滤查询和模糊匹配查询中, 性能平均提升2倍~6倍.

3.2 分布式性能测试

为验证分布式架构带来的查询响应能力的提升, 本文在物理机集群上(物理机配置见表 2)部署了PandaDB和Neo4j单机版, 对并发查询请求的吞吐率进行评估.因Neo4j社区版仅支持单机, 故其中PandaDB部署在3台物理机, Neo4j部署在一台物理机.

本文选择了图计算分析中的常见查询作为测试用例, 如计算节点出度和入度.将超时阈值设定为300s, 在满足90%查询不超时的前提下, Neo4j的吞吐量为每秒15次查询, PandaDB的吞吐量为每秒40次查询.PandaDB的吞吐量接近Neo4j的3倍.

3.3 非结构化数据查询加速测试

为实现对非结构化数据查询的加速, PandaDB采用了构建语义索引的方式, 减少数据传输和调用AI服务的次数.本小节基于人脸检测场景, 使用LFW数据集^[11]构建对比实验, 通过对比各种方案下的查询耗时, 验证语义索引方案的加速效果.

本实验的任务目标为: 从样本集中找到与目标人脸图片相似度最高的人脸图片.本实验共分4组对比, 各组实验内容及实验条件细节如下.

● NOOP: 无优化, PandaDB向AIPM发出图片相似度对比请求, 逐个将图片以BLOB流的形式发送给AIPM; AIPM接收请求后抽取特征, 将比对结果返回给PandaDB;

● DLOC: 数据本地化方案, PandaDB与AIPM部署在同一台服务器上, 减少BLOB传输的网络开销;

● AIIDX: AI服务缓存方案, PandaDB向AIPM请求数据, AIPM利用本地缓存的特征数据响应请求.模仿数据流水线工具的实现;

● SEMIDX: 语义索引方案, PandaDB中构建非结构化数据的语义索引(人脸特征向量), 执行查询时, 直接调用本地索引数据比较.

表 5给出了在不同样本数下, 各方案执行同一个查询的耗时.SEMIDX方案相比于其他方案减少了数据传输和重复的数据抽取, 故理论上该方案在4个方案中速度最快.

从表 5中可以看出: 在样本数相同的条件下, SEMIDX方案具有最短的查询时间.在样本数超过2 000的检索性能对比中, 加速比超过1万倍.

Table 5 Comparison of query time under different methods 表 5 不同方法的查询耗时对比

3.4 案例: 学术图谱实体消歧与可视化

学术图谱泛指以学术内容为主体的领域知识图谱, 典型应用如AMiner^[12]和AceKG^[13].本文基于KDD2020的参会人员信息^[14]构建了一个小型的学术图谱, 其中包含论文、作者、机构等3类节点, 根据论文创作关系和学者与机构间的隶属关系, 将作者照片、论文的PDF全文等非结构化数据作为属性直接保存在PandaDB中.

图 14是KDD2020数据的可视化展示(基于开源项目InteractiveGraph: https://github.com/grapheco/InteractiveGraph), 其中, 头像属性存储在PandaDB, 且在PandaDB的基础上提供了"以图找图"的功能, 即实现了基于头像的快速匹配.

Fig. 14 Visualization of KDD2020 图 14 KDD2020数据的可视化展示

学术图谱原始数据中通常会出现学者重名、不同机构的简称或缩写相同等情况, 因此, 图谱创建过程中通常面临实体消歧问题.目前, 大多数实体消歧方法都以聚类为基础, 文献[15-17]使用表层特征值计算实体间相似度, 但这种方法不能充分利用上下文特征.因为基于表层特征的方法面临信息不足的问题, 有学者尝试引入外部信息, 如WikiPedia中的信息, 将这些知识资源作为实体的扩展特征, 辅助提升聚类准确性, 代表工作如文献[18, 19].文献[20, 21]使用图计算的方法, 充分利用网络数据的结构信息, 但并不具有很好的普适性.近年来, 随着深度学习技术的巨大进步, 有学者利用embedding技术^[22]和神经网络技术^[23], 这类方法相比于传统方法具有更好的效果, 但准确性方面仍不能满足人们的预期.本案例基于PandaDB, 提出了一种融合结构化属性和非结构化属性的消歧方法.如图 15所示, 某学术图谱中有两个姓名分别为Park Bill和Tom Green的人物节点以及一个名为Data Vis的论文节点, 需要判断T.Green和Tom Green是否为同一实体, 从而判断Park Bill和Tom Green之间是否存在合作关系.由于论文中存在的属性数据不足, 消歧很有困难.基于PandaDB对非结构化信息抽取及语义比较能力, 可以充分利用Tom Green的照片以及论文作者照片列表, 从而达到消歧目的.图 15下半部分给出了完成该操作的CypherPlus语句, 其中, ＜: 操作符表示包含关系, 只需要找到对应的节点, 判断n.photo＜: p.screenshot成立与否, 即可计算出二者之间是否存在合作关系.

Fig. 15 Diagram of entity disambiguation based on PandaDB 图 15 基于PandaDB实现实体消歧示意图

4 相关工作

为实现数据应用中的多元异构数据的统一管理和分析, 一种方法是通过ETL工具, 采用某种统一的形式处理异构数据.但这种方法成本较高, 而且数据和分析需求的变化会使原本的ETL流程失效^[24].异构数据管理可以支持对多模型数据的存储和统一查询.学术界在上世纪80年代就提出了联邦数据库的解决概念, Multibase^[25]是其中的代表系统.这类系统的特点是定义全局schema和基于映射的查询语言, 用户基于全局schema查询, 系统将查询映射到分区schema.另一类以Spark SQL^[26]为代表的系统提供统一的API, 允许用户以关系模型使用数据, 在提升效率和简化查询方面有较好的效果.BigIntegator^[27], Forward^[28], D4M^[29]等系统整合了NoSQL, 其中, Forward以基于json的数据模型组织数据, D4M使用关联阵列(associative-array)数据模型, 这种较为灵活的模型使系统可以在异构数据上执行查询.

在数据管理领域, 属性图模型^[30]是一种常用的管理图数据的数据模型, 属性图中的节点和关系都可以被赋予标签和关联任意键值对形式的属性^[31].属性图增加了节点和边的信息, 同时又没有改变图的整体结构.目前, 属性图模型被图数据库业界广泛采用^{[32, 33]}, 包括著名的图数据库Neo4j^[34], Titan^[35]等.Neo4j是目前应用较为广泛的一款开源图数据库, 其具有从原生图数据存储到可视化插件、再到图数据分析插件的丰富生态. JanusGraph^[36]是在Titan基础上开发的一种基于属性图的分布式图数据库.JanusGraph采用存储层和查询引擎分离的设计, 可以使用Cassandra或HBase作为存储层.JanusGraph通过使用第三方分布式索引库ElasticSearch, Solr和Lucene实现检索功能.其他的图数据库还包括: Amazon的Neptune^[37]; 微软的Azure CosmosDB^[38], TigerGraph^[39], OrientDB^[40]等.

人工智能技术已经广泛地应用到图像识别、语音识别、机器翻译等领域中.为了实现对语音、图片等多种信息的理解, 多模态机器学习的研究尝试在机器学习的角度整合模型对非结构化数据的理解能力^{[41, 42]}.人工智能与数据库的交叉研究一直是学术界研究的热点内容.人工智能与数据库的融合, 存在AI4DB(AI for database)和DB4AI(database for AI)两个方向^[43].AI4DB旨在通过AI技术提高DB的效率和能力, 如自动化数据库参数调优^{[44, 45]}、基数估计^[46]、索引推荐^[47]、查询优化^{[48, 49]}等.DB4AI是以数据库为AI算法提供数据服务, 供算法进行训练和学习.例如: 借助数据库的统一SQL接口, 为用户提供自定义的函数协助构建模型; 通过数据库张量计算协助模型训练; 通过持久化AI模型以重复使用.

随着大数据时代的来临, 海量数据的存储与计算使得单机服务已经无法满足需求, 越来越多的任务需要分布式系统支持.保证分布式系统的可靠性和一致性至关重要.解决这个问题的一个著名算法是由Lamport提出的Paxos算法^{[50, 51]}.此后, 为了适应不同的工程环境, 研究人员在Paxos的基础上提出了很多新的算法^[52].比较著名的有Multi-Paxos^{[51, 53]}、Liskov等人提出的VR(viewstamped replication)算法^{[54, 55]}、雅虎公司设计的ZAB (Zookeeper's atomic broadcast)算法^[56]、Ongaro等人提出的Raft算法^[57]等.

5 总结与展望

本文从结构化/非结构化数据的融合管理和即席查询需求角度出发, 分析了目前多元异构数据融合管理方面统一表示和交互式查询等难点.在此基础上, 提出了具备对异构数据实现统一表示能力的属性图扩展模型, 并提出了针对在线查询和计算的属性操作符与查询语法.在第2节, 本文提出了基于智能属性图模型的分布式数据融合管理系统PandaDB, 该系统实现了结构化/非结构化数据的高效存储管理, 并提供了灵活的AI算子扩展机制, 具备对多元异构数据内在信息的即席查询能力.测试实验和案例证明, PandaDB在大规模属性过滤查询和高并发查询响应上具备较好的性能表现.同时, PandaDB可应用在学术图谱实体消歧与可视化等多元异构数据融合管理的场景.

目前, PandaDB还存在着一些不足.一方面, AIPM模块与系统相对独立部署, 这种模式降低了系统的耦合性, 有利于扩展和维护, 但面对大规模的非结构化数据信息查询请求时, 模块间信息传输的开销较大.未来应研究更为合理的AI功能集成机制, 结合多元异构数据即席查询的场景特性设计任务调度方法, 提升系统性能; 另一方面, 从智能属性中抽取内嵌式属性的操作, 目前还缺乏有效的缓存和预测机制, 造成即席抽取的过程延时较大.PandaDB将进一步结合应用, 进一步提升系统的性能和稳定性, 从而提升多元异构数据融合管理的能力.

参考文献

[1]	Gantz J, Reinsel D. Extracting value from chaos. IDC Iview, 2011, 1142(2011): 1-12. http://www.mendeley.com/catalog/extracting-value-chaos-state-universe-executive-summary/
[2]	Liu Y, Li H, Garcia-Duran A, et al. MMKG: Multi-modal knowledge graphs. In: Proc. of the European Semantic Web Conf. 2019. 459-474.
[3]	Buneman P, Davidson S, Fernandez M, et al. Adding structure to unstructured data. In: Proc. of the Int'l Conf. on Database Theory. Berlin, Heidelberg: Springer-Verlag, 1997. 336-350.
[4]	Li W, Lang B. A tetrahedral data model for unstructured data management. Science China Information Sciences, 2010, 40(8): 1039-1053(in Chinese with English abstract). [doi:10.1007/s11432-010-4030-9]
[5]	Gerber D, Hellmann S, Bühmann L, et al. Real-Time RDF extraction from unstructured data streams. In: Proc. of the Int'l Semantic Web Conf. Berlin, Heidelberg: Springer-Verlag, 2013. 135-150.
[6]	Sears R, Van Ingen C, Gray J. To Blob or not to blob: Large object storage in a database or a filesystem? arXiv preprint cs/0701168, 2007.
[7]	Zhu Y, Du N, Tian H, et al. LaUD-MS: An extensible system for unstructured data management. In: Proc. of the 2010 12th Int'l Asia-Pacific Web Conf. IEEE, 2010. 435-440.
[8]	Zhang X, Du XY, Chen JC, et al. Managing a large shared bank of data by using Free-Table. In: Proc. of the 12th Asia-Pacific Web Conf. (APWeb 2010). Busan, 2010. 441-446.
[9]	Zhou NN, Zhang X, Sun XY, et al. Design and implementation of adaptive storage management system in MyBUD. Journal of Frontiers of Computer Science & Technology, 2012, 6(8): 673-683(in Chinese with English abstract).
[10]	Francis N, Green A, Guagliardo P, et al. Cypher: An evolving query language for property graphs. In: Proc. of the 2018 Int'l Conf. on Management of Data. 2018. 1433-1445.
[11]	Huang GB, Mattar M, Berg T, et al. Labeled faces in the wild: A database forstudying face recognition in unconstrained environments. Workshop on Faces in Real-Life Images: Detection, Alignment, and Recognition, Erik Learned-Miller and Andras Ferencz and Frederic Jurie, 2008.
[12]	Wan H, Zhang Y, Zhang J, et al. Aminer: Search and mining of academic social networks. Data Intelligence, 2019, 1(1): 58-76. [doi:10.1162/dint_a_00006]
[13]	Wang R, Yan Y, Wang J, et al. Acekg: A large-scale knowledge graph for academic data mining. In: Proc. of the 27th ACM Int'l Conf. on Information and Knowledge Management. 2018. 1487-1490.
[14]	KDD2020. 2020. https://www.aminer.cn/conf/kdd2020/homepage
[15]	Bagga A, Baldwin B. Entity-Based cross-document coreferencing using the vector space model. In: Proc. of the 36th Annual Meeting of the Association for Computational Linguistics and 17th Int'l Conf. on Computational Linguistics, Vol. 1. 1998. 79-85.
[16]	Pedersen T, Purandare A, Kulkarni A. Name discrimination by clustering similar contexts. In: Proc. of the Int'l Conf. on Intelligent Text Processing and Computational Linguistics. Berlin, Heidelberg: Springer-Verlag, 2005. 226-237.
[17]	Chen Y, Martin JH. Towards robust unsupervised personal name disambiguation. In: Proc. of the 2007 Joint Conf. on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL). 2007. 190-198.
[18]	Cucerzan S. Large-Scale named entity disambiguation based on Wikipedia data. In: Proc. of the 2007 Joint Conf. on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL). 2007. 708-716.
[19]	Han X, Zhao J. Named entity disambiguation by leveraging wikipedia semantic knowledge. In: Proc. of the 18th ACM Conf. on Information and Knowledge Management. 2009. 215-224.
[20]	Hassell J, Aleman-Meza B, Arpinar IB. Ontology-Driven automatic entity disambiguation in unstructured text. In: Proc. of the Int'l Semantic Web Conf. Berlin, Heidelberg: Springer-Verlag, 2006. 44-57.
[21]	Minkov E, Cohen WW, Ng AY. Contextual search and name disambiguation in email using graphs. In: Proc. of the 29th Annual Int'l ACM SIGIR Conf. on Research and Development in Information Retrieval. 2006. 27-34.
[22]	Zhang B, Al Hasan M. Name disambiguation in anonymized graphs using network embedding. In: Proc. of the 2017 ACM on Conf. on Information and Knowledge Management. 2017. 1239-1248.
[23]	Huang H, Heck L, Ji H. Leveraging deep neural networks and knowledge graphs for entity disambiguation. arXiv preprint arXiv: 1504.07678, 2015.
[24]	Tan R, Chirkova R, Gadepally V, et al. Enabling query processing across heterogeneous data models: A survey. In: Proc. of the 2017 IEEE Int'l Conf. on Big Data (Big Data). IEEE, 2017. 3211-3220.
[25]	Smith JM, Bernstein PA, Dayal U, et al. Multibase: Integrating heterogeneous distributed database systems. In: Proc. of the National Computer Conf. 1981. 487-499.
[26]	Armbrust M, Xin RS, Lian C, et al. Spark SQL: Relational data processing in spark. In: Proc. of the 2015 ACM SIGMOD Int'l Conf. on Management of Data. 2015. 1383-1394.
[27]	Zhu M, Risch T. Querying combined cloud-based and relational databases. In: Proc. of the 2011 Int'l Conf. on Cloud and Service Computing. IEEE, 2011. 330-335.
[28]	Ong KW, Papakonstantinou Y, Vernoux R. The SQL++ unifying semi-structured query language, and an expressiveness benchmark of SQL-on-Hadoop, NoSQL and NewSQL databases. CoRR, abs/1405.3631, 2014.
[29]	Kepner J, Arcand W, Bergeron W, et al. Dynamic distributed dimensional data model (D4M) database and computation system. In: Proc. of the 2012 IEEE Int'l Conf. on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2012. 5349-5352.
[30]	Ehrig H, Prange U, Taentzer G. Fundamental theory for typed attributed graph transformation. Lecture Notes in Computer Science, 2004, 3256: 161-177. http://link.springer.com/chapter/10.1007%2F978-3-540-30203-2_13
[31]	Robinson I, Webber J, Eifrem E. Graph Databases: New Opportunities for Connected Data. O'Reilly Media, Inc., 2015. http://dl.acm.org/citation.cfm?id=2846367
[32]	Wang X, Zou L, Wang CK, Peng P, Feng ZY. Research on knowledge graph data management: A survey. Ruan Jian Xue Bao/Journal of Software, 2019, 30(7): 2139-2174(in Chinese with English abstract). http://www.jos.org.cn/1000-9825/5841.htm [doi:10.13328/j.cnki.jos.005841]
[33]	Angles R. A comparison of current graph database models. In: Proc. of the 2012 IEEE 28th Int'l Conf. on Data Engineering Workshops. IEEE, 2012. 171-177.
[34]	The Neo4j Team. The Neo4j manual v3.4. 2018. https://neo4j.com/docs/developer-manual/current/
[35]	Spmallette. Titan-Distributed graph database. 2018. http://titan.thinkaurelius.com/
[36]	Janus Graph Authors. JanusGraph-Distributed graph database. 2018. http://janusgraph.org/
[37]	Amazon Web Services, Inc. Amazon Neptune-Fast, reliable graph database build for cloud. 2018. https://aws.amazon.com/neptune/
[38]	Microsoft Azure. Microsoft Azure Cosmos DB. 2018. https://docs.microsoft.com/en-us/azure/cosmos-db/introduction
[39]	TigerGraph. TigerGraph-The first native parallel graph. 2018. https://www.tigergraph.com/
[40]	Callidus Software Inc. OrientDB-Multi-Model database. 2018. http://orientdb.com/
[41]	Baltrušaitis T, Ahuja C, Morency LP. Multimodal machine learning: A survey and taxonomy. IEEE Trans. on Pattern Analysis and Machine Intelligence, 2018, 41(2): 423-443. http://ieeexplore.ieee.org/document/8269806/
[42]	Ramachandram D, Taylor GW. Deep multimodal learning: A survey on recent advances and trends. IEEE Signal Processing Magazine, 2017, 34(6): 96-108. [doi:10.1109/MSP.2017.2738401]
[43]	Li GL, Zhou XH. XuanYuan: An AI-native database systems. Ruan Jian Xue Bao/Journal of Software, 2020, 31(3): 831-844(in Chinese with English abstract). http://www.jos.org.cn/1000-9825/5899.htm [doi:10.13328/j.cnki.jos.005899]
[44]	Hang J, Liu Y, Zhou K, Li G. An end-to-end automatic cloud database tuning system using deep reinforcement learning. In: Proc. of the SIGMOD. 2019.
[45]	Wang W, Zhang M, Chen G, Jagadish HV, Ooi BC, Tan K. Database meets deep learning: Challenges and opportunities. SIGMOD Record, 2016, 45(2): 1722. http://dl.acm.org/citation.cfm?id=3003669
[46]	Kipf A, Kipf T, Radke B, Leis V, Boncz PA, Kemper A. Learned cardinalities: Estimating correlated joins with deep learning. In: Proc. of the CIDR. 2019.
[47]	Pedrozo WG, Nievola JC, Ribeiro DC. An adaptive approach for index tuning with learning classifier systems on hybrid storage environments. In: Proc. of the HAIS. 2018. 716-729.
[48]	Krishnan S, Yang Z, Goldberg K, Hellerstein JM, Stoica I. Learning to optimize join queries with deep reinforcement learning. CoRR, abs/1808.03196, 2018.
[49]	Marcus R, Papaemmanouil O. Deep reinforcement learning for join order enumeration. In: Proc. of the 1st Int'l Workshop on Exploiting Artificial Intelligence Techniques for Data Management. 2018. 3: 13: 4.
[50]	Lamport L. The part-time parliament. ACM Trans. on Computer Systems, 1998, 16(2): 133-169. [doi:10.1145/279227.279229]
[51]	Lamport L. Paxos made simple. ACM SIGACT News, 2001, 32(4): 18-25.
[52]	Wang J, Zhang MX, Wu YW, Chen K, Zheng WM. Paxos-Like consensus algorithms: A review. Journal of Computer Research and Development, 2019, 56(4): 692-707(in Chinese with English abstract). https://www.cnki.com.cn/Article/CJFDTOTAL-JFYZ201904002.htm
[53]	Chandra TD, Griesemer D, Redstone J. Paxos made live: An engineering perspective. In: Proc. of the 26th Annual ACM Symp. on Principles of Distributed Computing (PODC 2007). New York: ACM, 2007. 398-407.
[54]	Oki BM, Liskov BH. Viewstamped replication: A new primary copy method to support highly-available distributed systems. In: Proc. of the 7th Annual ACM Symp. on Principles of Distributed Computing. 1988. 8-17.
[55]	Liskov, Barbara, Cowling J. Viewstamped Replication Revisited. 2012.
[56]	Medeiros A. ZooKeeper's atomic broadcast protocol: Theory and practice. Technical Report, 2012. http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.473.1373
[57]	Ongaro D, Ousterhout J. In search of an understandable consensus algorithm. In: Proc. of the 2014 USENIX Annual Technical Conf. 2014. 305-319.
[4]	李未, 郎波. 一种非结构化数据库的四面体数据模型. 中国科学: 信息科学, 2010, 40(8): 1039-1053. [doi:10.1007/s11432-010-4030-9]
[9]	周宁南, 张孝, 孙新云, 琚星星, 刘奎呈, 杜小勇, 王珊. MyBUD自适应分布式存储管理的设计与实现. 计算机科学与探索, 2012, 6(8): 673-683.
[27]	文献全部内容项
[32]	王鑫, 邹磊, 王朝坤, 彭鹏, 冯志勇. 知识图谱数据管理研究综述. 软件学报, 2019, 30(7): 2139-2174. http://www.jos.org.cn/1000-9825/5841.htm [doi:10.13328/j.cnki.jos.005841]
[43]	李国良, 周煊赫. 轩辕: AI原生数据库系统. 软件学报, 2020, 31(3): 831-844. http://www.jos.org.cn/1000-9825/5899.htm [doi:10.13328/j.cnki.jos.005899]
[52]	王江, 章明星, 武永卫, 陈康, 郑纬民. 类Paxos共识算法研究进展. 计算机研究与发展, 2019, 56(4): 692-707. https://www.cnki.com.cn/Article/CJFDTOTAL-JFYZ201904002.htm