2. 福建省网络计算与智能信息处理重点实验室(福州大学), 福建 福州 350116;
3. 网络数据科学与技术重点实验室(中国科学院), 北京 100190
2. Fujian Provincial Key Laboratory of Networking Computing and Intelligent Information Processing(Fuzhou University), Fuzhou 350116, China;
3. Key Laboratory of Network Data Science and Technology(The Chinese Academy of Sciences), Beijing 100190, China
随着互联网的迅猛发展, 网络中涌现了大量的论坛、博客等社交媒体, 吸引大量用户在这些社交媒体上分享他们关于政治、产品、公司、事件的观点.观点检索旨在从社交媒体等文档集中检索出与查询主题相关并且表达用户观点(赞同或反对)的文档, 是自然语言处理领域里的一项重要课题[1, 2].
国际文本检索会议(The Text Retrieval Conf., 简称TREC)在2006年开始引入博客观点检索的评测, 之后涌现了大量的观点检索方面的研究[3-7].早期研究的观点检索是两阶段模型[3, 4]:首先, 利用传统的信息检索模型获得与查询相关的候选相关文档; 然后, 将候选相关文档根据观点得分进行重排序.之后出现了将主题相关度与观点结合起来的统一相关模型(unified relevance model)[5-7].该模型借助当前信息检索和观点挖掘领域的最新模型, 直接挖掘描述查询的观点对文档进行排序.后来出现了排序学习模型(learning to rank, 简称L2R)[8, 9], 利用提取的特征和机器学习的方法对推文进行倾向性检索.
但上述排序学习模型往往产生较为稀疏的特征空间, 统一相关模型在检索的过程中泛化能力有一定缺陷, 这种缺陷主要体现在3个方面.
第一, 在知识层面, 上述模型往往无法根据上下文将词汇进行知识、概念层面的抽象.例如:
例:Ios5 update gets android like notification bar!? apple bowed to google!
译:Ios5更新得到类似Android的通知栏!苹果向谷歌低头了!
上述文本提到“apple\苹果”, 现有模型无法识别其是指苹果公司还是苹果这种水果.因此, 上述统一相关模型缺乏知识的泛化.
第二, 在语义层面, 上述检索模型处理查询未登录词并且由此引出的数据稀疏性问题的能力有限, 查询扩展技术[3, 10]虽然扩展了原始查询的语义信息, 但整体检索仍是词匹配的过程, 无法计算词汇之间的语义相似度, 缺乏计算的泛化.
第三, 在观点层面, 上述基于词典的观点挖掘方法受限于观点词典的覆盖率限制, 无法处理未登录的观点词汇, 缺乏观点泛化能力.
针对上述问题, 本文提出了融合文本概念化与网络表示的观点检索模型:首先引入概念知识图谱, 通过有效分析查询和文本的概念空间, 判断对应多个概念的实体在具体上下文中的概念, 以此来实现概念级别的推理, 提高检索模型知识泛化的能力; 其次, 通过基于网络节点的网络表示学习, 有效地利用知识图谱中的结构化信息, 学习捕获词汇之间的语义信息, 把词汇节点投射到低维的语义空间中, 这使得在传统的词匹配中, 词汇之间由于特征稀疏所引起的语义相似度计算困难现象通过低维空间中向量计算得以一定程度的改善, 能够提高语义计算的泛化能力; 最后, 通过引入朴素贝叶斯支持向量机(Na ve Bayes support vector machines, 简称NBSVMs[11])和卷积神经网络(convolutional neutral network, 简称CNN[12])方法挖掘文本的观点, 摆脱了基于观点词典方法泛化能力有限的制约, 进一步提高了观点检索的性能.基于上述3种特征表示与观点建模方法, 本文进一步将3类特征应用于统一相关模型以及基于排序学习的观点检索模型.相关实验结果表明:本文提出的3类特征表示与观点建模方法可以有效提高观点检索的性能, 并且不论具体的应用场景中是否提供了有标注训练集, 本文提出的方法均能有效提高现有的观点检索精度, 是一种通用性很好的观点检索方法.
本文第1节介绍已有研究的相关工作.第2节首先介绍本文的问题描述和方法概述, 然后详细描述主要模块的细节.第3节为实验设置与结果分析, 通过与基准工作对比来验证本文方法的有效性.第4节为总结.
1 相关工作目前, 观点检索研究主要包括两方面的内容.一方面是如何对信息检索中的文档与查询词进行特征表示, 另一方面是如何构建检索模型度量查询词与待检索文档之间的观点得分.针对上述两方面内容, 本节将分别介绍目前国内外相关的研究工作.
1.1 特征表示传统的信息检索模型主要将查询词与待检索文档映射到某个高维向量空间进行相似度的计算, 以度量不同文本之间的相似度, 并根据相似度结果返回文档的排名用于信息检索, 例如BM25(基于Okapi BM25[13])和VSM(基于vector space model[14]).但是此类方法均是基于词袋模型的特征表示, 无法对词汇进行语义、概念层面的分析.并且由于文本和用户查询通常比较简短, 产生的特征空间比较稀疏, 导致文本间的语义相似度计算困难, 泛化能力有限.因此, 有研究者使用知识图谱、文本概念化和网络表示技术对文本进行语义理解, 构建文本的语义特征表示, 应用于检索任务.
近年来, 随着各种知识获取和知识图谱构建技术的逐渐完善[15, 16], 关于知识图谱的应用研究引起了很多研究者的兴趣.Dalton等人[17]利用实体的相关特征和实体与知识库的连接(包括结构化的属性和文本)来丰富原始查询.Xiong等人[18]提出利用freebase获取与查询相关的实体, 然后利用非监督或者监督的方法得到最终的扩展词.Wang[19]提出文本概念化模型, 借助知识图谱对文本进行解析和推理, 进而将其映射到知识图谱中的一组概念上, 在文本分类任务上取得90%+的准确率.王仲远[20]提出借助知识图谱为文本构建统一的候选词关系图, 并使用随机漫步(random walk)的方法推导出最优的分词、词性和词的概念, 提高知识泛化准确率.另有学者利用知识图谱提高概念漂移检测[21]和问答系统[22, 23]的性能.
网络表示学习是面向知识图谱中的实体和关系的表示学习[24], 在多关系知识图谱表示中, Bordes等人提出的TransE模型[25]引起了广泛关注和扩展, 将知识图谱中的关系r解释为头实体h到尾实体t的翻译操作, 认为向量h+r应该靠近向量t.但是TransE无法处理复杂关系(如一个头实体对应多个尾实体、多对一、多对多), 为此, Wang等人提出了TransH模型[26], 让实体在不同的关系下有不同的表示, 有效解决了TransE的缺点.针对TransH仍存在将实体和关系映射在同一语义空间这一缺陷, Lin等人提出了TransR模型[27], 将实体和关系分别建模在实体空间和关系空间, 并在关系空间执行翻译.TransR较TransE和TransH有很多改进, 但仍存在参数过多、计算复杂度高的缺点, 为此, Ji等人提出了TransD模型[28], 利用两个投影向量构建投影矩阵, 解决了TransR模型计算复杂度高的问题.随后, Ji又提出了TranSparse模型[29], 针对不同复杂度的关系, 使用不同稀疏程度的矩阵进行表征, 以防止对关系的过拟合或者欠拟合现象.He等人认为, 实体和关系可能存在不同的语义, 以往的模型忽略了语义的不确定性, 为此提出了KG2E模型[30], 使用高斯embedding进行知识表示学习.
在单一关系知识图谱表示领域, Ahmed[31]提出了GF, 将信息网络表示成关联矩阵, 通过矩阵分解将节点表示到低维稠密的向量空间.Perozzi[8]提出了DeepWalk, 将节点视为单词, 将在网络上随机游走的路径视为句子, 获得的数据直接作为word2vec算法的输入以训练节点的向量表示.Tang[9]提出了LINE, 直接针对网络的一阶相似度和二阶相似度进行建模, 有效保留了网络的结构信息.Jacob[32]提出了LSHM模型, 在训练节点的向量表示时, 同时考虑了分类函数对已知节点标签的分类能力.
1.2 检索模型目前的观点检索模型大体上可以分为3类.
第1类观点检索方法是两阶段模型:第1阶段使用传统信息检索方法得到主题相关文档, 第2阶段对主题相关文档计算观点得分.例如, Zhang等人[3]首先利用传统信息检索模型和查询扩展技术找出主题相关的文档, 接着, 用支持向量机(SVMs)分类器对主题相关文档进行观点分类并重排序.Santos等人[33]首先利用两种现有方法找出观点语句, 接着, 将查询与观点语句的邻近关系融入到DFR(divergence from randomness)邻近关系模型中, 最终得到文档的观点检索评分.Wang等人[4]把重点放在观点分类方面, 通过整合推文、Hashtag间的共现关系等特征, 采用3种图模型的分类算法进行观点分类.
第2类方法是统一相关检索模型, 该模型直接挖掘描述查询的观点得分, 对文档排序, 相对于两阶段模型, 具有理论上易解释、对信息需求表达更直接、有效的优点.例如, Eguchi[34]提出一种概率生成模型框架下的观点检索模型, 通过考虑查询依赖的观点得分, 将主题相关模型与观点得分结合起来, 进而计算文档的排序得分. Zhang[5]提出一个基于词典的生成模型, 通过二次组合方式(quadratic combination)将主题相关得分与观点评分结合.但该模型假设观点词是均匀分布的.Liao[6]考虑了观点词所含观点信息的差异性, 首先基于异质图计算观点词权重, 然后将其融入生成模型.文献[10]则利用外源知识和机器学习的方法扩展用户的查询词并融入生成模型. Huang[7]通过查询相关与查询无关的混合倾向性扩展, 将主题检索与倾向性分类的两阶段方法转换成一个统一的观点检索进程.但大部分统一观点检索模型忽略了对用户查询和文本的语义分析, 存在仅考虑了词语的表面匹配、不能处理同义词和一词多义等问题.
第3类方法是排序学习模型(learning to rank, 简称L2R).Luo[35]利用文档特征、博主特征和主观性特征, 采用排序学习模型对推文进行观点检索.Kim[36]进一步利用了博主特征和标签特征的主观性信息来描述文档的主观倾向.一般而言, 使用排序学习算法进行信息检索往往可以取得较高的精度, 但由于其需要大量的人工标注数据构建训练集, 因此这一方法的应用场景相对于前两种方法而言较为有限; 并且该模型针对不同的査询, 其相关文档数量的差异会对学习的效果评价造成偏置.
本文从观点检索目前相关研究的3种局限性出发, 希望可以借助知识库资源以及相关机器学习方法, 并结合情感模型, 进行更为有效的特征表示.同时, 希望学习获得的特征可以普适性地提高不同的信息检索模型性能, 以达到面向不同应用场景的通用观点检索的目的.
2 融合文本概念化与网络表示的观点检索本文提出一种融合文本概念化与网络表示的观点检索:首先, 利用知识图谱分别将用户查询和文本集概念化到概念集合上, 同时, 利用网络表示技术将知识图谱中的节点表示成低维向量; 然后, 通过逐点的向量相加并取均值的方式推出文本向量和查询向量, 并使用余弦公式计算查询向量和文本向量的相关度得分, 接着引入NBSVMs和CNN两种分类方法计算文本观点得分; 最后, 将文本概念化结果、网络表示结果、观点得分结果作为特征, 进行观点检索模型的设计.具体而言, 本文在上述特征的基础上, 分别使用了不需要训练语料的基于统一相关模型的观点检索方法以及需要训练语料的基于排序学习模型的观点检索方法进行观点检索, 验证了本文提出的相关方法的有效性.
2.1 问题描述为了方便研究, 本节将基于统一相关模型的观点检索研究问题形式化地描述为:给定一个查询q、观点词典T={ti, i=1, 2, …, M}(其中, ti表示观点词及其评分, M表示观点词典的大小)、待检索的文档集合D={di, i=1, 2, …, N} (其中, di表示文档i的文本内容, N表示文档集的大小)以及知识图谱G=(V, E)(其中, V表示知识图谱中的节点集合, 包括实体集和概念集; E表示知识图谱中的边的集合, 每条边表示一个实体-概念对(entity-concept pair)), 计算每个待检索文档di与查询q的主题相关度得分Irel=(d, q)和di的观点得分Iopn=(d, q, T); 根据检索模型将相关度得分和观点得分二次组合得到最终的相关观点得分Rank(d)=(d, q, G, T), 并根据相关观点评分从高到低排序.
2.2 基于知识图谱的文本概念化文本概念化的目的是借助概念知识图谱推理出文本中每个实体的概念分布, 即, 将实体按照其上下文语境映射到正确的概念集合上[19](bags-of-concepts, 简称BOC).
例:Ios5 update gets android like notification bar!? apple bowed to google!
译:Ios5更新得到类似Android的通知栏!苹果向谷歌低头了!
在上述文本中, 通过知识图谱Probase[37], 机器可获悉“apple\苹果”这个实体有“fruit\水果”和“company\公司”等概念, “google\谷歌”这个实体有“company\公司”等概念.当“apple\苹果”与“google\谷歌”同时出现在文本中时, 通过贝叶斯公式可以分析出该文本中的“apple\苹果”有较高的概率属于“company\公司”这一概念.
给定文档集合D={di, i=1, 2, …, N}, 本文利用Probase推理每篇文档的概念集合.文档的相关概念最终表示为一个概念集合di=(〈c1, w1〉; , …, 〈cj, wj〉, …, 〈ck, wk〉; ), i=1, 2, …, N, j=1, 2, …, k, 其中, wj表示概念cj属于该文档的权重, 反映了概念cj对该文档的解释能力.概念化过程分为两部分:实体识别、概念推理.
2.2.1 基于逆向最大匹配的实体识别为了获得文本的概念集合, 首先需要识别文本中的实体, 以便通过实体推理概念.对于多词表达的实体, 本文仅考虑长度最大的一项, 实体之间不相互包含.例如“apple inc\苹果公司”可能有两种实体识别结果:“apple\苹果”“inc\公司”或者“apple inc\苹果公司”, 因为三者都在词典中, 但本文仅考虑“apple inc\苹果公司”这一实体.因此, 采用基于词典的逆向最大匹配算法来识别每篇文档中的实体, 并选用知识图谱Probase中的所有实体(约1 200万个实体)作为匹配词典.匹配过程中, 采用波特提取器(http://tartarus.org/~martin/PorterStemmer/)对文档和词典分别做词干提取处理.具体算法描述如下.
算法. 基于逆向最大匹配的实体识别算法.
输入:文档集合、实体词典;
输出:每篇文档的实体集合.
初始化:对实体词典每个词项做词干提取处理.设词典中实体最大长度(包含词汇个数)为maxLen, 设输出实体集合entitySet为空.对每篇文档进行如下处理.
Step 1:对文档词汇做词干提取处理, 得到文本s=s1s2…sn.
Step 2:计算s包含词汇个数, 设为n:如果n等于0, 转Step 7;如果n < maxLen, 则maxLen=n.
Step 3:取出str=sn-maxLen…sn作为候选实体.
Step 4:查看str是否在词典中:若是, 则转Step 5;否则, 转Step 6.
Step 5:将str加入entitySet中, s=s-str, 转Step 2.
Step 6:如果str长度等于1, s=s-str, 转Step 2;否则, 将str最左边的一个词去掉, 转Step 4.
Step 7:输出entitySet, 结束.
2.2.2 基于朴素贝叶斯模型的概念推理给定文档的实体集合E={ei, i=1, 2, …, M}, 概念生成的目的是利用Probase中的实体-概念对(instance-concept pairs)推理出最能描述该实体集合的概念集合.为评估概念对文档的表示能力, 采用朴素贝叶斯模型进行评估:
$ P({c_k}|E) = \frac{{P(E|{c_k})P({c_k})}}{{P(E)}} \propto P({c_k})\prod\nolimits_{i = 1}^M {P({e_i}|{c_k})} $ | (1) |
通过贝叶斯公式计算每个概念的后验概率, 获得高后验概率值的概念显然就是最能代表给定实体集合的概念.同时, 把后验概率值作为这个概念以表达该文档的解释能力, 即为该概念的权重.
在公式(1)中, 给定概念, 得到实体的概率公式为
$ P({e_i}|{c_k}) = \frac{{n({e_i}, {c_k})}}{{n({c_k})}} $ | (2) |
其中, n(ei, ck)表示ei和ck的共现次数, n(ck)表示ck出现的次数.这两个值都可以从Probase中直接或计算得到.两个文本例子及它们经概念化后的概念集合见表 1.
2.3 信息网络表示(information network embedding)
经过文本概念化获得文本和查询的概念集合.这种模型下的主题相似度计算仍是以匹配为主, 无法处理概念之间的语义相似度.例如, “Company\公司”和“Organization\组织”, “Company\公司”是“Organization\组织”的一个子概念, 它们具有高度语义相似性, 但这种信息在概念匹配时就会丢失.网络表示(network embedding, 简称NE)可以将网络节点表示成低维向量, 同时保留节点之间的这种相似性信息.这样, 在低维空间里可以高效计算概念之间的语义相似度.因此, 用网络表示改善概念匹配的缺点, 提高模型的计算泛化能力.
图 1所示为Probase网络的一个子图例子.两个节点的边表示的是网络的局部特性, 边的权值通常表明这两个节点的关联程度.例如, 概念“Company\公司”和“Organization\组织”有边相连, 在语义上“Company\公司”是“Organization\组织”的子概念, 因此它们应该是语义相似的, 这个相似度由连接它们的边的权值决定.网络表示可以保留节点之间的这种相似性信息, 使得具有局部特性的节点在低维空间相互靠近.
下面介绍针对这种网络局部特性建模的网络表示算法[9].
对网络中每一条边(i, j), 有一个联合概率公式表示节点vi和vj的一阶相似度:
$ p({v_i}, {v_j}) = \frac{1}{{1 + \exp ( - \vec u_i^T, {{\vec u}_j})}} $ | (3) |
其中,
$ O = d(\hat p( \cdot , \cdot ), p( \cdot , \cdot )) $ | (4) |
其中, d(·, ·)表示两个分布的距离.使用KL距离公式替代d(·, ·)并忽略一些常数, 可以得到:
$ O = \sum\limits_{(i, j) \in E} {{w_{ij}}\log p({v_i}, {v_j})} $ | (5) |
通过最小化目标函数O, 可以将网络中的每个节点表示到d维的向量空间中
通过上述方法获得了文本概念化特征和网络表示特征之后, 本文进一步使用上述表示特征进行观点检索方法的设计.考虑到在实际应用场景中, 针对是否有人工标注的训练数据的不同情况, 研究者往往使用不同的观点检索方式.其中, 针对没有人工标注的训练数据的情况, 研究者往往采用基于向量空间的统一观点检索方法; 针对有人工标注的训练数据的情况, 研究者往往采用基于排序学习模型的观点检索方法.因此, 本节利用学习获得的特征表示设计了两种不同的观点检索方法, 以应对实际应用场景中不同的情况与两种观点检索方法加以结合.
2.4.1 基于统一相关模型(unified relevance model)的观点检索方法在以往的研究工作中, 有以下统一检索模型, 将文档的相关度得分视为文档观点得分的权值:
$ p(d|q, T) = \sum\nolimits_i {p(d|q, {t_i})} \propto \sum\nolimits_i {{\alpha _i}p({t_i}|d, q)} p(q|d)p(d) = {I_{opn}}(d, q, T){I_{rel}}(d, q) $ | (6) |
其中, d表示一篇文档, T表示观点词, q表示用户查询文本, αi表示观点词的权重.公式(6)可以分为两部分:
(1) 主题相关度计算
本文文档主题相关度采用3种方式计算:基于概念模型的文档主题相关度、基于网络表示的余弦相似度、概念模型和余弦相似度的线性加权.
文本经过概念化后得到
$ {I_{rel}}(d, q) = Si{m_{BOC}}(d, q) = \sigma \left( {\sum\limits_{{c_i} \in d \cap {c_i} \in q} {w_i^d \cdot w_i^q} } \right), i = 1, 2, ..., k $ | (7) |
其中, σ(x)=1/(1+exp(-x))是一个sigmoid函数.
通过网络表示, 本文将查询和文档都转换为低维空间中的向量, 然后计算余弦值表示它们的相似度.查询的向量表示为
$ {I_{rel}}(d, q) = Si{m_{NE}}(d, q) = \cos (\vec d, \vec q) = \frac{{\vec d \cdot \vec q}}{{|\vec d||\vec q|}} $ | (8) |
此外, 综合考虑概念模型和网络表示对实验性能的影响, 本文还将公式(7)和公式(8)线性加权计算Irel=(d, q):
$ {I_{rel}} = \left( {d, q} \right) = \lambda Si{m_{BOC}}\left( {d, q} \right) + \left( {1 - \lambda } \right)Si{m_{NE}}\left( {d, q} \right), \lambda \in \left[ {0, 1} \right] $ | (9) |
(2) 观点得分计算
观点得分Iopn=(d, q, T)的计算除了沿用基于词典的观点挖掘方法[5]之外, 本文还考虑了基于统计机器学习的观点挖掘方法来提高模型的观点泛化能力.使用NBSVM[11]和CNN[12]两种分类器对数据集进行主、客观分类, 取主观性置信度作为观点得分.选用的训练语料是康奈尔(Cornell)大学提供的影评数据集, 包含主、客观标签的句子各5 000句.
最后, 用Irel=(d, q)为文档的观点得分Iopn=(d, q, T)赋权, 可得文档最终的观点检索评分公式为
$ Rank(d) = p(d|q, T)\mathop = \limits^{rank} Score{I_{opn}}(d, q, T) \cdot Score{I_{rel}}(d, q) $ | (10) |
排序学习是一种数据驱动的方法, 使用机器学习技术, 根据带标签的数据和相关特征自动产生一个检索(排序)模型.本文使用SVM_Rank[38]框架进行观点检索, 这个框架在同类工作[35, 39, 40]中被广泛使用.SVM_Rank将排序问题归结为二元分类问题.对于同一个查询q, 在其所有相关文档集里, 任意两个不同标签值的文档, 都可以得到一个训练实例
$ \mathop {\min }\limits_\omega \sum\limits_{i = 1}^m {\mathop {[1 - {y_i}\langle \omega , x_i^{(1)} - x_i^{(2)}\rangle ]}\nolimits_ + } + \frac{1}{{2C}}||\omega |{|^2} $ | (11) |
其中, [x]+表示函数max(x, 0), C > 0是一个系数, m表示文档对数, ||·||表示L2范数.
本文选择的特征是基于排序学习的推特信息检索的常用特征[41]以及本文提出的文本概念化特征、网络表示特征和观点得分特征.
其中, 基于排序学习的信息检索的常用特征可以从文档直接观察或者间接计算得到, 这些特征在同类工作中均有被采用的实例, 例如BM25得分、观点得分、是否含有链接、是否含有标签(#)和是否提及(@)他人、作者发布的推文数、关注作者的人数和作者关注的人数、作者被分组的次数等特征.
在此基础上, 排序学习算法还采用了上文所提出的3种特征表示方法作为额外特征, 包括文本概念化特征、网络表示特征、观点得分特征.其中,
● 文本概念化特征指的是文档包含的概念.本文利用概念生成算法从文档集生成概念词库.然后针对每篇文档, 使用了类似词袋(bag-of-words)模型的表示方法, 概念词库的每一个概念是否存在, 均表示文档特征空间的一维;
● 网络表示特征指的是利用网络表示学习得到的网络表示作为特征, 对于文档中涉及到知识库中的词语, 利用网络表示结果将每个词语的表示累加求和并求取均值作为文档的特征.所以, 这里的网络表示特征的维度与上文中利用网络表示学习获得的低维表示的维度相同;
● 观点得分特征是指利用前文提出的观点分析方法判断当前文档的观点得分.因此, 此特征仅有一维.
使用上述特征, 结合排序学习方法对待检索文档进行排序, 并返回相应的检索结果.
3 实验结果与分析 3.1 数据集及评价指标本文实验使用两个数据集:首先, 根据2014年文献[6]的推特观点数据集进行实验, 这一数据集共包含49个查询和3 308篇文档(在下文简称为推特2014数据集); 由于这一数据集的数据量较少, 本文利用推特提供的搜索结果及爬虫技术扩展数据集, 共爬取10个查询的英文推特29 634篇.标注前, 采用缓冲池(pooling)技术:针对每个查询, 将本文检索模型和基准检索模型的各自检索结果中前500篇文档加入缓冲池, 最后得到的缓冲池含有7 172文档.5名标注人员对缓冲池中的文档进行二值标注, 将与对应查询相关并且包含观点信息的文档标为1, 否则为0.根据少数服从多数的原则对每篇文档进行判断, 对缓冲池外的文档均标注为0.下文将这一数据集记作扩展数据集.两个数据集的基本信息见表 2.
评价指标采用文本观点检索领域常用的Mean Average Precision(MAP)、NDCG@10、R-precision(R-prec)和binary Preference(bPref), 具体计算公式如下:
$ MAP = \frac{{\sum\nolimits_{i = 1}^{{N^q}} {A{P_i}} }}{{{N^q}}}, A{P_i} = \frac{1}{{\sum\nolimits_{i = 1}^N {{r_i}} }}\sum\nolimits_{i = 1}^N {\frac{{{r_i}\sum\nolimits_{j = 1}^i {{r_j}} }}{i}} $ | (12) |
$ NDCG(n) = {Z_n}\sum\nolimits_{j = 1}^n {({2^{r(j)}} - 1)/\log (1 + j)} $ | (13) |
$ Rprec = \frac{{\sum\nolimits_{j = 1}^R {{R_j}} }}{R} $ | (14) |
$ bpref = \frac{1}{R}\sum\nolimits_r {1 - \frac{{|n{\text{ ranked higher than }}r|}}{R}} $ | (15) |
公式(12)中, Nq为查询的数量, N为总的文档数量.若第i个文档为带观点的主题相关文档, 则ri=1;否则, ri=0.
公式(13)中, Zn为标准化因子, 用理想返回列表的NDCG(n)作为因子进行归一化.r(j)指的是返回文档的评分, 若相关, 设为2, 否则, 设为1.
公式(14)中, R为与查询相关并带有对查询观点的文档数量, Rj为检索结果中第j个文档的评分, 若是正确结果集中的文档, 则取1, 否则, 取0.
公式(15)中, R是与查询相关的文档个数, r是具体的某一个相关文档, |n ranked higher than r|是排名比r靠前的非相关文档的数量.
上述评价指标中, MAP是一个较为重要的指标, 在本文的后续实验中, 主要针对MAP进行不同方法之间的对比分析, 其他3个指标仅作为参考指标.
3.2 实验对比为了验证本文方法的有效性与普适性, 本文分别与不需要训练语料的观点检索模型以及需要训练语料的排序学习模型进行对比.
● 观点检索模型
(1) SIGIR08[5]:基于词典的统一相关模型, 通过二次组合方式将主题相似度得分与观点得分结合.该模型将观点词看成是均匀分布.模型使用传统信息检索方法BM25和基于词典的观点得分模型分别计算查询与文档的相关度和文档的观点得分;
(2) SIGIR08+Lexicon[6]:首先, 基于异质图计算观点词在不同查询上的观点分布, 然后将其融入SIGIR08[5]提出的模型中;
(3) SIGIR08_KG+Lexicon[10]:在文献[6]的基础上, 使用知识图谱freebase的文本描述信息为用户查询进行查询扩展;
(4) BOC+X:本文方法, 基于概念模型计算查询与文档的相关度并结合不同观点得分方法.有3种变形: BOC+Lexicon, BOC+NBSVM, BOC+CNN;
(5) NE+X:本文方法, 基于网络表示计算查询与文档的相关度并结合不同观点得分方法.同样有3种变形: NE+Lexicon, NE+NBSVM, NE+CNN;
(6) BOC_NE+X:本文方法, 基于概念模型和网络表示计算查询与文档的相关度, 同情形(3)、情形(4), 有3种变形:BOC_NE+BOC_Lexicon, BOC_NE+NBSVM, BOC_NE+CNN.
● 排序学习模型
(7) AAAI2012[39]:排序学习方法, 利用推文特征、作者特征和观点特征训练排序模型;
(8) WWW2015[35]:排序学习方法, 除了情形(7)提到的特征, 加入了不同观点词典得到的观点特征、向量空间模型计算得到的查询相关特征和该推文发布的时长等特征;
(9) L2R+X:本文方法, 除了信息检索的常用特征外, 还加入了本文所提出的3种特征表示方法作为额外特征, 包括文本概念化特征(BOC)、网络表示特征(NE)、观点得分特征(Lexicon, CNN和NBSVM), 并在后续实验中分别对本文提出的特征进行组合分析.
基于上述方法, 本文进行了以下5个实验.实验1~实验3为统一相关模型的实验:实验1对比了本文方法与基准方法的实验结果.实验2、实验3分析了本文统一相关模型方法中的参数设置.实验4、实验5为排序学习模型的实验:实验4比对了本文特征与基准方法特征的实验结果, 实验5分析了本文不同特征组合的实验结果.
实验1:基于统一相关模型的观点检索对比实验.
为了验证本文提出的特征在统一相关模型的观点检索方法上的有效性, 对比本文最优方法和基准方法在两个数据集上的实验结果.结果见表 3和表 4.
从实验结果可以看出,
(1) 首先比对两个数据集上的3种基准方法, SIGIR08在4个指标上都是最低的, 说明SIGIR08+Lexicon和SIGIR08_KG+Lexicon方法相比SIGIR08效果较优, 因此, 后续实验主要和这两种方法比对.在推特2014数据集(见表 3)和扩展数据集(见表 4)中, SIGIR08_KG+Lexicon与BOC_NE+NBSVM(本文方法)的实验结果均优于SIGIR08+Lexicon, 说明引入知识图谱分析用户查询和文档集的语义信息可以提高模型的知识泛化能力, 进而提高原有观点检索的性能.并且需要注意的是:在不同的观点得分计算方式下, 算法的性能存在一定的差异.主要原因在于:本文的观点得分是在其他领域的数据集上进行训练, 对于观点检索所在领域的观点得分计算存在一定的误差.尤其是基于卷积神经网络的方法, 由于需要大规模的训练样本, 因此在小数据集上的性能受限, 并不适合处理这一问题.最后, 本文采用了基于NBSVM的观点得分计算方式;
(2) 在推特2014数据集中(见表 3), 对比本文方法BOC_NE+NBSVM与SIGIR08_KG+Lexicon, BOC_NE+ NBSVM优于SIGIR08_KG+Lexicon, 在MAP、NDCG@10、bPref指标上均有一定提升, 分别提升了6.1%、1.0%、1.2%.在扩展数据集中(见表 4), 本文方法BOC_NE+NBSVM优于SIGIR08_KG+Lexicon, 在MAP、NDCG@10、R-Prec、bPref这4个指标上分别提升了9.3%、2.8%、7.3%、16.6%.说明本文方法相比基于知识库的扩展, 不仅可以有效分析用户查询的信息需求, 同时可以准确理解文本集的信息, 有效改善了传统的基于词袋模型的词匹配中词汇之间语义鸿沟的问题, 提高了计算泛化能力, 进而能够提高观点检索的性能.
实验2:统一相关模型中不同特征组合的性能对比.
实验2比对不同观点得分计算方法结合不同相关度得分对检索性能的影响.实验结果见表 5和表 6.
● 首先观察相同主题相关度得分结合不同观点得分的差异性.
在推特2014数据集中(见表 5), SIGIR08+NBSVM、BOC+NBSVM、NE+Lexicon、BOC_NE+NBSVM分别取得相应的最高MAP, 在扩展数据集中(见表 6), SIGIR08+Lexicon、BOC+Lexicon、NE+Lexicon、BOC_NE+ Lexicon分别取得相应的最高MAP, 说明相同的相关度得分结合不同观点得分方法的检索效果具有明显的差异性.在基础数据集中, 统计机器学习的观点得分优于基于词典的观点得分, 但在扩展数据集中, 统计机器学习的观点挖掘得分并未优于基于词典的观点得分.一方面是因为扩展数据集的测试语料远大于训练语料; 另一方面是因为训练语料与测试语料的异质性, 导致泛化能力不够.
● 然后观察相同观点得分结合不同主题相关度得分的差异性.
在两个数据集上, 本文方法均取得相应的最高MAP值, 说明本文方法能够有效提高模型的知识泛化能力和计算泛化能力, 进而提高检索性能.同时还可以发现:在推特2014数据集中(见表 5), 本文方法的BOC_NE+ NBSVM在MAP和bPref指标上均达到最好, BOC_NE+Lexicon在R-Prec指标上获得最优值, BOC_NE+CNN在NDCG@10指标上获得最优值.在扩展数据集中(见表 6), BOC_NE+Lexicon、BOC_NE+CNN、BOC_NE+ Lexicon、BOC_NE+NBSVM分别获得了4个指标的最优值, 再一次验证了本文方法更加有效检索到与查询主题相关观点的文本, 说明了本文方法能够有效提高检索模型的知识泛化能力和计算泛化能力, 进而提高观点检索的性能.
实验3:统一相关模型中不同特征权重参数的对比实验.
本文模型BOC_NE+Lexicon、BOC_NE+NBSVM、BOC_NE+CNN均涉及两个参数:向量维度d和平滑参数λ.由于在4个评估指标中MAP较为重要, 因此本实验研究不同参数下对这3个模型MAP的影响.维度d设置为50、100、150、200, 平滑参数λ的范围为0~1, 步长为0.1.λ为0时表示基于网络表示的主题相关度得分, λ为1时表示基于概念模型的主题相关度得分.实验结果如图 2~图 4所示.
图 2(a)、图 3(a)和图 4(a)展示的是在推特2014数据集中, 本文3种模型的MAP随参数d和λ的变化情况. BOC_NE+Lexicon(如图 2(a)所示)模型中, 当d一定时, MAP随着λ的增长而提升, 在λ为0.4时达到峰值, 随后又开始下降.其中, 当d为200、λ为0.4时取得最大值.类似地, BOC_NE+NBSVM(如图 3(a)所示)模型当d为150、λ为0.8时MAP取得最大值, BOC_NE+CNN(如图 4(a)所示)模型在d为150、λ为0.4时MAP取得最大值.整体而言, 在λ确定的前提下, 网络表示的维度d对性能影响往往不大, 体现为上述图表中维度方向的边际分布往往比较平缓.但是具体的λ则对性能的影响较大, 即:文本概念化与网络表示的权重对于性能的影响较大.3种不同的观点建模方法在两个数据集上的结果显示, 这种参数设置对MAP的影响在1%左右.考虑到表 3与表 4中本文提出方法相较于基准方法提升的幅度较大, 所以这种参数设置并不影响本文方法相较于基准方法的性能优势.
实验4:基于排序学习模型的观点检索对比实验.
为了进一步验证文本概念化特征、网络表示特征和观点得分特征在观点检索任务中的性能, 本文进一步构造了基于排序学习模型的观点检索实验, 在信息检索的常用特征基础上加上本文提出的特征进行实验, 选取其中最优的特征组合进行对比.实验结果见表 7和表 8.
表 7和表 8显示:在推特2014数据集和扩展数据集中加入本文提出的3类特征后, MAP、NDCG@10、R-Prec和bPref这4个指标均有提升.在推特2014数据集上(见表 7), 4个指标获得最优值的方法分别为L2R+BOC+NE+ NBSVM、L2R+BOC+NE+NBSVM、L2R+BOC+NE+CNN、L2R+BOC+NE+CNN.在扩展数据集中(见表 8), MAP、NDCG@10、R-Prec和bPref这4个指标上达到最优值的方法均为L2R+BOC+NE+NBSVM.说明AAAI2012和WWW2015提出的特征不够充分, 产生的特征空间比较稀疏.而本文提出的利用知识图谱和网络表示产生的文档概念空间和文档低维向量能够缓解向量空间稀疏的问题.
实验5:排序学习模型中不同特征组合的性能对比.
在基于排序学习方法的观点检索中, 不同的特征组合导致的检索性能可能存在差异, 实验5研究的是在信息检索的常用特征基础上加上本文提出的不同特征组合的观点检索性能.
表 9和表 10显示了本文提出的3类特征的不同组合在两个数据集上的实验结果.可以看出, 单独加入3种观点得分特征对排序学习的性能影响不大.这是由观点分类的训练数据和测试数据的异质性导致的.同时可以看出:文本概念化特征和网络表示特征均能有效提升模型的性能, 特别是在扩展数据集上, 因为扩展数据集数据量大, 出现歧义的实体现象较多, 说明文本概念化特征和网络表示特征能够有效改善特征稀疏所引起的语义相似度计算困难现象.而在两个数据集上均显示出, 同时使用文本概念化特征与网络表示特征可以进一步提升系统性能.这也说明两类方法在具体的使用过程中有一定的互补性.最后, 在两个数据集上的所有特征组合中, MAP值最高的均是L2R+BOC+NE+NBSVM.这进一步证明了本文提出的方法能够有效解决上文提出的现有观点模型的3个局限性问题, 从而提高检索模型的性能.
4 总结
本文提出了一种融合文本概念化与网络表示的观点检索模型.与现有研究工作不同, 本文充分利用了知识图谱的结构化信息对用户查询和文本集进行语义分析, 利用网络表示学习捕获知识图谱中节点之间的语义信息, 利用统计机器学习的方法挖掘文本的倾向性信息.然后构建文本概念化特征、网络表示特征、观点得分特征这3类特征应用于统一观点检索模型以及基于排序学习的观点检索模型.实验结果表明:与现有工作对比, 本文方法在MAP等指标上有明显的提升.在下一步工作中, 首先可以进一步标注数据集, 扩大训练集的语料, 并结合常识性知识图谱, 采用端到端(end to end)的模型进行训练, 以期提高观点泛化能力.
[1] |
Ounis I, Macdonald C, Rijke MD, Mishne G, Soboroff I. Overview of the TREC 2006 Blog track. In: Proc. of the 14th Text Retrieval Conf. (Trec 2006). Gaithersburg, 2006. 86-95.http://www.nist.gov/publications/overview-trec-2006-blog-track |
[2] |
Pang B, Lee L. Opinion mining and sentiment analysis. In: Proc. of the Foundations and Trends in Information Retrieval. 2008. 1-135. |
[3] |
Zhang W, Yu C, Meng W. Opinion retrieval from Blogs. In: Proc. of the 6th ACM Conf. on Information and Knowledge Management. ACM Press, 2007. 831-840.[doi: 10.1145/1321440.1321555] |
[4] |
Wang XL, Wei F, Liu XH, Zhou M, Zhang M. Topic sentiment analysis in Twitter: A graph-based hashtag sentiment classification approach. In: Proc. of the 20th ACM Int'l Conf. on Information and Knowledge Management. ACM Press, 2011. 1031-1040.[doi: 10.1145/2063576.2063726] |
[5] |
Zhang M, Ye X. A generation model to unify topic relevance and lexicon-based sentiment for opinion retrieval. In: Proc. of the 31st Annual Int'l ACM SIGIR Conf. on Research and Development in Information Retrieval. ACM Press, 2008. 411-418. |
[6] |
Liao XW, Chen H, Wei JJ, Yu ZY, Chen GL. A weighted lexicon-based generative model for opinion retrieval. In: Proc. of the Int'l Conf. on Machine Learning and Cybernetics. 2015. 821-826.http://ieeexplore.ieee.org/document/7009715/ |
[7] |
Huang X, Croft WB. A unified relevance model for opinion retrieval. In: Proc. of the 18th ACM Conf. on Information and Knowledge Management. ACM Press, 2009. 947-956.[doi: 10.1145/1645953.1646075] |
[8] |
Perozzi B, Al-Rfou, Skiena S. Deepwalk: Online learning of social representations. In: Proc. of the 20th ACM SIGKDD Int'l Conf. on Knowledge Discovery and Data Mining. ACM Press, 2014. 701-710. |
[9] |
Tang J, Qu M, Wang MZ, Zhang M, Yan J, Mei QZ. LINE: Large-Scale information network embedding. In: Proc. of the 24th Int'l Conf. on World Wide Web, Int'l World Wide Web Conf. on Steering Committee. Florence, 2015. 1067-1077.http://dl.acm.org/citation.cfm?id=2741093 |
[10] |
Ma FX, Liao XW, Yu ZY, Wu YB, Chen GL. A text opinion retrieval method based on knowledge graph. Journal of Shandong University (Natural Science), 2016, 51(11): 33–40(in Chinese with English abstract).
http://d.old.wanfangdata.com.cn/Periodical/sddxxb201611005 |
[11] |
Wang S, Manning CD. Baselines and bigrams: Simple, good sentiment and topic classification. In: Proc. of the Meeting of the Association for Computational Linguistics: Short Papers. 2012. 90-94.http://dl.acm.org/citation.cfm?id=2390688 |
[12] |
Kim Y. Convolutional neural networks for sentence classification. arXiv Preprint arXiv: 14085882, 2014. |
[13] |
Robertson SE, Walker S, Jones S, Hancock-Beaulieu MM, Gatford M. Okapi at TREC-3. NIST Special Publication, 1995. 109-125. http://www.doc88.com/p-9972384819356.html |
[14] |
Salton G, Wong A, Yang CS. A vector space model for automatic indexing. Communications of the ACM, 1975, 18(11): 613–620.
[doi:10.1145/361219.361220] |
[15] |
Li X, Wang SG, Li DY, Kang XP, Zhai YH. Knowledge acquisition in incomplete information system based on formal concept analysis. Computer Science, 2014, 41(7):250-253(in Chinese with English abstract).http://kns.cnki.net/KCMS/detail/detail.aspx?filename=JSJA201407053&dbname=CJFD&dbcode=CJFQ |
[16] |
Zhuang Y, Li GL, Feng JH. A survey on entity alignment of knowledge base. Journal of Computer Research and Development, 2016, 53(1): 165–192(in Chinese with English abstract).
http://d.old.wanfangdata.com.cn/Periodical/jsjyjyfz201601013 |
[17] |
Dalton J, Dietz L, Allan J. Entity query feature expansion using knowledge base links. In: Proc. of the 37th Int'l ACM SIGIR Conf. on Research & Development in Information Retrieval. ACM Press, 2014. 365-374.[doi: 10.1145/2600428.2609628] |
[18] |
Xiong CC, Allan J. Query expansion with freebase. In: Proc. of the 2015 Int'l Conf. on the Theory of Information Retrieval. ACM Press, 2015. 111-120.[doi: 10.1145/2808194.2809446] |
[19] |
Wang F, Wang ZY, Li ZJ, Wen JR. Concept-Based short text classification and ranking. In: Proc. of the 23rd ACM Int'l Conf. on Information and Knowledge Management. ACM Press, 2014. 1069-1078.[doi: 10.1145/2661829.2662067] |
[20] |
Wang ZY, Zhao KJ, Wang HX, Wen JR. Query understanding through knowledge-based conceptualization. In: Proc. of the Int'l Conf. on Artificial Intelligence. 2015. 3264-3270.http://dl.acm.org/citation.cfm?id=2832704 |
[21] |
Li YH, Li DY, Wang SG, Zhai YH. Incremental entropy-based clustering on categorical data streams with concept drift. Knowledge-Based Systems, 2014, 59(2): 33–47.
|
[22] |
Zheng WG, Cheng H, Zou L, Jeffrey XY, Zhao KF. Natural language question/answering: Let users talk with the knowledge graph. In: Proc. of the 2017 ACM Conf. on Information and Knowledge Management. Singapore, 2017. 217-226.http://doi.acm.org/10.1145/3132847.3132977 |
[23] |
Hao YC, Zhang YZ, Liu K, He SZ, Liu ZY. An end-to-end model for question answering over knowledge base with cross-attention combining global knowledge. In: Proc. of the 55th Annual Meeting of the Association for Computational Linguistics. 2017. 221-231.[doi: 10.18653/v1/P17-1021] |
[24] |
Liu ZY, Sun MS, Lin YK, Xie RB. Knowledge representation learning:A review. Journal of Computer Research and Development, 2016, 53(2): 247–261(in Chinese with English abstract).
[doi:10.7544/issn1000-1239.2016.20160020] |
[25] |
Bordes A, Usunier N, Garcia-Duran A, Weston J, Yakhnenko O. Translating embeddings for modeling multi-relational data. In: Proc. of the NIPS. Cambridge, 2013. 2787-2795. |
[26] |
Wang Z, Zhang J, Feng J, Chen Z. Knowledge graph embedding by translating on hyperplanes. In: Proc. of the AAAI. Citeseer, 2014. 1112-1119.http://dl.acm.org/citation.cfm?id=2893873.2894046 |
[27] |
Lin YK, Liu ZY, Sun MS, Liu Y, Zhu X. Learning entity and relation embeddings for knowledge graph completion. In: Proc. of the AAAI. 2015. 2181-2187.http://dl.acm.org/citation.cfm?id=2886624 |
[28] |
Ji GL, He SZ, Xu LH, Liu K, Zhao J. Knowledge Graph embedding via dynamic mapping matrix. In: Proc. of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th Int'l Joint Conf. on Natural Language Processing. 2015. 687-696.[doi: 10.3115/v1/P15-1067] |
[29] |
Shi J, Gao H, Qi GL, Zhou ZQ. Knowledge graph embedding with triple context. In: Proc. of the 2017 ACM on Conf. on Information and Knowledge Management. Singapore, 2017. |
[30] |
He SZ, Liu K, Ji GL, Zhao J. Learning to represent knowledge graphs with gaussian embedding. In: Proc. of the ACM Int'l Conf. on Information and Knowledge Management. 2015. 623-632.http://dl.acm.org/citation.cfm?id=2806502 |
[31] |
Ahmed A, Shervashidze N, Narayanamurthy S, Josifovski A, Smola AJ. Distributed large-scale natural graph factorization. In: Proc. of the 22nd Int'l Conf. on World Wide Web. ACM Press, 2013. 37-48.http://dl.acm.org/citation.cfm?id=2488393 |
[32] |
Jacob Y, Denoyer L, Gallinari P. Learning latent representations of nodes for classifying in heterogeneous social networks. In: Proc. of the 7th ACM Int'l Conf. on Web Search and Data Mining. ACM Press, 2014. 373-382.http://dl.acm.org/citation.cfm?id=2556225 |
[33] |
Santos RL, He B, Macdonald C, Ounis I. Integrating proximity to subjective sentences for Blog opinion retrieval. In: Proc. of the European Conf. on Information Retrieval. Springer-Verlag, 2009. 325-336.[doi: 10.1007/978-3-642-00958-7_30] |
[34] |
Eguchi K, Lavrenko V. Sentiment retrieval using generative models. In: Proc. of the Conf. on Empirical Methods in Natural Language Processing. 2006. 345-354.[doi: 10.3115/1610075.1610124] |
[35] |
Luo Z, Osborne M, Wang T. An effective approach to tweets opinion retrieval. World Wide Web, 2015, 18(3): 545–566.
[doi:10.1007/s11280-013-0268-7] |
[36] |
Kim YS, Song YI, Rim HC. Opinion retrieval systems using Tweet-external factors. In: Proc. of the 26th Int'l Conf. on Computational Linguistics (COLING), Proc. of the Conf. on System Demonstrations. Osaka: ACL, 2016. 126-130. |
[37] |
Wang ZY, Cheng JP, Wang HX, Wen JR. Short text understanding:A survey. Journal of Computer Research and Development, 2016, 53(2): 262–269(in Chinese with English abstract).
[doi:10.7544/issn1000-1239.2016.20150742] |
[38] |
Joachims T. Optimizing search engines using clickthrough data. In: Proc. of the 8th ACM SIGKDD Int'l Conf. on Knowledge Discovery and Data Mining. ACM Press, 2002. 133-142. |
[39] |
Luo Z, Osborne M, Wang T. Opinion retrieval in Twitter. In: Proc. of the AAAI 2012. 2012. 507-510. |
[40] |
Gerani S, Carman MJ, Crestani F. Investigating learning approaches for Blog post opinion retrieval. In: Proc. of the European Conf. on Information Retrieval. Springer-Verlag, 2009. 313-324.http://www.springerlink.com/content/14x48u42l2040727 |
[41] |
Duan YJ, Jiang L, Qin T, Zhou M, Shum HY. An empirical study on learning to rank of Tweets. In: Proc. of the 23rd Int'l Conf. on Computational Linguistics. Association for Computational Linguistics, 2010. 295-303.http://www.wanfangdata.com.cn/details/detail.do?_type=conference&id=WFHYXW402908 |
[10] |
马飞翔, 廖祥文, 於志勇, 吴运兵, 陈国龙. 基于知识图谱的文本观点检索方法. 山东大学学报(理学版), 2016, 51(11): 33–40.
http://d.old.wanfangdata.com.cn/Periodical/sddxxb201611005
|
[15] |
李想, 王素格, 李德玉, 翟岩慧.形式概念分析在不完备信息系统中的知识获取.计算机科学, 2014, 41(7):250-253.
|
[16] |
庄严, 李国良, 冯建华. 知识库实体对齐技术综述. 计算机研究与发展, 2016, 53(1): 165–192.
http://d.old.wanfangdata.com.cn/Periodical/jsjyjyfz201601013
|
[24] |
刘知远, 孙茂松, 林衍凯, 谢若冰. 知识表示学习研究进展. 计算机研究与发展, 2016, 53(2): 247–261.
[doi:10.7544/issn1000-1239.2016.20160020]
|
[37] |
王仲远, 程健鹏, 王海勋, 文继荣. 短文本理解研究. 计算机研究与发展, 2016, 53(2): 262–269.
[doi:10.7544/issn1000-1239.2016.20150742]
|