2. 华东交通大学 软件学院, 江西 南昌 330013;
3. 数据与知识工程江西省高校重点实验室(江西财经大学), 江西 南昌 330013
2. School of Software, East China Jiaotong University, Nanchang 330013, China;
3. Jiangxi Key Laboratory of Data and Knowledge Engineering(Jiangxi University of Finance and Economics), Nanchang 330013, China
随着经济活动数据在数量、质量和表现形式上的不断丰富, 以及自然语言处理、数据挖掘和机器学习等技术的迅速发展, 经济研究不仅仅局限于结构化数据, 也认识到非结构化数据的重要作用.文本数据是非结构化数据的主要形式之一, 互联网平台中存在大量与财经领域相关的文本数据(财经文本), 其中蕴含了个人或媒体对经济运行和发展中所遇到关键问题的观点和态度, 间接反映了经济在投资、消费、进出口、政府财政和人口就业等方面的状况; 同时, 这类信息的产生和传播速度快, 可实时反映经济的发展现状.因此, 财经文本在获取经济信息、分析经济实时状况、辅助经济预测等方面有着独特的优势.在这种应用需求背景下, 基于非结构化数据的经济研究面临了前所未有的机遇和挑战.
研究者证明:通过文本挖掘可发现与宏观经济有关的潜在影响要素(经济要素或经济要素词), 利用搜索指数或情感指数量化这些经济要素, 帮助预测经济发展趋势, 弥补传统统计指标的时滞性和数据有意造假等问题带来的影响[1].已有研究主要通过人工筛选或结合LDA主题模型结果、手工选择这些经济要素词[2, 3], 再基于领域类别或主题划分, 构建经济指标与经济要素词之间的概念隶属关系, 称为非结构化经济指标(体系), 最后, 通过经济要素词的搜索指数量化非结构化经济指标, 用于经济分析和预测.针对以上分析, 实现非结构化数据在经济研究中的应用需要经过3个步骤:(1)经济要素词的抽取和非结构化经济指标体系的构建; (2)非结构化经济指标体系的量化; (3)非结构化经济指标量化值在经济预测模型中的应用.其中, 经济要素词的抽取和非结构化经济指标体系的构建, 是研究的基础和关键步骤, 也是本文主要关注点.
在经济要素词抽取和非结构化经济指标体系构建方面, 已有研究主要通过手工或半自动的方式实现, 存在抽取效率低、工作量大、人工成本高、数据覆盖率低以及领域的可移植性弱等缺陷.基于主题模型的主题-词语分析可对应于非结构化经济指标体系构建和经济要素词抽取, 常用的主题模型包括LDA(latent dirichlet allocation)和HDP(hierarchical dirichlet process)模型.由于LDA主题模型对主题数目有很大依赖性[4], 本文将采用HDP主题模型解决这个问题, 实现非结构化经济指标体系构建和经济要素词抽取过程的全自动化.
然而, 在经济领域中直接使用HDP主题模型生成经济主题、抽取经济要素词, 存在如下主要问题:(1)主题模型生成的主题无法体现经济主题的领域性; (2)经济要素词无法准确对应到经济主题中, 经济主题涵义不明确; (3)很多经济要素词是中低频词, 无法被有效地抽取出来.导致这些问题的根本原因是:在主题模型中, 文档主题分布是由词语的共现情况决定, 主题词是通过统计词语在文档中出现的频繁程度确定.所以, 本文预期目标是结合财经领域的的分类信息提高文档主题与经济主题的匹配程度, 利用词语之间的语义相似性改善词语在相同领域的共现频率, 并基于词语的逆主题频率改进经济要素词在经济主题中的出现频率.
为了提高模型的领域适用性, 本文将结合财经领域背景知识和词语之间的语义关系, 改进HDP主题模型的CRF(Chinese restaurant franchise)构造过程, 实现财经文本中非结构化经济指标体系的自动构建和经济要素词的自动抽取.基本思路是:根据已有经济领域分类标准定义文档的领域隶属度, 改进HDP主题模型的文档-主题分配过程, 明确财经文本的领域属性; 为了提高经济要素词抽取的准确性, 根据词语对经济主题的描述能力, 基于词向量定义词语与主题的语义相关度, 改进HDP主题模型的主题-词语分配过程, 以便将语义相近的词语尽量分配到相同或相近的经济主题中, 即:明确词语的经济主题属性, 提高经济主题的区分度; 为了进一步凸显经济要素词对经济主题的解释力, 根据词语对经济主题的代表性定义词语对主题的贡献度, 进一步改进HDP主题模型的主题-词语分配过程, 以便能够抽取到有效的、中低频的领域主题专用词语, 提高经济主题的辨识度.
本文的主要贡献是根据经济领域分类标准、词语对经济主题的描述能力(即词语之间的语义关系)以及词语对经济主题的代表性, 定义文档的领域隶属度、词语与主题的语义相关度和词语对主题的贡献度, 并分别映射到餐厅的菜肴风格、顾客之间对菜肴要求的一致程度和顾客对菜肴的专一程度.通过餐厅的菜肴风格、顾客之间对菜肴要求的一致程度以及顾客对菜肴的专一程度, 改进CRF构造过程, 对应于改进文档-主题分配过程和主题-词语分配过程, 提出了PSP_HDP主题模型, 并设计了相应的采样方法实现模型参数推导.在财经文本中进行实验, 验证模型在构建非结构化经济指标体系和抽取经济要素词方面的有效性.
本文第1节将介绍财经领域中经济要素词抽取和非结构化经济指标体系构建的研究现状, 以及主题模型的相关研究进展, 并分析使用主题模型及其改进模型在非结构化经济指标体系构建和经济要素词抽取时存在的问题.第2节分析HDP主题模型的理论基础, 并结合第1节提出的问题, 定义文档的领域隶属度、词语与主题的语义相关度和词语对主题的贡献度等概念, 通过概念映射改进CRF构造过程, 目的是改进主题模型中的文档-主题和主题-词语分配过程, 最终提出PSP_HDP主题模型.第3节为参数设置说明和实验结果分析.最后总结全文, 并对未来值得关注的研究方向进行初步探讨.
1 相关研究在抽取经济要素词和构建非结构化经济指标体系方面, 刘涛雄等人[2]根据经济领域类别人工筛选经济要素词, 构建非结构化经济指标; 通过百度搜索指数对其量化, 综合考虑非结构化经济指标和传统统计经济指标, 提出基于“两步法”的经济指标预测模型, 实现国内生产总值(gross domestic product, 简称GDP)预测.在金融风险和股票预测方面, 类似的方法也用于实现金融指标的量化[3, 4].
除了人工筛选经济要素词, Yakovleva[5]利用互联网新闻报道, 基于LDA模型生成主题-词语分布, 从中选取与采购经理人指数(purchase management index, 简称PMI)相关的主题词, 结合SVM(support vector machine)生成主题情感极性, 结合主题情感时间序列模拟和预测PMI, 分析经济发展动态.Siegel[6]利用公司管理报告, 基于本体的方法和GRI(global reporting initiative)标准, 提取关于社会、经济和生态方面的词语, 实现句子分类.
综上可知, 结合机器学习和自然语言处理技术抽取经济要素词和构建非结构化经济指标体系的研究还处于初级阶段, 其中, 主题模型提供了关键技术支持.本节接下来先综述主题模型的发展动态, 再分析主题模型在构建非结构化经济指标体系和抽取经济要素词时存在的问题.
主题模型是基于概率的生成式模型, 一篇文档的每个词语是通过“以一定概率选择了某个主题, 并从这个主题中以一定概率选择某个词语”的过程得到.如果已知文档的词语分布, 则可以通过概率推导得到文档的主题分布和主题的词语分布.主题模型是挖掘文档主题的重要工具, 主要包括参数贝叶斯模型和非参数贝叶斯模型.
1.1 参数贝叶斯模型Blei等人[7]在文档-主题和主题-词语的先验分布中引入Dirichlet分布、设置相应超参数, 构建3层贝叶斯模型, 即LDA模型; 利用主题分布差异和文档中词语共现信息, 采用贝叶斯推断方法(Gibbs采样或变分推断)计算文档-主题和主题-词语的后验概率分布, 生成文档-主题分布和主题-词语分布.关于LDA主题模型的研究主要有以下几类.
(1) 基于领域知识的LDA模型
为了抽取文档中与领域相关的影响因素, 即领域特征或领域词语, 基于领域知识的主题模型MDK-LDA (LDA with multi-domain knowledge)[8]和AMC(automatically generated must-links and cannot-links)[9]通过频繁项集、同义词等方法获取领域知识, 目的是把语义相近的词语放在must-link集合中, 不共现的词语放在cannot- link集合中, 用于约束主题-词语的分配过程.AKL(automated knowledge LDA)模型[10]首先从不同领域的商品评论中自动获取先验知识, 然后在主题模型中加入先验知识, 指导商品特征的识别, 改善商品特征的提取.
(2) 基于词向量的LDA模型
随着神经网络方法的广泛使用, 词向量对词语的表达变得更加丰富, 使得词语之间的语义关系可以度量得更加准确.基于词向量的主题模型可以增强语义相似的词语在同一主题上的分配概率, 提高主题模型的性能.人们在分析文档中某个词语的涵义时, 不仅考虑与其共现的词语, 还考虑词语之间的语义关系.主题模型主要根据词语的共现信息计算主题-词语的概率分布, 缺少词语之间的语义信息.GPU-DMM(generalized polya urn dirichlet multinomial mixture)模型[11]针对主题模型中存在的上述问题, 从大规模语料中学习词语的语义关系, 在主题模型的采样过程中, 通过Bernoulli分布决定是否利用词向量抽取文档在某个主题下的相关词语, 目的是将语义相近的词语尽量分配在相同的主题中, 同时剔除无关词语, 提高主题词对主题的解释效果, 改善主题模型的效果.
由于LDA主题模型中文档-词语的生成概率是由文档-主题和主题-词语的概率分布共同决定, 导致一些在主题-词语概率分布中主题隶属概率较高的词语, 即高频词, 在主题中占有明显优势.为了捕获与目标主题相关的中低频词语, TWE(topic word embeddings)模型[12]基于LDA主题模型建立主题-词语关系, 并且在构建词向量的同时引入主题向量, 使得这两种向量处于同一向量空间; 通过比较词向量和主题向量之间的相似性, 选取与文档主题最相关的词语.
(3) 基于LDA模型的微博主题挖掘
在微博主题挖掘中, Das等人[13]通过挖掘主题短语或特征词发现当前关注度较高的热点话题, 用于趋势分析和观点挖掘.张晨逸等人[14]利用微博中的转发和回复信息与被转发和被回复信息之间存在相似主题的特点, 综合考虑微博的联系人关系, 改进主题分配概率, 提出了MB-LDA(micro blog LDA)模型.庞雄文等人[15]利用微博用户之间的转发、对话、点赞和评论关系计算微博之间的相关性, 基于同一用户、相邻时间片段间微博主题具有强相关性的假设, 改进文档主题概率分布, 提出了MRT-LDA模型, 改善微博主题聚类效果.
然而, 这类LDA主题模型都需要预先设定主题数目, 在不具备任何先验知识的情况下, 很难准确给定固定的主题数目; 随着时间推移, 文档主题会有新旧主题的更替, 增加了主题数目的不确定性; 通过不断测试来确定主题数目的方法, 将耗费大量的时间和精力, 限制了模型的应用推广.
1.2 非参数贝叶斯模型HDP主题模型[16]是LDA主题模型的非参数形式推广, 可实现主题共享, 用于构建无穷多个主题的混合模型; 给定文档集, 通过后验概率推导可以自动确定主题数目, 增强了模型的适用性.HDP主题模型假设数据是可交换的:一是“对内”, 假设文档内部词语次序的交换并不影响主题的概率分布; 二是“对外”, 假设文档之间的次序与主题分布无关.然而, 可交换性假设破坏了文档之间的依赖性和时序性.关于HDP主题模型的研究主要有以下几类.
(1) 考虑依赖关系的HDP模型
Kim等人[17]考虑到数据“外部信息”之间的依赖关系, 提出了ddCRP(distance dependent Chinese restaurant process)模型, 对于不可交换的、序列数据的主题聚类, 在“餐桌-菜肴”分配的先验概率中考虑了相邻文档之间的距离关系, 通过衰减函数调整距离对主题划分的影响, 改善文档-主题概率分布, 降低了模型的内容复杂度.Li等人[18]在文档内容的基础上添加关键词、引用信息、链接信息和合作者信息, 计算文档间距离, 改进CRP结构, 提出了SID-CRP(side information dependent CRP)模型, 用于提高文档集主题聚类效果.与此同时, Blei等人[19]从数据“内部关系”的角度, 根据数据的时间和空间距离关系决定“顾客-餐桌”分配过程, 基于数据本身的依赖关系改善数据聚合机制.
Ahmed等人[20]考虑了文本之间的时间依赖关系, 解决HDP主题模型中数据的可交换问题, 提出了iDTM (infinite dynamic topic models)模型.该模型通过在CRF中加入固定的时间段设置, 以便发现主题-词语的时序分布、动态的主题数和主题的流行度.Ma等人[21]利用HDP模型分析固定间隔的时间片段间主题和主题词的变化规律, 获取主题进化模式.Zhang等人[22]提出了Evo-HDP(evolutionary hierarchical dirichlet process)模型, 考虑到文本之间的时间依赖性, 为每个固定时间段的多个语料库同时建立HDP模型, 基于马尔可夫链假设, 相邻时间段的聚类模式是强相关的, 用HDP实现语料库内与不同语料库之间在不同时间段的主题共享和主题演化模式.为了挖掘和建模主题演化的分支结构, Wang等人[23]提出了EDP(evolving dirichlet processes)和EHDP(evolving hierarchical dirichlet processes)模型, 用于构建时序文本数据集的非线性主题进化轨迹.
(2) 基于领域知识的HDP模型
在领域主题挖掘方面, 刘少鹏等人[24]提出了MB-HDP(micro blog HDP)模型, 在微博主题挖掘中考虑了微博发布时间、用户信息和话题标签, 用ddCRP改进HDP的顶层结构, 把发布时间、用户信息和话题标签相同的文档聚在相同主题下, 改进文档-主题的分配过程, 解决短文档主题聚类问题.Qian等人[25]提出了sHDP(social HDP)模型, 结合文档内容和社会网络结构信息, 利用不同的社会群体结构设计文档-主题参数的混合权重, 改善短文档主题聚类效果.Yang等人[26]提出了HDPauthor模型, 结合作者列表信息, 在HDP模型中增加一层用于表示作者之间共享的主题分组, 并将混合的文档-作者-主题分布代替HDP模型中的文档-主题分布, 构建基于作者列表信息的生成模型, 用于挖掘相关文档中作者的主题兴趣.
在财经领域应用方面, 有监督的主题模型HDP-IR[27]可用于分析产品质量和预测产品销售; 向量自回归无限隐马尔可夫模型[28]利用自动学习的状态数捕获股票市场收益对未来经济增长率的预测能力.
在主题结构研究方面, 由于LDA主题模型假设主题是孤立的, 导致模型无法研究主题之间的关联关系.Blei等人[29]基于nCRP(nested CRP)的原理提出了HLDA(hierarchical LDA)模型, 解决LDA模型中主题孤立问题, 结合改进的采样算法提取文档集的主题层次结构.为了改进nCRP的推导效率, Chen等人[30]在主题共享的基础上分析主题之间的关联关系, 结合LDA主题模型实现主题层次结构的提取, 提出可扩展的推导过程(scalable inference), 实现大规模文本语料库主题结构和数目的自动推导.
目前, HDP主题模型除了为文本主题挖掘提供有效的分析工具, 还在视频监控分析、图像理解与标注、认知研究等方面得到了广泛应用[31].
上述HDP改进模型主要利用文本的时间信息、用户信息等附加信息改善主题聚类效果, 并实现主题共享和主题数目自动生成.但是这类模型仍然存在一些不足:一是在确定文档-主题分布时没有考虑文档的领域特性, 导致主题的领域类别不明显; 二是在生成主题-词语的分布时没有考虑词语对主题的描述能力和代表性, 导致无法提取到财经文本中蕴含的大量经济要素词.具体表现如下.
● 词语存在领域归属问题, 例如“外卖”“快递”“手机”“奶粉”“酒”“书”等能够反映经济指标在消费领域的表现, “贷款”“融资”“利率”“基金”“房价”等能够反映经济指标在投资领域的表现, “石油”“关税”“芯片”“期货”“奶粉”“大豆”等能够反映经济指标在进出口领域的表现, “收入”“税收”“增值税”“教师”“税率”“农民工”等能够反映经济指标在政府财政领域的表现, “兼职”“费率”“社保”“个税”“工伤”等能够反映经济指标在人口就业领域的表现;
● 有些词语并不能描述经济主题.例如, 某财经文档的分词结果为“甲醛房租蛋壳租金居室房子房租房屋时间拆除身体红包机构房间甲醛人员理论对方时间App甲醛房租蛋壳租金”, 该文档反映了经济指标在消费领域的主题信息, 其中, “甲醛”“房租”“房子”等词语与该文档主题存在较明确的语义相关性, 但“时间”“红包”“机构”“人员”“理论”“对方”等词语与该文档主题的语义相关性并不大;
● 领域主题专用词语在主题-词语概率分布中分配了较低的概率.例如在人口就业领域:一方面, “企业”“人员”“个人”“制度”“社会”“公司”等高频词语与该领域有关联, 但是这些词语无法凸显该领域的主题内容; 另一方面, “税法”“待遇”“个税起征点”“医保”“补贴”等中低频的领域主题专用词语, 能够较好地代表该领域的主题信息.
基于上述问题, 一方面, 本文将利用已有的经济领域代表性词语集指导经济主题划分过程, 建立主题和经济领域之间的相关关系, 明确主题在经济领域的涵义; 另一方面, 结合词语对主题的描述能力(即词语之间的语义关系)以及词语对主题的代表性, 辅助经济要素词的筛选, 不仅提高经济主题之间的区分度, 也提高经济主题的辨识度.
2 HDP主题模型建模 2.1 HDP主题模型HDP主题模型包括两层DP(Dirichlet process, 狄利克雷过程):第1层DP以基分布H和超参数γ为参数, 抽样生成全局随机概率测度, 记为G0; 第2层DP以全局随机概率测度G0和超参数α为参数, 为第j篇文档抽样生成一个概率测度, 记为Gj.如公式(1)所示:
$\begin{array}{l} {G_0}|\gamma , H\sim DP(\gamma , H)\\ {G_j}|\alpha , {G_0}\sim DP(\alpha , {G_0}) \end{array}$ | (1) |
由公式(1)可知, 第j篇文档的概率测度Gj均来源于参数为G0的DP过程, 保证了文档之间的主题共享.设{θj1, θj2, …, θji}是服从Gj的独立同分布的随机变量序列, 该序列的先验分布来源于基分布H, 其中, θji对应词语xji的主题分布参数, F(θji)表示在给定参数θji下词语xji的主题分布, 如公式(2)所示:
$\begin{array}{l} {\theta _{ji}}|{G_j}\\ {x_{ji}}|{\theta _{ji}}\sim F({\theta _{ji}}) \end{array}$ | (2) |
HDP主题模型通过CRF(Chinese restaurant franchise)构造方法实现采样过程, 进而推断模型参数的后验概率分布.假设所有餐厅共用一份菜单, 每张餐桌只供应一道菜肴, 顾客-餐桌-菜肴分配过程如下:首先给新顾客分配餐桌, 当餐桌中分配了第1位顾客后, 需要为该餐桌分配菜肴; 后续顾客可选择已有餐桌, 享用已有菜肴, 也可选择新的餐桌, 并为该餐桌选择新的菜肴或已有菜肴.整个分配过程允许多个餐厅中的多个餐桌分配相同菜肴.
为了叙述方便, 先基于CRF构造方法定义如下符号.
● J表示所有餐厅的集合, j表示某个餐厅;
● Xj表示第j个餐厅中的顾客集合, xji表示j餐厅第i个顾客, 则X={xji|1≤j≤|J|, 1≤i≤|Xj|}表示所有顾客集合, |·|表示集合中的元素个数;
● T表示所有餐桌的集合, Tj表示第j个餐厅中已分配顾客的餐桌集合;
● tji表示第j个餐厅第i个顾客所坐的餐桌,
● θji表示分配第j个餐厅中第i个顾客就座餐桌的分布参数, 顾客选择一张新的餐桌就座, 则需要分配菜肴, 记分配菜肴的分布参数为
● Φ表示菜单上菜肴的集合, ϕk表示菜肴k的分布参数, Tk表示供应菜肴k的餐桌集合;
●
●
●
在CRF中, 为新顾客分配餐桌时, 新顾客被分配到已有餐桌的概率与该餐桌所坐顾客的数量成正比, 被分配到新餐桌的概率与超参数α成正比, 生成第j个餐厅中第i个顾客xji就座餐桌的分布参数θji, 如公式(3)所示; 为新餐桌分配菜肴时, 分配已有菜肴的概率与供应该菜肴的餐桌数成正比, 被分配到新菜肴的概率与超参数γ成正比, 生成第j个餐厅中餐桌t供应菜肴的分布参数
$ {\theta _{ji}}|{\theta _{j1}}, {\theta _{j2}}, ..., {\theta _{j(i - 1)}}, \alpha , {G_0}\sim \sum\limits_{t \in {T_j}} {\frac{{|X_j^t|}}{{i - 1 + \alpha }}{\delta _{\varphi _j^t}}} + \frac{\alpha }{{i - 1 + \alpha }}{G_0} $ | (3) |
$ \varphi _j^t|\varphi _1^1, ..., \varphi _1^t, \varphi _2^1, ..., \varphi _2^t, ..., \varphi _j^1, ..., \varphi _j^{t - 1}, \gamma , H\sim \sum\limits_{k \in K} {\frac{{|{T^k}|}}{{|{T^k}| + \gamma }}{\delta _{{\phi ^k}}} + \frac{\gamma }{{|{T^k}| + \gamma }}H} $ | (4) |
整个CRF分配过程与文档-主题分析中的主题-词语分配、文档-主题分配过程是对应的, 通过采样和参数后验概率推导构造HDP主题模型, 生成文档-主题概率分布和主题-词语概率分布.
2.2 PSP_HDP主题模型在财经文本挖掘中, 假设一篇文档只关注一个经济领域, 这种假设对于大部分财经文本主题分析是合理的.结合财经文本领域属性、词语语义和词语在主题中的出现情况改造HDP主题模型, 构建PSP_HDP(combining documents’ domain properties, word semantics and words’ presences in topics with HDP)主题模型.假设餐厅对应文档、顾客对应词语、菜肴对应经济主题, 餐厅的菜肴风格对应财经文本的领域属性.根据HDP主题模型在财经文本主题分析中存在的问题, 结合HDP主题模型的CRF构造过程, 定义以下概念.
(1) 文档的领域隶属度
在CRF构造餐桌-菜肴的分配过程中, 新餐桌菜肴的分配仅取决于已有菜肴被分配的餐桌数, 没有考虑餐桌所在餐厅的菜肴风格.给某个餐厅的餐桌分配菜肴之前, 应分析该餐桌所在餐厅的菜肴风格, 目的是对同一餐厅的餐桌以及具有相同菜肴风格的其他餐厅的餐桌分配相同风格的菜肴.相当于在文档-主题分配时, 应明确文档所属经济领域类别.
参照已有研究[2]对经济领域类别的划分, 记经济领域类别集合为Ω, 给定ρ∈Ω, dρ表示经济领域类别ρ的代表性词语集合; 利用文档与经济领域类别词语集的相似度, 划分文档的经济领域类别.设dj和dj'分别表示文档j和j'的词语集合, I表示指示函数, sim表示词语集之间的相似度计算函数; 根据与文档j的经济领域类别相同的文档数, 定义文档j隶属于该经济领域类别的程度, 即文档j的领域隶属度, 记为Aj, 如公式(5)所示:
$ {A_j} = \sum\limits_{j' \ne j} {I(\mathop {\arg \max }\limits_{\rho \in \Omega } (sim({d_{j'}}, {d_\rho })) = \mathop {\arg \max }\limits_{\rho \in \Omega } (sim({d_j}, {d_\rho })))} $ | (5) |
财经文档的领域隶属度描述了文档的领域属性, 明确了财经文档的领域类别归属, 建立了财经文档主题与经济领域间的相关性.但是文档词语对主题的解释能力依然不明确, 因此需要进一步改进顾客-餐桌的分配过程, 改善经济主题的区分度和辨识度.
(2) 词语与主题的语义相关度
一个经济领域类别下会有多个经济领域主题, 如消费领域类别下可能会有家电消费、餐饮消费等消费领域主题, 相当于一个菜肴风格下可能会有多个菜肴类别.在CRF构造顾客-餐桌的分配过程中, 新顾客的餐桌分配取决于已有餐桌的顾客数, 忽略了顾客之间对菜肴类别要求的差异性.新顾客分配餐桌时, 应根据新顾客与已分配餐桌的顾客之间对菜肴类别要求的一致程度, 决定顾客所坐的餐桌, 即对菜肴类别要求一致或相近的顾客应该分配在相同的餐桌.在财经文本中, 词语之间的语义相似性可反映词语在经济领域主题空间上的距离信息, 即语义相似性较高的词语在潜在经济领域主题空间中应该距离更近, 在主题分配时更应该被分配在相同的经济领域主题中.缺少词语语义分析, 将导致一些与经济领域主题语义相关性不高的词语, 也分配到该主题中, 降低了经济领域主题的区分度.本文把词语之间的语义相似性对应成顾客之间对菜肴类别要求的一致性, 语义相似性高的词语表示对菜肴类别要求一致或相似的顾客.
新顾客选择餐桌时, 需要度量新顾客与已分配餐桌的顾客之间对菜肴类别要求的一致程度, 选择与自己菜肴类别要求相同或相近的餐桌就座.因此, 本文需要在当前已分配餐桌的顾客中, 计算每张餐桌中与新顾客对菜肴类别要求一致的顾客数.
为了考察词语对经济主题的描述能力, 本文通过词向量计算词语之间的语义相似性, 统计待分配主题的词语wi在主题k的词语集Wk中语义相似的词语个数, 称为词语wi与主题k的语义相关度, 记为A(wi, Wk), 如公式(6)所示.其中, sr表示词语之间的语义相似性, ξ表示语义相似性的阈值:
$ A\left( {{w_i}, {W_k}} \right) = \left| {\left\{ {{w_j}|{\mathop{\rm sr}\nolimits} \left( {{w_i}, {w_j}} \right) \ge \xi , {w_j} \in {W_k}, {w_j} \ne {w_i}} \right\}} \right| $ | (6) |
在主题-词语的分配过程中, 将待分配主题的词语wi分配给语义相关度最大的主题.词语与主题的语义相关度描述了词语的主题属性.在财经文本中, 通过计算词语与主题的语义相关度, 可以将描述相同经济领域主题的词语分配在同一主题中, 提高主题模型中词语对主题的描述能力, 提升经济主题的区分度.
(3) 词语对主题的贡献度
顾客-餐桌和餐桌-菜肴分配完成后, 主题模型按照顾客在每个菜肴中的出现频次计算顾客享用每个菜肴的概率, 用于区分不同菜肴的顾客群体.这种计算方式使得一些出现频率高、菜肴喜好特点不明显的顾客在群体划分时将占很大优势.然而, 不同顾客对菜肴的喜好存在不同的专一程度, 即:有些顾客会频繁出现在不同餐桌中品尝各种菜肴, 这类顾客属于普通顾客; 也有些顾客只会在特定的餐桌中出现, 品尝特定菜肴, 这类顾客属于专一顾客.对应于主题-词语分配, 有些词语可用在文档的各种主题中, 虽然出现频次较高, 但对辨识领域主题的贡献不大, 属于通用词语; 有些词语只在文档的特定领域主题中出现, 虽然总体出现频次不高, 但能明确凸显领域主题的内容, 反映了词语对领域主题的代表性, 属于领域主题专用词语.所以, 在明确文档的领域属性和词语的主题属性后, 通过分析词语在领域主题中的代表性, 改进主题-词语分配概率计算方法, 提高中低频的领域主题专用词语分配到相应经济领域主题中的概率, 凸显领域主题专用词语对领域主题的贡献, 进一步提高经济领域主题的辨识度.
设主题-词语分配的后验概率分布为phi, phi(wi, k)表示词语wi在主题k中出现的概率, N(phi)表示后验概率推导中得到的主题数目,
$ C({w_i}, k) = \left\{ {\begin{array}{*{20}{l}} {phi({w_i}, k)*\log \frac{{N(phi)}}{{{N_{{w_i}}}(phi)}}, {\rm{ if }}\log (N(phi)/{N_{{w_i}}}(phi)) \ge \eta }\\ {\sigma , {\rm{ else}}} \end{array}} \right. $ | (7) |
其中, η表示词语对主题的代表性阈值, σ表示主题中词语的概率均值.当词语wi对主题的代表性不强, 即
对照文档、主题、词语与餐厅、菜肴、顾客之间的映射关系, 将文档的领域隶属度对应成餐厅的菜肴风格, 用于在餐桌分配菜肴时考虑其所在餐厅的菜肴风格; 将词语与主题的语义相关度对应成顾客之间对菜肴类别要求的一致程度, 目的是将当前待分配顾客分配在符合其菜肴类别要求的餐桌中.根据餐厅的菜肴风格和顾客之间对菜肴类别要求的一致程度, 改进CRF分配过程, 如图 1所示.
对于图 1, 在顾客-餐桌层CRP(Chinese restaurant process)中, 根据顾客之间对菜肴类别要求的一致程度决定顾客的餐桌选择, 其中, 长方形表示餐厅, 大圆表示餐桌, 小圆、小平行四边形、小正方形表示顾客的分布参数, 不同形状代表顾客对菜肴风格要求的不同; 在餐桌-菜肴层CRP中, 结合餐厅的菜肴风格决定餐桌的菜肴选择, 其中, 大圆表示菜肴, 小圆表示餐桌, 不同背景表示不同菜肴风格的餐桌; 通过以上两层CRP结构, 构建PSP_HDP主题模型的CRF过程.
根据改进的CRF构造过程, 得到PSP_HDP主题模型中对应参数的概率分布.首先, 当新顾客分配餐桌时, 新顾客被分配到已有餐桌的概率与该餐桌中已有顾客和新顾客之间对菜肴类别要求的一致程度成正比, 被分配到新餐桌的概率与超参数α成正比, 生成第j个餐厅中第i个顾客xji就座于第j个餐厅餐桌t的分布参数θji.根据公式(6)的定义, 将第j个餐厅t餐桌中已有顾客和新顾客之间对菜肴类别要求的一致程度记为
$ {\theta _{ji}}|{\theta _{j1}}, {\theta _{j2}}, ..., {\theta _{j(i - 1)}}, \alpha , {G_0}\sim \sum\limits_{t \in {T_j}} {\frac{{A({x_{ji}}, X_j^t)}}{{\sum\limits_{t \in {T_j}} {A({x_{ji}}, X_j^t)} + \alpha }}{\delta _{\varphi _j^t}} + \frac{\alpha }{{\sum\limits_{t \in {T_j}} {A({x_{ji}}, X_j^t)} + \alpha }}{G_0}} $ | (8) |
因此, 新顾客可以选择与自己的菜肴类别要求一致程度较高的餐桌就座, 即θji对应
如果新顾客选择新餐桌就座, 则需要为新餐桌分配菜肴.按照餐桌-菜肴的分配原则, 新餐桌分配已有菜肴的概率与相同菜肴风格的餐厅中已有菜肴的供应数成正比, 分配到新菜肴的概率与超参数γ成正比.结合公式(5)的文档领域隶属度定义和餐桌-菜肴分配原则, 计算与餐厅j的菜肴风格相同的所有餐厅中供应菜肴k的餐桌数
$ A_j^k = \sum\limits_{j' \ne j, t \in {T_j}, t' \in {T_{j'}}\atop \scriptstyle{\rm{s}}{\rm{.t}}{\rm{. }}{k_{jt}} = k \wedge {k_{j't'}} = k} {I\left( {\mathop {\arg \max }\limits_{\rho \in \mathit\Omega } (sim({d_{j'}}, {d_\rho })) = \mathop {\arg \max }\limits_{\rho \in \mathit\Omega } (sim({d_j}, {d_\rho }))} \right)} $ | (9) |
结合
$ \varphi _j^t|\varphi _1^1, ..., \varphi _1^t, \varphi _2^1, ..., \varphi _2^t, ..., \varphi _j^1, ..., \varphi _j^{t - 1}, \gamma , H\sim \sum\limits_{k \in K} {\frac{{A_j^k}}{{\sum\limits_{k \in K} {A_j^k} + \gamma }}{\delta _{{\phi ^k}}}} + \frac{\gamma }{{\sum\limits_{k \in K} {A_j^k} + \gamma }}H $ | (10) |
根据顾客-餐桌分配、餐桌-菜肴分配的结果, 生成菜肴-顾客的概率分布.因此, 结合菜肴-顾客的概率分布和顾客在不同菜肴中的出现情况, 计算顾客对菜肴的专一程度, 形成PSP_HDP主题模型.在财经文本主题分析中, 顾客-餐桌分配过程对应词语的参数概率分布, 餐桌-菜肴分配过程对应文档-主题概率分布, 用公式(8)和公式(10)改进经济要素词的抽取和经济主题的生成.顾客对菜肴的专一程度对应词语对主题的贡献度, 用公式(7)更新词语在主题中的概率取值, 以便抽取能较好地代表经济主题的、中低频的领域主题专用词语.
2.3 模型采样已知文档词语和主题的先验分布, 基于改进的CRF分配过程, 完善模型参数Gibbs采样过程, 生成模型参数的后验概率分布.参照Whye等人[16]的采样策略, 不直接对θji和
(1) 计算变量xji和xjt的条件概率
在采样索引变量tji和
$ f_{^k}^{ - {x_{ji}}}({x_{ji}}) = \frac{{\int {f({x_{ji}}|{\phi ^k})\prod\limits_{j'i' \ne ji, {z_{j'i'}} = k} {f({x_{j'i'}}|{\phi ^k})h({\phi ^k}){\rm{d}}{\phi ^k}} } }}{{\int {\prod\limits_{j'i' \ne ji, {z_{j'i'}} = k} {f({x_{j'i'}}|{\phi ^k})h({\phi ^k}){\rm{d}}{\phi ^k}} } }} $ | (11) |
这里, 将除某个变量以外的剩余变量部分通过上标中的减号(-)表示.
根据基分布函数H和主题-词语分布函数F的共轭特性, 化简公式(11)得公式(12):
$ f_{^k}^{ - {x_{ji}}}({x_{ji}}) = \left\{ {\begin{array}{*{20}{l}} {\frac{{n\_kv[v]}}{{|{X^k}|}}, {\rm{ }}k \in K}\\ {\frac{1}{{|X|}}, {\rm{ }}k = {k_{new}}} \end{array}} \right. $ | (12) |
其中, X表示所有词语集合, Xk表示主题k的词语集合, v是采样过程中词语xji对应的索引变量, n_kv[v]表示主题k中索引值为v的词语数.
类似地, 给定主题k以及词语所在分组以外的其他所有词语, 定义第j个文档中t组词语集合
$ f_{^k}^{ - X_j^t}(X_j^t) = \left\{ {\begin{array}{*{20}{l}} {\frac{{\Gamma (|{X^k}|)}}{{\Gamma (|{X^k}| + |X_j^t|)}}\frac{{\prod\limits_v {\Gamma (n\_kv[v] + n\_jtv[v])} }}{{\prod\limits_v {\Gamma (n\_kv[v])} }}, {\rm{ }}k \in K}\\ {\frac{{\Gamma (|X|\beta )}}{{\Gamma (|X|\beta + |X_j^t|)}}\frac{{\prod\limits_v {\Gamma (\beta + n\_jtv[v])} }}{{\prod\limits_v {\Gamma (\beta )} }}, {\rm{ }}k = {k_{new}}} \end{array}} \right. $ | (13) |
其中, Xk表示主题k的词语集合, n_jtv[v], n_kv[v]分别表示词语集合
(2) 采样t
索引变量tji对应参数θji, tji的后验概率由tji的先验概率乘以xji的条件概率得到.当顾客选择已有餐桌时, tji的先验概率由
$ p({x_{ji}}|{t_{ji}} = {t_{new}}, {t^{ - ji}}, k) = \sum\limits_{k \in K} {\frac{{A_j^k}}{{\sum\limits_{k \in K} {A_j^k} + \gamma }}f_{^{k_j^t}}^{ - {x_{ji}}}({x_{ji}})} + \frac{\gamma }{{\sum\limits_{k \in K} {A_j^k} + \gamma }}f_{^{{k_{new}}}}^{ - {x_{ji}}}({x_{ji}}) $ | (14) |
其中,
综上, tji的后验概率表示如公式(15)所示:
$ p({t_{ji}} = t|{t^{ - ji}}, k, x) \propto \left\{ {\begin{array}{*{20}{l}} {A({x_{ji}}, X_{_j}^t)f_{^{k_j^t}}^{ - {x_{ji}}}({x_{ji}}), {\rm{ }}{t_{ji}} \in {T_j}}\\ {\alpha p({x_{ji}}|{t_{ji}} = {t_{new}}, {t^{ - ji}}, k), {\rm{ }}{t_{ji}} = {t_{new}}} \end{array}} \right. $ | (15) |
如果顾客选择新的餐桌就坐, 需要继续为新的餐桌分配菜肴
$ p(k_j^{{t_{new}}} = k|t, k_j^{ - {t_{new}}}) \propto \left\{ {\begin{array}{*{20}{l}} {A_j^kf_k^{ - {x_{ji}}}({x_{ji}}), {\rm{ }}k \in K}\\ {\gamma f_{{k_{new}}}^{ - {x_{ji}}}({x_{ji}}), {\rm{ }}k = {k_{new}}} \end{array}} \right. $ | (16) |
因为在顾客分配餐桌及餐桌分配菜肴的采样过程中, tji的更新将导致一些餐桌的顾客数变为0, 导致一些餐桌变成空桌, 因此采样过程中需要更新所有已分配顾客的餐桌信息.类似地, tji的更新也会导致一些菜肴没有被分配, 导致一些菜肴需要下架, 因此采样过程中需要更新所有已分配餐桌的菜肴信息.
(3) 采样k
由于tji的更新会影响菜肴的分配信息, 采样k时, 结合单张餐桌顾客Xjt的条件概率, 计算菜肴分配参数kjt的后验概率.索引变量kjt对应参数
$ p(k_j^t = k|t, k_j^{ - t}) \propto \left\{ {\begin{array}{*{20}{l}} {A_j^kf_k^{ - X_j^t}(X_j^t), {\rm{ }}k \in K}\\ {\gamma f_{{k_{new}}}^{ - X_j^t}(X_j^t), {\rm{ }}k = {k_{new}}} \end{array}} \right. $ | (17) |
由于媒体微博的发布方具有一定的权威性和代表性, 相较于个人微博更加正式、可信度更高, 更利于验证模型效果, 因此本文选择媒体发布的财经类微博文本为实验数据.数据集包括2012年9月~2018年8月财经网的微博文本, 共计92 747篇文档.在利用主题模型提取经济要素词之前, 需要进行数据预处理.
● 首先采用百度词法分析(http://ai.baidu.com/tech/nlp_basic/lexical)对微博文档实现分词以及词性标注, 并将文档中出现次数低于10或高于7 000的词语删除; 然后, 由于本文是挖掘经济要素词, 因此仅保留了词性为名词(含普通名词、动名词和专有名词)的词语; 最后, 经预处理后微博文本数据集的详细特征描述见表 1.其中, 不同的词语总数量为267 722个, 不同的名词总数量为95 213个(含不同的普通名词47 185个、不同的动名词12 574个和不同的专有名词35 454个);
● 根据刘涛雄等人[2]给出了85个代表性词语, 我们通过词语间点互信息(point mutual information, 简称PMI)扩充该代表性词语集, 构成经济领域类别的代表性词语集合, 扩充后的代表性词语集共有1 447个词语.
本文将HDP模型和改进的HDP模型中的超参数γ, α和β分别设置为0.01, 1.50和0.50.利用词语之间的语义相似性可计算待分配词语与当前主题中词语的语义相似性, 可用于分析待分配词语与当前主题的语义相关度, 通过词语与主题的语义相关度改进主题-词语的分配过程.过高的语义相似性阈值将导致主题中的词语大部分是语义相近词语, 使得反映主题的词语不够丰富; 过低的语义相似性阈值将导致主题中的词语太宽泛, 使得经济领域的主题内涵不明确.经过调试, 本文将词语之间的语义相似性阈值ξ设置为0.3.
词语对主题的贡献度反映了词语对主题的代表性, 需要考虑词语在所有主题中的出现情况, 本文用参数η表示词语对主题的代表性阈值; 如果词语在大部分主题中均出现, 说明该词语对主题的代表性不强, 即词语的逆主题频率越低, 词语的主题代表性越弱; 结合主题-词语后验概率分布phi, 把在20%以上的主题中出现的词语定义为通用词语, 设置词语在主题中的出现频率阈值为0.2, 结合主题数目计算该类词语的逆主题频率值约为0.6, 将其设置为参数η的取值; 因此, 本文将词语的逆主题频率低于0.6的词语定义为通用词语.参数σ表示通用词语对主题的贡献度, 一般通用词语比领域主题专用词语在主题中的概率值高, 为了凸显领域主题专用词语在主题中的概率值, 本文将σ值设置为当前主题中词语的概率均值.
PSP_HDP主题模型通过文档的领域隶属度、词语与主题的语义相关度和词语对主题的贡献度, 改进文档-主题分配过程和主题-词语分配过程.为了对比不同因素对抽取经济要素词和构建非结构化指标体系的影响, 本文将考虑了文档领域隶属度的HDP模型记为P_HDP, 将在P_HDP模型基础上再考虑词语与主题语义相关度的HDP模型记为PS_HDP, 将在PS_HDP模型基础上再考虑词语对主题贡献度的HDP模型记为PSP_HDP.
3.2 实验结果本文将从两个方面比较模型的主题挖掘效果:首先, 按照主题模型常用的评价标准, 包括主题多样性(KL距离)、内容困惑度和模型复杂度3个评价指标, 比较不同主题模型的效果; 然后, 从模型抽取经济要素词和构建非结构化经济指标体系的效果评价主题模型.
3.2.1 主题模型的评价对于主题中未出现的词语, 标准的KL距离和内容困惑度均采用给定的默认值参与计算.然而, 在HDP主题模型中考虑了文档的领域隶属度、词语与主题的语义相关度和词语对主题的贡献度之后, 主题间的重复词语会变得越来越少, 因此采用系统设定的默认值计算主题之间的KL距离和主题内容困惑度时, 词语在主题中的概率取值大部分来源于默认值, 导致两个主题的概率分布具有较大相似性, 进而使得主题之间的KL距离越来越小、主题内容困惑度越来越大, 也就是说, KL距离和内容困惑度已经无法真实地评估模型的优劣了; 换句话说, 对于主题中未出现的词语, 系统分配的默认值无法真实地描述词语在主题中的概率分布, 导致与经济领域主题无关的词语被分配较高的概率, 混淆了经济要素词对经济领域主题的辨识度和区分度, 无法真实地反映经济领域主题之间的差异性.因此, 在计算以上2个评价指标时, 本文仅考虑在主题中出现的词语.
(1) 主题多样性
通过主题之间的KL距离(kullback-leibler divergence)评价主题模型的主题多样性, 当KL距离为0时, 表示两个主题是相同的; 当KL距离为1时, 表示两个主题是完全不相同的.由于实验中仅考虑主题中出现的词语, 原始的KL距离计算公式可改写成公式(18):
$ KL({W_{{k_1}}}, {W_{{k_2}}}) = \sum\limits_{{x_{ji}} \in {W_{{k_1}}} \cap {W_{{k_2}}}} {phi({x_{ji}}|{W_{{k_1}}})\log \frac{{phi({x_{ji}}|{W_{{k_1}}})}}{{phi({x_{ji}}|{W_{{k_2}}})}}} $ | (18) |
其中, Wk1和Wk2分别表示主题k1和k2的词语集合, phi表示主题词语概率分布.
由于PSP_HDP模型生成的主题中已经剔除了大部分的重复词语, 使得任意两个主题中词语集合的交集均接近空集, 继而导致任意两个主题之间的KL距离都接近0, 此时的KL距离已无法真实反映主题之间的区别.因此, 只针对HDP, P_HDP和PS_HDP模型对比主题之间的KL距离, 结果如图 2所示.
图 2的横、纵坐标均为模型生成的主题数(主题编号), 主题之间的KL距离用灰度的深浅表示, 灰度越深, 表示KL距离越近、主题之间的差异越小.对比发现:在生成的主题数方面, P_HDP和PS_HDP模型相较于HDP模型更符合已有领域分类标准要求, 说明考虑了文档的领域隶属度对文档集的主题生成有指导作用; 在主题的差异性方面, PS_HDP模型的KL距离分布比前两者更均匀和明确, 说明考虑了文档的领域隶属度和词语与主题的语义相关度, 可以提高主题词语的差别性以及主题之间的差异性.
(2) 内容困惑度
内容困惑度可以度量主题模型的效果, 内容困惑度越低, 表示主题模型的效果越好.计算词语xji在文档中的概率需要结合文档-主题概率分布和主题-词语概率分布, 由于实验中只考虑主题中出现的词语, 所以修改内容困惑度计算公式, 如公式(19)所示:
$ perplexity(X) = \exp \left( { - \frac{1}{{|J|}}\sum\limits_{j \in J} {\sum\limits_{{x_{ji}} \in {X_j}, {x_{ji}} \in {W_k}} {phi({x_{ji}}, {W_k})theta({W_k}, j)} } } \right) $ | (19) |
其中, J表示所有餐厅的集合, Xj表示第j个餐厅中的顾客集合, Wk表示主题k的词语集合, phi表示主题-词语概率分布, theta表示文档-主题概率分布.
HDP, P_HDP, PS_HDP和PSP_HDP主题模型在迭代过程中的内容困惑度变化情况如图 3所示.
从图 3可看出, P_HDP模型的内容困惑度收敛值最大, HDP模型的内容困惑度在迭代60次附近时达到了收敛值.虽然PS_HDP, PSP_HDP和HDP模型的内容困惑度收敛值相差不大, 但是PS_HDP模型在迭代38次时可达到与HDP内容困惑度相近的收敛值, 而PSP_HDP模型则在迭代30次时就达到了相似的效果, 不仅提高了主题模型的分析效率, 而且主题词和主题的提取效果比HDP更好, 这点在分析非结构化经济指标体系构建和经济要素词抽取的效果时再具体阐述.
从图 3还可看出, 仅考虑文档的领域隶属度, 并不能有效地改善模型的内容困惑度, 反而减缓了模型内容困惑度的下降速度.分析原因, 主要是由于不同领域的文档中存在部分共有词语, 这些共有词语的语义信息不明确, 降低了主题之间的辨识度, 提高了模型的内容困惑度.另外, 增加文档的领域隶属度和词语与主题的语义相关度, 不仅明确了文档的领域信息, 而且还明确了词语的语义信息, 对提高主题之间的区分度有促进作用, 起到了降低模型内容困惑度和加快迭代收敛速度的效果; 继续考虑词语对主题的贡献度, 则可进一步识别不同主题之间词语的差别性, 提高主题辨识度、降低模型内容困惑度, 并进一步加快迭代收敛速度.
(3) 模型复杂度
模型复杂度的计算方法参考Kim[17]和Ahmed[20]等人提出的方法, 定义为模型主题个数与所有文档中不同主题个数之和, 计算公式如公式(20)所示:
$ complexity = |K| + \sum\limits_{j \in J} {\sum\limits_{k \in K} {I\left( {\left( {\sum\limits_{t \in {T_j}} {I(k_j^t = k)} } \right) > 0} \right)} } $ | (20) |
其中, J表示所有餐厅的集合; K表示所有餐桌已供应的菜肴集合, 即模型主题集合; Tj表示第j个餐厅中已分配顾客的餐桌集合; kjt表示第j个餐厅t餐桌分配菜肴的索引值.
在评价主题模型效果时, 当主题模型的内容困惑度差别不大时, 如果模型复杂度越低, 则主题模型就越有效.4个主题模型的模型复杂度如图 4所示.
从图 4可以看出, 随着迭代次数的增加, 4个模型的模型复杂度都在变大, 并且HDP模型的模型复杂度的增大速度明显快于P_HDP, PS_HDP和PSP_HDP模型.PSP_HDP模型的模型复杂度最低, 且变化范围不大, 基本趋于平稳状态.在分析模型的内容困惑度时, PS_HDP, PSP_HDP和HDP模型的内容困惑度差别不大; 结合模型复杂度发现, P_HDP, PS_HDP和PSP_HDP模型的模型复杂度明显低于HDP模型, 说明考虑文档的领域隶属度、词语与主题的语义相关度和词语对主题的贡献度, 可以改善主题模型的整体性能.
3.2.2 抽取经济要素词和构建非结构化经济指标体系的效果评价(1) 定性评价
衡量主题模型效果的另一种方法是通过对比主题模型生成的主题和主题词, 考察财经文本中非结构化经济指标体系构建和经济要素词抽取的效果.刘涛雄等人[2]以2006年~2014年的百度指数网站的百度搜索词语为参照, 根据经济领域类别人工筛选了85个代表性词语, 结果见表 2.其中, 共有12个词语是无法通过主题模型提取到的, 包括带实下划线的8个没有出现在微博文本数据集中的词语、带虚下划线的3个在微博文本数据集中出现少于10次的词语(将会在数据预处理时被删除)、带波浪下划线的1个没有被正确分词的词语.主要原因是, 经济运行发展中反映经济指标的词语发生了一些变化.本文将人工划分的经济领域类别及其筛选的代表性词语[2], 以及主题模型生成的主题和主题词, 分别对应于非结构化经济指标和经济要素词.
采用HDP主题模型共生成了13个主题, 主题之间的领域信息不明确, 并且主题之间存在大量的重复高频词语, 具体结果见附录1.P_HDP主题模型生成的主题和主题词在投资、进出口和政府财政这3个方面具有一定的代表意义, 其他领域的主题词语较为杂乱, 语义信息不明确.PS_HDP主题模型生成包括投资、进出口、消费、政府财政和人口就业这5个方面的主题, 保留每个主题的前30个词语, 结果见表 3.其中, 带下划线的词语表示人工判断明显不属于该非结构化经济指标下的经济要素词, 共76个, 在投资、进出口、消费、政府财政和人口就业这5个方面的主题中, 分别有10, 17, 15, 17和17个.本文共选用具备较强财经知识的2位博士研究生和1位教师作为判断者; 当出现不一致的判断结果时, 则由3人讨论确认判断结果.
对比表 3和附录1的结果, PS_HDP主题模型生成的经济要素词对主题的解释能力更强、非结构化经济指标的内涵相对更清晰.对比表 3和表 2, 在非结构化经济指标的构建方面, PS_HDP主题模型生成的非结构化经济指标和人工划分的结果比较一致.在经济要素词抽取方面, 随着时间变化, 非结构化经济指标对应的经济要素词会有一定的变化, 表 3中的词语包括表 2中的部分词语; 但是, 表 3对应的经济要素词中存在部分高频的、与经济指标不太相关的词语.
PSP_HDP模型是在PS_HDP模型的基础上, 增加了对主题具有较高代表性的中低频词语在主题中的影响作用, 抽取的经济要素词以及对应的非结构化经济指标见表 4.表中只取对应指标的前30个主题词, 其中带下划线的词语表示人工判断明显不属于该非结构化经济指标下的经济要素词, 共27个, 在投资、进出口、消费、政府财政和人口就业等5个方面的主题中分别有3, 3, 3, 11和7个.
对比表 4和表 2, 在非结构化经济指标的构建方面, PSP_HDP主题模型生成的非结构化经济指标和人工划分的结果比较一致.对比表 4和表 3中的经济要素词, 表 4中的经济要素词更加具有代表性; 对比表 4和表 2中的经济要素词, 表 4不仅包含了人工筛选的代表性词语, 还包括一些随着经济和社会发展而新产生的经济要素词.如在投资方面, 目前主要侧重于国债、ICO、MLF、艺术品、M2、快捷支付、国债期货、购汇、创业板等词语; 在进出口方面, 目前更具体地体现在汽油、成品油、芯片、水稻、高粱、棉花、钢企、矿机等; 在消费方面, 更实时地反映了当前人民群众的关注领域, 包括餐馆、大众点评、相亲、舞、酒席、面膜、奥数等; 在政府财政方面, 出现了一些与政府政策实时相关的词语, 包括消费税、营改增、竞标、营业税、招待费、投标、税种等; 在人口就业方面, 出现了一些与目前就业政策相关的、且更具体的词语, 包括养老保险、违约、五险一金、工伤、养老院、参保、年金等.
(2) 定量评价
为了定量、客观地分析主题模型抽取经济要素词和构建非结构化经济指标体系的效果, 将从表 2人工筛选的85个代表性词语集中去除12个未在微博文本数据集中出现的词语后的代表性词语集记为N, 即|N|=73;将主题模型生成的经济要素词集记为M, 将从M中人工剔除明显不属于非结构化经济指标的主题词之后的经济要素词集记为
$ R = \frac{{|M \cap N|}}{{|N|}} $ | (21) |
将
$ P = \frac{{|\bar M|}}{{|M|}} $ | (22) |
如果主题模型抽取top_n个主题词作为经济要素词, 则HDP, P_HDP, PS_HDP和PSP_HDP主题模型提取代表性词语的召回率R、抽取经济要素词的准确率P的结果分别如图 5和图 6所示.
从图 5和图 6可知, P_HDP, PS_HDP和PSP_HDP主题模型的R和P值均高于HDP主题模型, 说明改造后的HDP主题模型不仅能够较好地提取到经济领域类别中的代表性词语, 而且也能抽取到非结构化经济指标中更多的经济要素词.
如果将主题模型中非结构化经济指标对应到人工设定的经济领域类别, 分析每个非结构化经济指标的经济要素词中代表性词语的召回情况, 结果如图 7所示.由于4种模型中只有PS_HDP和PSP_HDP主题模型生成的非结构化经济指标与人工设定的经济领域类别较为一致, 因此图 7只展示这2种模型的代表性词语在不同经济领域类别中的召回情况, 图 7(a)、图 7(b)分别对应PS_HDP和PSP_HDP主题模型的结果.其中, R1~R5分别对应投资、进出口、消费、政府财政和人口就业领域的召回率情况.
从图 7可知, 总体上, 政府财政和人口就业领域的召回率明显高于其他3个领域, 主要原因是政府财政和人口就业领域中人工筛选的代表性词语较少, 导致公式(21)中的分母较小, R值整体偏大; 进出口和消费领域中代表性词语召回率整体偏低, 主要原因是经济运行发展中进出口和消费领域的关注点变化较快; PSP_HDP主题模型的代表性词语召回率, 在各个领域大部分都优于PS_HDP主题模型的结果.
通过上面的定性和定量分析可以看出, PSP_HDP主题模型在考虑了文档的领域隶属度、词语与主题的语义相关度和词语对主题的贡献度之后, 能够抽取更加全面、实时和具有代表性的经济要素词, 体现了非结构化经济指标的内涵变化, 提高了经济主题的区分度和辨识度.
另外, PS_HDP主题模型和PSP_HDP主题模型还生成了一个关于社会事件方面的主题, 其对应的前30个主题词见表 5.
分析表 5发现, 除了生成对应于人工划分的投资、进出口、消费、政府财政、人口就业这5个经济领域类别的主题之外, PS_HDP和PSP_HDP主题模型还生成了一个“社会事件”主题, 该主题与经济存在着密切关联.因为一些与人民生命财产相关的事件, 例如自然灾害、事故灾害、公共卫生事件和社会安全事件, 在给社会造成严重危害的同时, 也会直接或间接地影响经济发展.相关研究也证明了这类社会事件与经济之间的相互影响关系[32].
实验结果说明:通过PS_HDP和PSP_HDP主题模型不仅能挖掘与经济指标相关的确定性因素, 还能挖掘与经济相关的不确定性因素.
4 总结与展望不仅财经文本具有领域类别属性, 而且与经济指标相关的词语(即经济要素词)也具有领域主题差异性, 因此, 通过原始的主题模型挖掘出来的主题和主题词无法准确地反映这些领域或领域主题特性.人工构建的非结构化经济指标体系中蕴含了经济指标的领域类别划分标准和对应的代表性词语, 且同一经济领域的词语具有丰富的语义关联关系, 利用这些信息可指导HDP主题模型挖掘经济主题及其对应的经济要素词.
本文提出的PSP_HDP主题模型考虑了经济领域划分标准和对应的代表性词语, 通过文档的相似性, 计算文档的领域隶属度, 改进CRF的餐桌-菜肴分配过程, 指导文档-主题分配; 考察了词语对经济主题的描述能力, 利用词向量对词语语义信息的描述, 计算词语与主题的语义相关度, 改进CRF的顾客-餐桌分配过程, 以便将语义相近的词语尽量分配到相同或相近的主题, 提高经济主题的区分度; 考察了词语对经济主题的代表性, 根据词语对主题的贡献度, 进一步改进顾客在不同菜肴风格群体中的代表性, 以便能够抽取到有效的、中低频的领域主题专用词语, 提高经济主题的辨识度.通过改进采样方法, 实现非结构化经济指标体系的构建和经济要素词的抽取.
从实验结果中发现, 综合主题多样性、内容困惑度和模型复杂度, PSP_HDP主题模型整体性能明显优于HDP主题模型.在非结构化经济指标体系构建和经济要素词抽取方面, PSP_HDP主题模型不仅可以自动地挖掘出人工抽取的经济指标和经济要素词, 而且还能挖掘出随着经济社会发展而产生的新颖的经济要素词, 同时还能挖掘出潜在的、与经济指标相关的其他主题和主题词, 验证了模型的有效性.
下一步工作将继续分析财经文本中经济要素词的分布特点, 改进主题模型的挖掘效果, 提取更丰富的、具有代表性的、实时的经济要素词.对于新的经济主题, 需要进一步细化经济要素词的分类.本文研究主要侧重于构建经济主题的两层结构, 后续研究可构建经济主题的多层结构.
[1] |
Einav L, Levin J. Economics in the age of big data. Science, 2014, 346(6210): 715-719.
http://d.old.wanfangdata.com.cn/Periodical/pxyyj-hbjyxyxb201808026 |
[2] |
Liu TX, Xu XF.. Can Internet search behavior help to forecast the macro economy?. Economic Research, 0215, 12: 68-83(in Chinese with English abstract).
http://www.cnki.com.cn/Article/CJFDTotal-JJYJ201512016.htm |
[3] |
Moat HS, Curme C, Stanley HE, Preis T. Anticipating stock market movement with Google and Wikipedia.In:Proc. of the Int'l Conf. on NATO Science for Peace and Security Series C:Environmental Security. Springer-Verlag, 2013, 47-59.
|
[4] |
Luo P, Chen YG, Xu CH. Baidu search, risk perception and risk prediction-A perspective of behavioral finance. Finance Forum, 2018, 1: 39-51(in Chinese with English abstract).
http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=csjrlt201801004 |
[5] |
Yakovleva K. Text mining-based economic activity estimation. Russian Journal of Money and Finance, 2018, 77(4): 26-41.
http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=JAKO201524848648135 |
[6] |
Siegel M. Text mining in economics. Semantic Applications, 2018, 63-73.
http://d.old.wanfangdata.com.cn/Periodical/zgwsjj201810019 |
[7] |
Blei DM, Ng AY, Jordan MI. Latent dirichlet allocation. The Journal of Machine Learning Research, 2003, 3: 993-1022.
http://d.old.wanfangdata.com.cn/Periodical/jsjyy201306024 |
[8] |
Chen Z, Mukherjee A, Liu B, Hsu MC, Castellanos M, Ghosh R. Leveraging multi-domain prior knowledge in topic models.In:Proc. of the 23rd Int'l Joint Conf. on Artificial Intelligence, 2013, 2071-2077.
https://www.researchgate.net/publication/262396233_Leveraging_Multi-Domain_Prior_Knowledge_in_Topic_Models |
[9] |
Chen Z, Liu B. Mining topics in documents:Standing on the shoulders of big data.In:Proc. of the ACM SIGKDD Int'l Conf. on Knowledge Discovery and Data Mining, 2014, 1116-1125.
https://www.researchgate.net/publication/268037094_Mining_Topics_in_Documents_Standing_on_the_Shoulders_of_Big_Data |
[10] |
Chen ZY, Mukherjee A, Liu B. Aspect extraction with automated prior knowledge learning.In:Proc. of the Association for Computational Linguistics. Association for Computational Linguistics, 2014, 347-358.
|
[11] |
Li C, Wang H, Zhang Z, Sun AX, Ma ZY. Topic modeling for short texts with auxiliary word embeddings.In:Proc. of Int'l ACM SIGIR Conf. on Research & Development in Information Retrieval. ACM, 2016, 165-174.
https://www.researchgate.net/publication/305081381_Topic_Modeling_for_Short_Texts_with_Auxiliary_Word_Embeddings |
[12] |
Liu Y, Liu Z, Chua TS, Sun M. Topical word embeddings.In:Proc. of the 29th AAAI Conf. on Artificial Intelligence. AAAI, 2015, 2418-2424.
|
[13] |
Das A, Kannan A. Discovering topical aspects in Microblogs.In:Proc. of the 25th Conf. on Computational Linguistics. Association for Computational Linguistics, 2014, 860-871.
|
[14] |
Zhang CY, Shun JL, Ding YQ. Topic mining for microblog based on MB_LDA model. Journal of Computer Research and Development, 2011, 48(10): 1795-1802(in Chinese with English abstract).
http://d.old.wanfangdata.com.cn/Periodical/jsjyjyfz201110001 |
[15] |
Pang XW, Wan BS, Wang P. Micro-Blog's text classification based on MRT_LDA. Computer Science, 2017, 44(8): 236-241(in Chinese with English abstract).
http://d.old.wanfangdata.com.cn/Periodical/jsjkx201708040 |
[16] |
Whye TY, Jordan MI, Beal MJ, Blei DM. Hierarchical dirichlet processes. Journal of the American Statistical Association, 2006, 101: 1566-1581.
[doi:10.1198/016214506000000302] |
[17] |
Kim D, Oh A. Accounting for data dependencies within a hierarchical dirichlet process mixture model.In:Proc. of the ACM Int'l Conf. on Information and Knowledge Management. ACM, 2011, 873-878.
https://www.researchgate.net/publication/221613369_Accounting_for_data_dependencies_within_a_hierarchical_dirichlet_process_mixture_model |
[18] |
Li C, Rana S, Phung D, Phung D, Venkatesh S. Data clustering using side information dependent Chinese restaurant processes. Knowledge and Information Systems, 2016, 47(2): 463-488.
[doi:10.1007/s10115-015-0834-7] |
[19] |
Blei DM, Frazier PI. Distance dependent Chinese restaurant processes. Journal of Machine Learning Research, 2012, 12(1): 2461-2488.
http://cn.bing.com/academic/profile?id=6073e312cb1a00611f10b85000373502&encoded=0&v=paper_preview&mkt=zh-cn |
[20] |
Ahmed A, Xing EP. Timeline:A dynamic hierarchical dirichlet process model for recovering birth/death and evolution of topics in text stream.In:Proc. of the 26th Conf. on Uncertainty in Artificial Intelligence. Association for Uncertainty in Artificial Intelligence, 2010, 20-29.
http://d.old.wanfangdata.com.cn/Periodical/swhx200102001 |
[21] |
Ma T, Qu D, Ma R, Feng W, Li K. Online topic evolution modeling based on hierarchical dirichlet process.In:Proc. of the IEEE 1st Int'l Conf. on Data Science in Cyberspace. IEEE, 2016, 400-405.
https://www.researchgate.net/publication/314195334_Online_Topic_Evolution_Modeling_Based_on_Hierarchical_Dirichlet_Process |
[22] |
Zhang J, Song Y, Zhang C, Liu SX. Evolutionary hierarchical dirichlet processes for multiple correlated time-varying corpora.In:Proc. of the ACM SIGKDD Int'l Conf. on Knowledge Discovery and Data Mining. ACM, 2010, 1079-1088.
|
[23] |
Wang P, Zhang P, Zhou C, Li Z, Yang H. Hierarchical evolving dirichlet processes for modeling nonlinear evolutionary traces in temporal data. Data Mining & Knowledge Discovery, 2017, 31(1): 32-64.
http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=b4433cdc299004f1f653456d8457ac9c |
[24] |
Liu SP, Yin J, Ouyang J, Huang Y, Yang XY. Topic mining from microblogs based on MB_HDP model. Chinese Journal of Computers, 2015, 38(7): 1408-1419(in Chinese with English abstract).
http://d.old.wanfangdata.com.cn/Periodical/jsjxb201507008 |
[25] |
Qian J, Gong Y, Zhang Q, Huang XJ. Hierarchical dirichlet processes with social influence.In:Proc. of the National CCF Conf.on Natural Language Processing and Chinese Computing.. Springer-Verlag, 2017, 490-502.
|
[26] |
Yang M, Hsu WH. HDPauthor:A new hybrid author-topic model using latent dirichlet allocation and hierarchical dirichlet processes.In:Proc. of the 25th Int'l Conf.Companion on World Wide Web. ACM, 2016, 619-624.
https://www.researchgate.net/publication/312633654_HDPauthor_A_New_Hybrid_Author-Topic_Model_using_Latent_Dirichlet_Allocation_and_Hierarchical_Dirichlet_Processes |
[27] |
Li W, Yin J, Chen HC. Supervised topic modeling using hierarchical dirichlet process-based inverse regression:Experiments on e-commerce applications.IEEE Trans. on Knowledge and Data Engineering, 2018, 30(6): 1192-1205.
[doi:10.1109/TKDE.2017.2786727] |
[28] |
Yang Q. Stock returns and real growth:A Bayesian nonparametric approach. Social Science Electronic Publishing, 2018, 3: 1-38.
http://cn.bing.com/academic/profile?id=17cb38aa752ef701d4d68b43a27d348e&encoded=0&v=paper_preview&mkt=zh-cn |
[29] |
Blei DM, Griffiths TL, Jordan MI, Tenenbaum JB. Hierarchical topic models and the nested Chinese restaurant process.In:Proc. of the Int'l Conf. on Neural Information Processing Systems. MIT, 2003, 17-24.
https://www.researchgate.net/publication/2873720_Hierarchical_Topic_Models_and_the_Nested_Chinese_Restaurant_Process |
[30] |
Chen J, Zhu J, Lu J, Liu SX. Scalable inference for nested Chinese restaurant process topic models.In:Proc. of the ACM SIGKDD Int'l Conf. on Knowledge Discovery and Data Mining. ACM, 2017, 1-9.
|
[31] |
Zhou JY, Wang FY, Zeng DJ. Hierarchical Dirichlet process and their application:A survey. Acta Automatica Sinica, 2011, 37(4): 389-407(in Chinese with English abstract).
http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=zdhxb201104001 |
[32] |
Farhi E, Gabaix X. Editor's choice:Rare disasters and exchange rates. Quarterly Journal of Economics, 2016, 131(1): 1-52.
https://www.researchgate.net/publication/228267552_Rare_Disasters_and_Exchange_Rates?ev=auth_pub |
[2] |
刘涛雄, 徐晓飞. 互联网搜索行为能帮助我们预测宏观经济吗?. 经济研究, 0215, 12: 68-83.
http://www.cnki.com.cn/Article/CJFDTotal-JJYJ201512016.htm |
[4] |
罗鹏, 陈义国, 许传华. 百度搜索、风险感知与金融风险预测——基于行为金融学的视角. 金融论坛, 2018, 1: 39-51.
http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=csjrlt201801004 |
[14] |
张晨逸, 孙建伶, 丁轶群. 基于MB-LDA模型的微博主题挖掘. 计算机研究与发展, 2011, 48(10): 1795-1802.
http://d.old.wanfangdata.com.cn/Periodical/jsjyjyfz201110001 |
[15] |
庞雄文, 万本帅, 王盼. 基于MRT-LDA模型的微博文本分类. 计算机科学, 2017, 44(8): 236-241.
http://d.old.wanfangdata.com.cn/Periodical/jsjkx201708040 |
[24] |
刘少鹏, 印鉴, 欧阳佳, 黄云, 杨晓颖. 基于MB-HDP模型的微博主题挖掘. 计算机学报, 2015, 38(7): 1408-1419.
http://d.old.wanfangdata.com.cn/Periodical/jsjxb201507008 |
[31] |
周建英, 王飞跃, 曾大军. 分层Dirichlet过程及其应用综述. 自动化学报, 2011, 37(4): 389-407.
http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=zdhxb201104001 |