主页期刊介绍编委会编辑部服务介绍道德声明在线审稿编委办公编辑办公English
     
在线出版
各期目录
纸质出版
分辑系列
论文检索
论文排行
综述文章
专刊文章
美文分享
各期封面
E-mail Alerts
RSS
旧版入口
中国科学院软件研究所
  
投稿指南 问题解答 下载区 收费标准 在线投稿
张奕韬,万常选,刘喜平,江腾蛟,刘德喜,廖国琼.基于PSP_HDP主题模型的非结构化经济指标挖掘.软件学报,2020,31(3):0
基于PSP_HDP主题模型的非结构化经济指标挖掘
Mining Unstructured Economic Indicators Based on PSP_HDP Topic Model
投稿时间:2019-07-05  修订日期:2019-09-10
DOI:10.13328/j.cnki.jos.005898
中文关键词:  HDP主题模型  经济领域分类标准  语义关系  非结构化经济指标  经济要素词
英文关键词:HDP topic model  economic taxonomy  semantic relevance  unstructured economic indicators  economic factors
基金项目:国家自然科学基金(61972184,61562032,61662027,61762042);江西省自然科学基金重大项目(20152ACB20003)
作者单位E-mail
张奕韬 江西财经大学 信息管理学院, 江西 南昌 330013
华东交通大学 软件学院, 江西 南昌 330013
数据与知识工程江西省高校重点实验室(江西财经大学), 江西 南昌 330013 
 
万常选 江西财经大学 信息管理学院, 江西 南昌 330013
数据与知识工程江西省高校重点实验室(江西财经大学), 江西 南昌 330013 
wanchangxuan@263.net 
刘喜平 江西财经大学 信息管理学院, 江西 南昌 330013
数据与知识工程江西省高校重点实验室(江西财经大学), 江西 南昌 330013 
 
江腾蛟 江西财经大学 信息管理学院, 江西 南昌 330013
数据与知识工程江西省高校重点实验室(江西财经大学), 江西 南昌 330013 
 
刘德喜 江西财经大学 信息管理学院, 江西 南昌 330013
数据与知识工程江西省高校重点实验室(江西财经大学), 江西 南昌 330013 
 
廖国琼 江西财经大学 信息管理学院, 江西 南昌 330013
数据与知识工程江西省高校重点实验室(江西财经大学), 江西 南昌 330013 
 
摘要点击次数: 45
全文下载次数: 12
中文摘要:
      随着经济活动数据的不断丰富,互联网平台上产生了大量的财经文本,其中蕴含了经济领域发展状况的影响因素.如何从这些财经文本中有效地挖掘与经济有关的经济要素,是实现非结构化数据在经济研究中应用的关键.根据人工构建非结构化经济指标的局限性,以及主题模型在非结构化经济指标挖掘中存在的问题,结合已有经济领域分类标准、词语之间的语义关系和词语对主题的代表性,定义了文档的领域隶属度、词语与主题的语义相关度和词语对主题的贡献度,用于分别描述CRF(Chinese Restaurant Franchise)中餐厅的菜肴风格、顾客之间对菜肴要求的一致程度和顾客对菜肴的专一程度;结合文档领域属性、词语语义和词语在主题中的出现情况,提出了PSP_HDP(combining documents’ domain Properties,word Semantics and words’ Presences in topics with HDP)主题模型.由于PSP_HDP主题模型改进了文档-主题和主题-词语的分配过程,从而提高了经济主题的区分度和辨识度,可以更有效地挖掘与经济有关的经济主题和经济要素词.实验结果表明,本文提出的PSP_HDP主题模型,不仅在主题多样性、内容困惑度和模型复杂度等评价指标方面的整体性能优于HDP主题模型,而且在非结构化经济指标挖掘和经济要素词抽取方面能够得到区分度更好、辨识度更高的结果.
英文摘要:
      With the increasing enrichment of economic activity data, a large number of financial texts have emerged on Internet, which contain the influence factors of the economic development. How to mine these economic factors from these texts is the key to conduct economic analysis based on unstructured data. Due to the limitation of manual selection of economic indicators, and the inaccuracy of modelling economic indicators in unstructured texts, the CRF (Chinese Restaurant Franchise)allocation processes in HDP topic model is extended to a more efficient pattern. In order to describe the dish style in a restaurant, we make use of the existing economic taxonomies to determine the domain membership of a document. We exploit the semantic similarity between words to define the semantic relevance between words and topics, which reflect the similarity of customers' requirements for dishes. For each word, we employ its representativeness of each topic to evaluate its contribution to the topic, which explain the loyalty of a customer to each dish. By combining documents' domain properties, word semantics and words' presence in topics with HDP topic model, a novel model, PSP_HDP topic model, is proposed. As the PSP_HDP topic model improves documents-topics and topics-words allocation processes, it increases the accuracy of identifying economic topics and distinctiveness of the topics, which leads to a more effictive mining of economic topics and economic factors. Experimental results show that the proposed model not only achieves a better performance in terms of topic diversity, topic perplexity and topic complexity, but also is effective in finding more cohesive unstructured economic indicators and economic factors.
HTML  下载PDF全文  查看/发表评论  下载PDF阅读器
 

京公网安备 11040202500064号

主办单位:中国科学院软件研究所 中国计算机学会 京ICP备05046678号-4
编辑部电话:+86-10-62562563 E-mail: jos@iscas.ac.cn
Copyright 中国科学院软件研究所《软件学报》版权所有 All Rights Reserved
本刊全文数据库版权所有,未经许可,不得转载,本刊保留追究法律责任的权利