MathJax.Hub.Config({tex2jax: {inlineMath: [['$','$'], ['\\(','\\)']]}}); function MyAutoRun() {    var topp=$(window).height()/2; if($(window).height()>450){ jQuery(".outline_switch_td").css({ position : "fixed", top:topp+"px" }); }  }    window.onload=MyAutoRun; $(window).resize(function(){ var bodyw=$win.width(); var _leftPaneInner_width = jQuery(".rich_html_content #leftPaneInner").width(); var _main_article_body = jQuery(".rich_html_content #main_article_body").width(); var rightw=bodyw-_leftPaneInner_width-_main_article_body-25;   var topp=$(window).height()/2; if(rightw<0||$(window).height()<455){ $("#nav-article-page").hide(); $(".outline_switch_td").hide(); }else{ $("#nav-article-page").show(); $(".outline_switch_td").show(); var topp=$(window).height()/2; jQuery(".outline_switch_td").css({ position : "fixed", top:topp+"px" }); } }); 中文公众事件信息熵计算方法
  软件学报  2016, Vol. 27 Issue (11): 2855-2869   PDF    
中文公众事件信息熵计算方法
靳锐, 张宏莉, 张玥, 王星     
哈尔滨工业大学 计算机科学与技术学院, 黑龙江 哈尔滨 150001
摘要: 随着中文社交网络的发展(特别是微博的兴起),互联网中文公众事件越来越深刻地影响现实社会的生产和生活.由于缺乏有效的技术手段,信息处理的效率受到了限制.提出了一种公众事件信息熵的计算方法,其基本思想是:首先,对公众事件信息内容进行建模;然后,以香农信息论为理论基础,对公众事件的多维随机变量信息熵进行计算.这为互联网公众事件的定量化分析提供了一个重要的技术指标,为进一步的研究工作打下基础.
关键词: 社会计算     公众事件     香农信息论     信息熵     最大熵理论    
Calculation Method of Chinese Public Event Information Entropy
JIN Rui, ZHANG Hong-Li, ZHANG Yue, WANG Xing     
School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China
Foundation item: National Program on Key Basic Research Project of China (973) (2013CB329602); National Natural Science Foundation of China (61202457, 61472108, 61402149)
Abstract: With the proliferation of the Chinese social network (especially the rise of weibo), the productivity and lifestyle of the country's society is more and more profoundly influenced by the Chinese internet public events. Due to the lack of the effective technical means, the efficiency of information processing is limited. This paper proposes a public event information entropy calculation method. First, a mathematical modeling of event information content is built. Then, multidimensional random variable information entropy of the public events is calculated based on Shannon information theory. Furthermore, a new technical index of quantitative analysis to the internet public events is put forward, laying out a foundation for further research work.
Key words: social computing     public event     Shannon information theory     information entropy     principle of maximum entropy    

随着互联网技术的发展, Web 2. 0的网络用户信息发布技术引发了社交网络的蓬勃发展, 社交网络时代已经到来. Web 2. 0则更注重用户的交互作用, 用户既是网站内容的浏览者, 也是网站内容的制造者. 基于此, 在国际互联网产业领域, 以facebook和twitter为代表的新型社交网站成为了社交网络时代成功的典范, 以人人网、新浪微博为代表的中文社交网络取得巨大成功, 社交网络深入到社会各个角落, 深刻地影响着国家的政治、经济、文化、社会活动组织等领域.

技术革命造成了社会生产生活方式的变革, 在社交网络的快速信息交互中, 非洲大陆与阿拉伯世界经历了一系列的剧烈社会变革[1];在中国, SNS、微博等社交网站的发展如火如荼, 各种社会信息在社交网络中快速流转, 互联网公众意见[2-4]得到了快速的表达与形成, 担当起前所未有的社会角色, 发挥着举足轻重的社会作用. 近两年, 中国国内的各类公众事件频频爆发, 对互联网舆情监控提出了新的要求. 如何准确、快速地获取和分析相应的事件信息, 成为中文社交网络信息处理领域的一个新的挑战.

互联网公众意见研究, 又称为舆情分析, 是当前互联网智能信息处理的研究热点之一[5-7]. 这项技术研究可应用于国家政策的实施预测、政治选举结果的预测与分析[5]、产品的市场销售分析以及个人名誉与发展等. 近年来, 该领域开始受到国内外研究人员的重视, 也逐渐受到各个国家政府、经济实体乃至个人用户的重视.

如何衡量一件公众事件的重要性、计算其影响力或涉及事件部门的事态严重程度, 目前还没有一个有效的衡量方法, 无法对公众意见事件的内容信息进行定量化计算. 仅仅依靠网民的参与程度来衡量事件的重要程度是不够的, 这不但不能反映事件的实质内容, 而且具有明显的滞后性, 存在易被误导的弊端.

随着社交网络的发展, 社会计算[7, 8]逐渐引起相关的研究人员的重视. 2007年底, 在哈佛大学举办了计算社会学研讨会;2008年4月, 美国军方在亚利桑那州立大学举办了社会计算、行为建模和预测研讨会. 在此基础上, 2009年, Lazer等人[9]在《Science》上提出了计算社会学的概念, 并指出, 网络上的大量信息, 如博客、论坛、聊天、消费记录、电子邮件等, 都是对现实社会的人及组织行为的映射, 网络数据可用来分析个人和群体的行为模式, 标志着计算科学和社会科学的交叉融合正成为国际瞩目的前沿研究和应用热点[10].

2003年, 美国提出情报与安全信息学的概念, 其核心是研究如何开发、研究智能算法通过数据信息处理技术、安全策略的集成等, 使情报采集和安全分析更加系统化、科学化, 保障国际安全、国家安全、社会安全、商业安全和个人安全. 美国亚利桑那大学基于国家社会安全问题考虑, 进行“情报与安全信息学(ISI)”[11]研究;卡内基梅隆大学也开展了公共卫生事件等领域的学术研讨. 自2005年起, 中国科学院自动化研究所开始了情报与安全信息学(ISI)的研究, 以社会计算理论与计算实验平台为基础, 并以开源情报的获取和处理为基础, 对社会媒体和舆情信息进行实时监测、分析和预警[10, 12-14].

当前, 社会计算方法多用于社区发现与社会媒体挖掘, 如社交网络用户的信息交互关系计算、社区与意见领袖发现、社交网络用户行为分析等[5-7].

公众意见分析领域的研究仍然处于发展初期阶段, 理论体系还没有完全建立起来, 尤其是定量化的技术衡量指标还不完备, 引入社会计算方法是解决此问题的有效途径之一.

互联网公众事件的文本形式是互联网信息的重要载体[5], 其包含的信息量是事件信息的重要技术指标, 也是分析其影响力、舆论压力等技术指标的定量化前提. 本文通过香农信息论与最大熵理论的方法, 对互联网公众事件内容信息量的计算方法进行了研究, 该方法属于社会计算范畴.

1 公众事件数学模型 1.1 公众事件的分析模型

网络文本事件的结构如图 1所示.

为了进行信息量的计算, 先分析一下公众事件的构成, 如图 1所示. 这里对事件所包含的信息内容进行分析, 事件信息有5个构成要素:事件主体、时间、地点、数量、未抽取信息. 而事件主体又有4个属性:社会(自然)角色、社会(自然)关系、所属机构或体系、主体行为. 事件本身具有一个重要属性, 即事件社会(自然)类别.

Fig. 1 Public event structure 图 1 公众事件结构

· 数学描述

设事件信息为全集U, 由n个子集构成为U1, U2, …, Ui, …, Un, 其中, ${{U}_{i}}=\overline{{{U}_{1}}\cup {{U}_{2}}\cup ...\cup {{U}_{i-1}}\cup {{U}_{i+1}}\cup ...\cup {{U}_{n-1}}},$ 图 1中, n取10, U表示事件主体集合, U2表示社会(自然)角色集合, U3表示社会(自然)关系, U4表示所属机构或体系集合, U5表示时间信息集合, U6表示主体行为集合, U7表示地点集合, U8表示数量集合, U9表示事件社会(自然)类别集合, U10表示未抽取信息. 由集合的性质可知, $U=\overline{{{U}_{1}}\cup {{U}_{2}}\cup ...\cup {{U}_{n}}}.$

我们看到如图 1所示的5个构成要素、5个相关的属性, 这是对公众事件最简化的一种表达方式, 公众事件文本内容的信息全部包含在其中.

经过分析, 信息系统内的各个属性和要素之间的相互影响可以导致要素或属性的条件信息量的变化.

图 1中的信息模块结构来源于文本信息抽取项的研究[15], 抽取项有主体、时间、关系、机构等多项研究.

设一个互联网公众事件由n个随机变量构成, 则事件可以表示为(X1, …, Xn). 事件本身为一个随机信息系统, 用X表示, 则X等价于(X1, …, Xn), 其联合概率分布为(p1, p2, …, pi, …, pn). 各个分变量之间的函数关系未知, 或社会性函数关系极其复杂, 无法使用特定的函数关系进行表述, 满足pi(Xi|Xk)≠pi, 且(ik), 即每个分变量之间不存在条件独立关系.

根据哲学的一般原理:在一个系统之内, 每一个部分都不是孤立存在的. 图 1中表示了结构图, 包含5个要素和5个属性. 5个要素和5个属性相互之间的相互影响关系比图 1中所表示的要复杂得多, 图 1表示的仅仅是基本的隶属关系.

1.2 应用多维随机变量对公众事件进行建模

设一个互联网公众事件由n个随机变量构成, 则事件可以表示为(X1, …, Xn), 事件本身为一个随机信息系统, 用X表示, 则X等价于(X1, …, Xn).

这里, 我们取n=10, 其中, X1表示公众事件的主体名称, X2表示主体的社会或自然角色, X3表示社会或自然关系, X4表示主体所属的机构或体系的名称, X5表示时间信息, X6表示主体的社会(自然)行为, X7表示事件的地址信息, X8为事件的数量信息, X9为舆情事件的类别, X10为未抽取信息.

2 公众事件熵的计算方法 2.1 香农信息熵

信息的可度量、可计算, 是人类对信息技术掌握的里程碑. 香农在信息论的研究中贡献最为显著, 下面我们阐述一下相关理论.

香农理论的重要特征是熵(entropy)的概念. 香农证明了熵与信息内容的不确定程度有等价关系[16].

定义 1. 一个随机变量X的熵H(x)定义为

$H(X)=-\sum\limits_{x}{p(x)\log p(x)}$ (1)

一个随机变量X的熵H(x)是概率分布p(x)的函数, 它衡量了包含在X中的平均信息量.

下面, 我们依据此公式计算公众事件的信息熵.

2.2 基于最大熵理论的计算方法

1) 理论描述

最大熵原理最初是由Jayness在1950年提出来的[17].

结论:对一个随机过程, 如果没有任何观测量, 即没有任何约束, 则解为均匀分布.

2) 最大熵建模

最大熵统计建模是以最大熵理论为基础的一种选择模型的方法, 即从符合条件的分布中选择熵最大的分布作为最优的分布:

${{p}^{'}}=\arg \max H\left( p \right).$

3) 熵函数取最大值时的概率分布

以(0-1) 分布的熵函数为例, 在概率γ=0. 5时, γ取得均值的位置出现最大熵值. 其他类型概率分布函数的熵函数情况相似, 也存在最大值, 在概率分布取得均值的点获得最大熵(如图 2所示).

Fig. 2 Entropy function of (0-1) probability distribution 图 2 (0-1) 概率分布的熵函数

2.3 最大熵原理的数学表示 2.3.1 最大熵的数学表示

1) 在给定的约束条件下, 由最大熵原理求解最佳概率分布, 即应用拉格朗日乘子法求解条件极值问题[18].

2) 求解过程.

n元函数的f(x1, x2, …, xn)在m(mn)个约束条件下的条件极值, 常数1, λ1, …, λm依次乘f, φ1, …, φm, 然后累加起来得函数F(x1, x2, …, xn):

$\left\{ \begin{array}{*{35}{l}} {{\varphi }_{1}}({{x}_{1}},{{x}_{2}},...,{{x}_{n}})=0 \\ {{\varphi }_{2}}({{x}_{1}},{{x}_{2}},...,{{x}_{n}})=0 \\ ... \\ {{\varphi }_{m}}({{x}_{1}},{{x}_{2}},...,{{x}_{n}})=0 \\ \end{array} \right.,$
$F({{x}_{1}},{{x}_{2}},...,{{x}_{n}})=f+{{\lambda }_{1}}{{\varphi }_{1}}+{{\lambda }_{2}}{{\varphi }_{2}}+...+{{\lambda }_{m}}{{\varphi }_{m}}.$

然后列出F(x1, x2, …, xn)无约束条件时具有极值的必要条件:

$\left\{ \begin{array}{*{35}{l}} \frac{\partial F}{\partial {{x}_{1}}}=\frac{\partial f}{\partial {{x}_{1}}}+{{\lambda }_{1}}\frac{\partial {{\varphi }_{1}}}{\partial {{x}_{1}}}+{{\lambda }_{2}}\frac{\partial {{\varphi }_{2}}}{\partial {{x}_{1}}}+...+{{\lambda }_{m}}\frac{\partial {{\varphi }_{m}}}{\partial {{x}_{1}}}=0 \\ \frac{\partial F}{\partial {{x}_{2}}}=\frac{\partial f}{\partial {{x}_{2}}}+{{\lambda }_{1}}\frac{\partial {{\varphi }_{1}}}{\partial {{x}_{2}}}+{{\lambda }_{2}}\frac{\partial {{\varphi }_{2}}}{\partial {{x}_{2}}}+...+{{\lambda }_{m}}\frac{\partial {{\varphi }_{m}}}{\partial {{x}_{2}}}=0 \\ ... \\ \frac{\partial F}{\partial {{x}_{n}}}=\frac{\partial f}{\partial {{x}_{n}}}+{{\lambda }_{1}}\frac{\partial {{\varphi }_{1}}}{\partial {{x}_{n}}}+{{\lambda }_{2}}\frac{\partial {{\varphi }_{2}}}{\partial {{x}_{n}}}+...+{{\lambda }_{m}}\frac{\partial {{\varphi }_{m}}}{\partial {{x}_{n}}}=0 \\ \end{array} \right.$

把这n个方程和m个约束条件方程进行联立, 即可求出n+mx1, x2, …, xn, λ1, λ2, …, λm的值, 其中, x1, x2, …, xn就是可能的极值点, 称为驻点.

因为熵函数H(x)是分布函数f(x)的泛函, 于是用拉格朗日乘子法求出的解就不再是x, 而是f(x).

2.3.2 离散型随机变量的最大熵分布形式

设离散型随机变量X取得有限个值x1, x2, …, xn, 相应的概率记为p1, p2, …, pn, 则H(x)最大的充要条件:

${{p}_{1}}={{p}_{2}}=...={{p}_{n}}=\frac{1}{n}.$

证明:由于$\sum\nolimits_{i=1}^{n}{{{p}_{i}}}=1,$根据拉格朗日乘子法求解此约束条件下熵最大概率分布. 设

$F({{p}_{1}},{{p}_{2}},...,{{p}_{n}})=-\sum\limits_{i=1}^{n}{{{p}_{i}}\ln {{p}_{i}}}+\lambda \left( \sum\limits_{i=1}^{n}{{{p}_{i}}}-1 \right).$

pi求偏导数, 根据求取最值的必要条件, 得到方程组:

$\partial F/\partial {{p}_{i}}=-\ln {{p}_{i}}-1+\lambda =0,i=1,2,\ldots ,n.$

求解:pi=exp(λ-1) , 为常数.

根据约束条件$\sum\nolimits_{i=1}^{n}{{{p}_{i}}}=1,$npi=1, 即pi=1/n.

此时, 熵函数:

$H(x)=-\sum\limits_{i=1}^{n}{(1/n)\ln (1/n)}=\ln (n)$ (2)

对于取值为有限值的离散型随机变量来说, 当每一个取值的概率相等时, 其信息熵最大, 此时的分布为最大熵分布.

重要结论:得到了一个关于n的严格单调函数H(x)=ln(n). 本文利用这个结论进行公众事件信息熵的社会计算, 可以保证计算结果具有严格单调性(如图 3所示).

Fig. 3 Monotony of the entropy function H(x)=ln(n) 图 3 熵函数H(x)=ln(n)的单调性

3 应用最大熵理论计算公众事件的信息熵 3.1 公众事件建模

用随机变量X表示公众事件表示, X等价于(X1, …, X10), 其中, X1为事件主体, X2为社会(自然)角色, X3为关系, X4为所属机构或体系, X5为事件发生时间, X6为行为, X7为发生地点, X8为数量, X9为事件类别, X10为未抽取信息.

3.2 多维随机变量的向量空间

设一个公众事件可以由多维随机变量(X1, …, Xm)表示, 我们分别确定各个分变量的取值范围, 并组合构成一个多维向量空间[19].

定义 2. 当多维随机变量的取值都是基本取值集合内元素时, 此事件为元事件, 以(x1, x2, …, xn)表示. 所有的分向量的取值元素集合组合在一起构成了公众事件的多维向量空间. 这里的集合元素指的是文本事件抽取项的关键词或短语.

举例说明, 以“80后清华硕士任副局长后受贿1 600万, 被判无期”事件为例, 对文本形式的事件进行信息抽取, 得到以下形式:“80后清华硕士任副局长后受贿1 600万, 被判无期”事件(见表 1).

Table 1 Distribution of multidimensional random variables 表 1 多维随机变量的分布

由最大熵理论可知, 随机变量的取值项数量越多, 即内容越“杂乱”, 最大熵值就越大. 这可以解释为什么一些包含复杂内容(如社会角色和关系等)的公众事件容易引起关注, 因为事件本身信息量较大, 或者直观解释为事件内容更加丰富, 对表 1中的信息系统进行向量抽取, 显然其信息冗余较大, 也就是信息量较大.

由于X1, X2, …, X10之间的函数关系无法确定, 所以此问题适合使用最大熵模型来解决, 以最大熵表征公众事件的熵值, 与实际的情况最为接近.

3.3 公众事件信息熵的计算公式

在公众事件信息量的计算中属于约束条件$\sum{p({{x}_{1}},{{x}_{2}},...,{{x}_{9}})}=1$的最大熵问题, 其熵函数的形式与一维随机变量的形式类似, 信息熵值可以为任意正数.

取最大熵时, 其联合概率分布为均匀分布, 则计算公式可以表示为

$\begin{align} & H({{X}_{1}},{{X}_{2}},...,{{X}_{n}})=-\sum\limits_{x}{p({{x}_{1}},{{x}_{2}},...,{{x}_{n}})} \\ & \log p({{x}_{1}},{{x}_{2}},...,{{x}_{n}})=-\log p({{x}_{1}},{{x}_{2}},...,{{x}_{n}}). \\ \end{align}$

qi表示随机变量Xi的取值次数总数, 当有一次基本集合的取值时, qi=1(见表 2).

Table 2 Value of subvariables 表 2 分变量的取值

由约束条件可知, $p({{x}_{1}},{{x}_{2}},...,{{x}_{9}})=\frac{1}{{{q}_{1}}{{q}_{2}}...{{q}_{9}}}$, 则熵函数表示为

$\begin{align} & H({{X}_{1}},{{X}_{2}},...,{{X}_{9}})=-\log p({{x}_{1}},{{x}_{2}},...,{{x}_{9}}) \\ & =-\log \frac{1}{{{q}_{1}}{{q}_{2}}...{{q}_{9}}}=\log ({{q}_{1}}{{q}_{2}}...{{q}_{9}}) \\ \end{align}$ (3)

此公式为公众事件多维随机变量的信息熵计算公式, 其形式具有严格的单调关系. 下面证明其单调性, 并分析如何计算出事件信息熵值.

3.4 多维随机变量信息熵的单调性证明

由公式(3) , 熵函数:H(X1, X2, …, X9)=-logp(x1, x2, …, x9)=log(q1q2q9), 证明其具有单调性.

证明:设X1, X2, …, X9取得一组$({{q}_{1}}...{{{q}'}_{i}}...{{q}_{9}})$熵函数, 取值为H″, 而另一组取得的$({{q}_{1}}...{{{q}''}_{i}}...{{q}_{9}})$熵函数取值为H′. 当${{{q}''}_{i}}>{{{q}'}_{i}}$时, q取得正整数值, 可知, ${{q}_{1}}...{{{q}''}_{i}}...{{q}_{9}}>{{q}_{1}}...{{{q}'}_{i}}...{{q}_{9}},$进而得知, $\log ({{q}_{1}}...{{{q}''}_{i}}...{{q}_{9}})>\log ({{q}_{1}}...{{{q}'}_{i}}...{{q}_{9}}).$所以, 熵函数具有严格的单调性, H″>H′. 可知, 这个多维随机变量的熵函数具有严格单调性. 证毕.

3.5 中文语言特性对公众事件信息熵的影响

中文公众事件的信息熵值必然受到中文语言特性的影响, 中文语言是一种意合语言, 中文的特点是概括性强, 语言表述往往包含很多汉语成语、典故、常用语等, 这样的语言往往简短, 但却包含了比词本身丰富得多的含义. 这体现在信息熵值计算方面, 必然造成信息熵值的增大, 这种中文语言特性对事件信息熵影响较大.

例如, 有这样一则公众信息表述:

谎称收工程保证金, 七旬老汉“指鹿为马”诈骗百万(2015-04-17 09:18:58 来源:胶东在线)

胶东在线网4月17日讯(记者侯嘉伟通讯员徐忠孙世建)2014年以来, 蓬莱市公安局经侦大队共破获以收取工程保证金为名实施的合同诈骗案件4起, 抓获犯罪嫌疑人20余名, 涉案金额达5 000余万元.

经查, 1945年出生的柯某利利用相同手段共诈骗150余万元. 2014年11月6日因涉嫌合同诈骗被刑事拘留, 同年12月12日被批准逮捕, 现该案已移送检察部门审查起诉.

事件中使用了“指鹿为马”这样的成语, 在中文社区, 这样的表述会激发读者头脑中的语义框架, 读者获得了成语中丰富的信息, “指鹿为马”成语中包含的信息就“嵌入”到了事件当中, 这在中文公众事件表达当中属于常见现象.

“指鹿为马”这样的成语, 包含的信息内容是比较固定的, 构成一个封闭的独立语境事件.

同样, 我们可以计算其熵值, 在计算过程中, 可以把这个熵值当作常数, 累加到事件信息熵值中.

“指鹿为马”的文本信息摘要描述如下:

“指鹿为马”:出自《史记·秦始皇本纪》, 秦始皇死后, 赵高试图要谋朝篡位, 为了实验朝廷中有哪些大臣顺从他的意愿, 特地呈上一只鹿给秦二世胡亥, 并说这是马. 秦二世不信, 赵高便借故问各位大臣. 不敢逆赵高意的大臣都说是马, 而敢于反对赵高的人则说是鹿. 后来说是鹿的大臣都被赵高用各种手段害死了. 指鹿为马的故事流传至今, 人们便用指鹿为马形容一个人是非不分, 颠倒黑白.

经过信息抽取计算后, 得到“指鹿为马”典故成语的熵值为M, 事件信息熵值为H′, 则最终的事件信息熵为H=H′+M.

这可以解释, 为什么使用成语、典故较多的事件描述更容易引起读者的兴趣, 其中一个原因是其造成了事件信息熵的增加.

4 公众事件熵的计算过程

在计算公众事件信息熵时, 基于社会学理论及一些领域知识, 我们可以把它以“关键词或同义词短语”的形式集成到我们的知识库中, 这里需要专家的人工知识分析. 一旦知识库建立后, 会为我们提供很大的便利.

由第3. 4中的单调性证明, 我们这里构建的关键词知识库只需要按社会学知识划分不同的子集合, 并进行关键词的匹配或短语的同义词替换, 然后进行关键词匹配计算即可. 由此而产生的计算属于社会计算.

以2012年度全年的互联网中文公众事件为实验数据集进行计算, 语料库中统计了中国全年1 200个中文事件案例(每个季度300件公众事件), 这是全年爆发的互联网中文公众事件中引起社会重视较高的事件, 文中选取部分事件的计算结果进行分析.

4.1 构建知识库

Xn为公众事件X的某个分随机变量(如X1), 离散型随机变量, 假设Xn的取值集合为M, M包含若干个子集M1, M2, M3, …, MnM, 同时满足M1M 2M3∪…∪Mn=M.

由于各个国家的历史、文化、习俗、宗教、固有观念等社会状况有很大的区别, 所以特定的国家或地区要有特定的分析, 相应的随机变量的概率分布情况也会有很大的区别. 比如“驻阿富汗美军烧古兰经事件”, 如果发生在其他非信仰伊斯兰教的地区, 事件就不会这么敏感, 不会引起这么大规模和广泛的争端.

本文在使用通用计算方法的基础上, 以中国国内社会状况、文化特点为背景进行互联网社会计算研究, 如果要计算其他国家的互联网公众事件信息熵, 则要根据实际情况进行相应的知识库调整.

下面我们以中文公众事件的计算为例, 分别分析9个随机变量的取值集合情况, 给出一个互联网公众事件信息熵的具体计算方法. 集合中的元素都是有代表性的关键词, 这些关键词或同义短语构成了知识库, 考察9个随机变量的取值集合, 可以构建相应的知识库. 这里给出简略描述.

4.1.1 分析随机变量X1(公众事件中的主体名)的取值范围

事件的主体名往往是人物的名称, 也有地名、机构名和其他类型主体的名称. 把集合按子集合划分, 当有一次关键词匹配时, q1=1;若没有, 则取q1=0.

X1为表示公众事件主体名的随机变量, 是离散型随机变量, 建立X1的取值集合M, 其中包含若干个子集M1, M2, M3, M4M, 满足M1M2M3M4=M.

根据常识, 人名或地名等具有公众信息敏感度, 我们把知名度分为4个等级, 分别对应X1的4个取值子集合, 其中, M4为取值的基本集合.

公众信息敏感度级别的划分如下:

M1为公众信息敏感度第1等级, 可继续划分子集L1, L2, …;

L1历史名人, L1={曹操, 李鸿章};L2当代政治人物, L2={奥巴马, 普京, …};

…;

M4公众信息敏感度第四等级, 可继续划分子集L1, L2, …

本文中, 划分等级是为了方便说明问题, 当有匹配时q1取值相同, 取值为1. 社会计算中使用带有加权值的运算方法, 留待后续研究中系统介绍.

即, 当X1=x1时, 若x1M1~M4, 则取得q1=1;否则, q1=0. 以下各项情况类似.

形式化命题逻辑判断, 如下描述. 可以看到, 进行匹配计算的过程就是进行一阶谓词逻辑判断的过程.

命题 A. X1有一个取值, 即, 当X1=x1时, 逻辑为真.

命题 B. 当x1M1x1M2…, 或x1M4其中一个成立时, 逻辑为真.

这样, 当A∧B的合取式为真时, 表示q1有一次取值, 为1.

当A∧B的合取式为假时, 表示q1有一次取值, 为0. 这种情况下, 对计算值无贡献.

4.1.2 分析随机变量X2(社会(自然)角色)的取值范围

X2为表示公众事件主体的社会角色的随机变量, 是离散型随机变量, 我们建立X2的取值集合M, 并包含若干个子集M1, M2, M3, …, M43M, 满足M1M2M3∪…∪M43=M.

由于互联网空间的出现, 相应地出现了许多新的社会角色, 如互联网的公知人群、意见领袖人群, 还有部分网络文化名人等, 并担当起了相应的社会责任, 发挥着某种社会功能. 从社会学的角度来分析, 互联网不但改变了人们获取知识的方式, 同时新的社会角色也在一定程度上改变了人们之间的关系, 产生了新的信息传播与信任方式, 比如“公知”、“意见领袖”、“微博大V”等.

作为X1“主体”的属性, X2社会(自然)角色是构成事件信息内容的重要因素. 因为在互联网公众事件中, 主体的角色对事件信息引起关注的程度影响极大, 一个事件的主体可以有多个社会角色.

这里取“主体”的职位名称、地名的行政区域身份或属性名称、商业实体名称、商业人士的职位名称或是特殊人群的社会名称等关键词, 作为社会(自然)角色的描述.

子集M1为自然灾害类型名称, M2为星际名称集合, M3为地理名的社会(自然)角色, M4为国家自然类别集合, M5为特殊国家类别, …, M39为学生类别集合, M40为未成年人, M41为敏感角色(如奶粉业、明胶业、三鹿乳业等), M42为普通民众集合, M43为其他角色.

允许MpMk≠∅, 1≤p, k≤43.

我们逐项分析M1, M2, …, M43.

M1为自然灾害严重程度集合, 可继续划分子集L1, L2, …, L6. 满足L1, L2, …, L6M1, L1L2∪…∪L6=M1.

我们按自然灾害的级别进行划分子集:

L1为较轻型灾害集合, L1={霜冻, 虫害, 降温, 干旱, …};

…;

L6为其他类型灾害集合, L6={冰冻, 虫害, 降温, 干旱, …};

…;

M42为普通民众集合, 其权值为1;M43为其他角色集合, 体现完备性, 权值也为1.

与第4. 1. 1节中类似, 进行如下一阶谓词逻辑判断:

命题 C. X2有一个取值, 即, 当X2=x2时, 逻辑为真.

命题 D. 当x2M1, 或x2M2, …, 或x2M43其中一个成立时, 逻辑为真.

这样, 当C∧D的合取式为真时, 表示q2有一次取值, 为1.

当C∧D的合取式为假时, 表示q2有一次取值, 为0. 这种情况下, 对计算值无贡献.

4.1.3 分析随机变量X3(“自然关系”或“社会关系”)的取值范围

X3表示公众事件的社会关系, 是离散型随机变量, 我们建立X3的取值集合M, 并包含若干个子集M1, M2, M3, M4M, 满足M1M2M3M4=M.

由于这里考察的随机变量X3为事件主体的某种关系, “自然关系”或“社会关系”会对公众事件本身的信息量有很大的“贡献”.

我们把关系一项分为:M1为强关系、M2为中等关系、M3为弱关系、M4为其他关系.

M1为强关系, M1={母子关系, 父子关系, 敌对关系, 历史宿怨关系, …};

…;

M4为其他关系, 如下所示.

使用二元组来作形式化的表示如下形式:

设以y表示“实体1”, 以z表示“实体2”, 则它们之间的关系可以表示为x3=$\langle $y, z$\rangle $, 且q3=f($\langle $y, z$\rangle $).

若$\langle $y, z$\rangle $∈M, 则q3值取得1, 即q3=1;否则, q3=0.

进行如下一阶谓词逻辑判断:

命题 E. X3有一个取值, 即, 当X3=x3时, 逻辑为真.

命题 F. 当x3M1, 或x3M2, …, 或x3M4其中一个成立时, 逻辑为真.

这样, 当E∧F的合取式为真时, 表示q3有一次取值, 为1.

当E∧F的合取式为假时, 表示q3有一次取值, 为0. 这种情况下, 对计算值无贡献.

4.1.4 分析随机变量X4(主体所属机构名称或所属体系的名称)的取值范围.

X4为公众事件的机构名称, 是离散型随机变量, 我们建立X4的取值集合M, 并包含若干个子集M1, M2, M3, …, M6M, 满足M1M2M3∪…∪M6=M.

按机构的重要程度分为5级, 细节略.

进行如下一阶谓词逻辑判断:

命题 G. X4有一个取值, 即, 当X4=x4时, 逻辑为真.

命题 H. 当x4M1, 或x4M2, …, 或x4M6其中一个成立时, 逻辑为真.

这样, 当G∧H的合取式为真时, 表示q4有一次取值, 为1.

当G∧H的合取式为假时, 表示q4有一次取值, 为0. 这种情况下, 对计算值无贡献.

4.1.5 分析随机变量X5(时间信息)的取值范围

X5为公众事件的时间信息, 是离散型随机变量, 随机变量取值的所属时段作为集合M的元素, 并包含若干个子集M1, M2, M3, …, M6M, 满足M1M2M3∪…∪M6=M.

按时段的重要程度由高到低, 分为6级:

第1级M1为灾害时期, 如洪水、疾病暴发等时期, 其子集为L1, L2, …;

…;

第5级M5为季节性时段, 如春运期、休渔期、春播期、洪讯期、冰霜期、禁海期等;

第6级M6为其他时段.

进行如下一阶谓词逻辑判断:

命题 I. X5有一个取值, 即, 当X5=x5时, 逻辑为真.

命题 J. 当x5M1, 或x5M2, …, 或x5M6其中一个成立时, 逻辑为真.

这样, 当I∧J的合取式为真时, 表示q5有一次取值, 为1.

当I∧J的合取式为假时, 表示q5有一次取值, 为0. 这种情况下, 对计算值无贡献.

4.1.6 分析随机变量X6(社会(自然)行为)的取值范围

X6为舆情事件的社会行为, 是离散型随机变量, 我们建立X6的取值集合M, 并包含若干个子集M1, M2, M3, …, M6M, 满足M1M2M3∪…∪M6=M.

我们依据社会学构建理论[10]对事件的行为进行划分:M1为自然灾害类社会行为;M2为邪教类行为、反人类行为、恶性刑事犯罪行为;M3为宗教类行为、群体性行为;M4为造谣中伤类行为、恶意商业攻击类事件、恶意人身攻击类事件、或普通犯罪行为等;M5普通个人意见表达、商业网络信息发布或讨论行为、普通民事纠纷等, M6为其他行为类型.

进行如下一阶谓词逻辑判断:

命题 K. X6有一个取值, 即, 当X6=x6时, 逻辑为真.

命题 L. 当x6M1, 或x6M2, …, 或x6M6其中一个成立时, 逻辑为真.

这样, 当K∧L的合取式为真时, 表示q6有一次取值, 为1.

当K∧L的合取式为假时, 表示q6有一次取值, 为0. 这种情况下, 对计算值无贡献.

4.1.7 分析随机变量X7(事件发生的地址信息)的取值范围

X7为公众事件的地址信息, 是离散型随机变量, 我们建立X7的取值集合M, 并包含若干个子集M1, M2, M3, …, M14M, 满足M1M2M3∪…∪M14=M.

M1为地址名称, M2为国家地名, M3为国家首都地名, M4为国家州省地名, M5为省会城市地名, M6为地市级城市地名集合, M7为县级地名, M8为乡镇以下级地名, M9为具有政治意义的地名集合, M10为文化名城集合, M11为著名风景区集合、M12为著名国家保护区集合, M13为娱乐场所, M14为其他地名集合.

进行如下一阶谓词逻辑判断:

命题 N. X7有一个取值, 即, 当X7=x7时, 逻辑为真.

命题 O. 当x7M1, 或x7M2, …, 或x7M14其中一个成立时, 逻辑为真.

这样, 当N∧O的合取式为真时, 表示q7有一次取值, 为1.

当N∧O的合取式为假时, 表示q7有一次取值, 为0. 这种情况下, 对计算值无贡献.

4.1.8 分析随机变量X8(事件中数量信息)的取值范围

X8为公众事件社会行为的涉及数量, 是离散型随机变量, 我们建立X8的取值集合M, 并包含若干个子集M1, M2, …, M5M, 满足M1M2M 3∪…∪M5=M.

按事件中数量的重要程度分5个级别:

第1级的数量, M1其子集为L1, L2, ….

L1={地震级数6级以上, 台风8级以上, …}, L2={死亡人数10人以上};

…;

第5级的数量, M5其子集为L1, L2, …

进行如下一阶谓词逻辑判断:

命题 P. X8有一个取值, 即, 当X8=x8时, 逻辑为真.

命题 Q. 当x8M1, 或x8M2, …, 或x8M5其中一个成立时, 逻辑为真.

这样, 当P∧Q的合取式为真时, 表示q8有一次取值, 为1.

当P∧Q的合取式为假时, 表示q8有一次取值, 为0. 这种情况下, 对计算值无贡献.

4.1.9 分析随机变量X9(公众事件中的类别信息)的取值范围

X9为公众事件的类别名, 是离散型随机变量, 我们建立X9的取值集合M, 并包含若干个子集M1, M2, M3, …, M6M, 满足M1M2M3∪…∪M6=M.

我们依据社会学构建理论[20]对事件的类别领域进行划分, 此项与X9项相对应.

M1为自然灾害类事件集合, M2为邪教类、反人类事件、恶性刑事犯罪事件集合, M3为宗教类、群体性事件、群体行为事件集合, M4为造谣中伤类事件集合、恶意商业攻击、人身攻击事件, M5为普通个人信息发布、商业网络信息发布或讨论类事件, M6为其他事件类别集合.

进行如下一阶谓词逻辑判断:

命题 R. X9有一个取值, 即, 当X9=x9时, 逻辑为真.

命题 S. 当x9M1, 或x9M2, …, 或x9M6其中一个成立时, 逻辑为真.

这样, 当R∧S的合取式为真时, 表示q9有一次取值, 为1.

当R∧S的合取式为假时, 表示q9有一次取值, 为0. 这种情况下, 对计算值无贡献.

4.1.10 X10为公众事件信息抽取过程中未抽取的信息

此随机变量是为了体现公众事件信息量定义的完备性, 对事件的信息量计算没有贡献, 不计算这一项.

9个随机变量知识库的集合划分不是唯一的划分方法, 这里所做的计算属于社会计算, 要根据实际情况进行调整.

4.2 计算信息熵

当对事件进行信息抽取并进行知识库进行匹配计算后, 可以得到q1, q2, …, q9的值. 根据第3. 3节中公式(3) 计算信息熵值, 则H(X1, X2, …, X9)=log(q1, q2, …, q9).

5 实验 5.1 计算信息熵

计算信息抽取形式的“80后清华硕士任副局长后受贿1 600万, 被判无期事件”的信息熵值, 如第3. 2节中的形式. 逐项匹配计算qi值, 见表 3, 这里采用自然对数计算.

Table 3 Weight of X 表 3 X的加权值

H=ln(104×342×15×8×6×41×10×10×3) =26.48, 取小数点后两位有效数字.

5.2 同类案例事件的熵值比较

以2012年第4季度公众事件为例, 我们进行了繁琐的信息项信息抽取, 并进行了相应的复杂计算, 数据量和计算量都较大, 这里选取“官员违纪类事件”进行了实验结果展示.

表 4中熵值1的数据项显示为信息抽取后的计算值, 此实验是为了验证计算方法的单调性, 比较不同的事件包含的信息量, 如图 4所示.

Table 4 Ranking of calculation 表 4 计算结果排序

Fig. 4 Verification of the calculation method rationality 图 4 计算方法的合理性验证

我们根据表 4的数据排序给出趋势图, 熵值1列项为纵坐标. 可以看到, 得到了一个趋势性的单调关系. 趋势线表明了我们计算方法的合理性, 与理论分析第3. 4节中单调性证明的结论相符合, 是计算方法科学性的体现.

我们看到, 其中最小的熵值事件为“涪陵艳照门事件当事者为执法干部 监察局立案调查”, 值为17. 33, 这是因为其文本事件描述很短, 处于事件的爆发初期, 内容所包含的信息较少的缘故;熵值最大的事件为“街道党工委书记受贿被审:732万买景德镇瓷器”, 因为事件已经调查完毕, 并且已经由法院给出了详细的判决, 其文本内容包含详细的内容, 所以其信息量较大, 这与我们的直觉接近.

5.3 信息抽取方法对计算结果的影响

熵的计算值必然受到信息抽取方法[15]的影响, 为了获得更为合理的计算值, 往往需要对信息抽取项进行以下两步处理:

1) 重复项过滤:这个过程主要是过滤掉内容重复抽取的信息, 计算结果如表 4中熵值2列项所示.

2) 共指消解:过滤之后, 进一步进行共指消解处理, 消除掉具有共指关系的冗余信息抽取项, 计算结果如表 4中熵值3列项所示.

图 4显示了进行信息抽取以后的计算结果, 当进行重复项过滤与共指消解后, 实验结果对比如图 5所示, 熵值比较接近的事件排序有些许的变化, 但计算结果的单调性函数状态保持良好.

Fig. 5 Experiment of contrast 图 5 对比实验

实验结果表明, 经过滤与共指消解处理之后, 对不同类型事件的计算结果影响类似, 熵值在一定幅度上有所减小.

6 结束语

本文应用香农信息论和最大熵理论, 给出了一个合理而且可行的计算方法, 解决了互联网公众事件信息熵的定量化计算问题. 文中所提到的计算方法是最大熵理论在社会计算中的一个直接应用, 对于解决其他社会计算定量化问题应该有一定的借鉴意义.

文中所使用的计算方法仍然基于当前的社会计算理论基础, 为了获得更加合理的计算结果, 后续的研究工作可以探讨带有加权值的社会计算方法, 这部分内容留待后续工作中单独进行阐述, 并探讨社会计算的公理化体系问题[21]. 也希望其他研究人员关注该问题, 共同促进这一领域的研究工作进展.

致谢 在此,我们向对本文的工作给予支持和建议的学者表示感谢.尤其是北京邮电大学的方滨兴院士,您提出的建议使我们在寻找单调函数的工作中得到启发,最终得以完成本文的工作,在此表示感谢.
参考文献
[1] Arab spring. https://en.wikipedia.org/wiki/Arab_Spring
[2] Public opinion. http://en.wikipedia.org/wiki/Public_opinion
[3] Key VO. Public Opinion and American Democarcy. New York: John Wiley, 2012 .
[4] Mueller JE. War, Presidents, and Public Opinion. New York: Wiley, 1973 .
[5] Lerman K, Gilder A, Dredze M, Pereira F. Reading the markets:Forecasting public opinion of political candidates by news analysis. In:Proc. of the 22nd Int'l Conf. on Computational Linguistics (Coling 2008). 2008. 473-480.
[6] Akcora CG, Bayir MA, Demirbas M, Ferhatosmanoglu H. Identifying Breakpoints in Public Opinion. In:Proc. of the 1st Workshop on Social Media Analytics (SOMA 2010). Washington:ACM Press, 2010.[doi:10.1145/1964858.1964867]
[7] Li J, Zhou XG, Chen B. Research on analysis and monitoring of Internet public opinion. In:Proc. of the 2012 Int'l Conf. of Modern Computer Science and Applications Advances in Intelligent Systems and Computing, Vol.191. Berlin:Springer-Verlag, 2013. 449-453.[doi:10.1007/978-3-642-33030-8_72]
[8] Social computing. http://en.wikipedia.org/wiki/Social_computing
[9] Lazer D, Pentland A, Adamic L, Aral S, Barabasi AL, Brewer D, Christakis NA, Contractor N, Fowler J, Gutmann M, Jebara T, King G, Macy M, Roy D, Van Alstyne M. SOCIAL SCIENCE:Computational social science. Science, 2009, 323 (5915) :721–723. [doi:10.1126/science.1167742]
[10] Wang FY, Zeng DJ, Mao WJ. Social computing:Its significance, development and research status. e-Science, 2010, 7 :3–14(in Chinese with English abstract).
[11] Chen H, Wang FY, Zeng D. Intelligence and security informatics for homeland security:Information, communication, and transportation. IEEE Trans. on Intelligent Transportation Systems, 2004, 5 (4) :329–341. [doi:10.1109/TITS.2004.837824]
[12] Wang FY. From Social Computing to Social Manufacturing:an upcoming industry revolution. Strategy & Policy Decision Research, 2012, 27 (6) :658–669(in Chinese with English abstract). [doi:10.3969/j.issn.1000-3045.2012.06.002]
[13] Wang FY, Zeng DJ, Cao ZD. Social computing methods for non-traditional security challenges enabled by the social media in cyberspace. Science & Technology Review, 2011, 29 (12) :15–22(in Chinese with English abstract). [doi:10.3981/j.issn.1000-7857.2011.12.001]
[14] Wang FY. Social computing and dynamical state analysis of digitalized and networked societies. Science & Technology Review, 2005, 23 (9) :4–6(in Chinese with English abstract). [doi:10.3321/j.issn:1000-7857.2005.09.002]
[15] 谭红叶.中文事件抽取关键技术研究[博士学位论文].哈尔滨:哈尔滨工业大学,2008.
[16] Yeung RW,著;蔡宁,等,译.信息论与网络编码.北京:高教出版社,2011.
[17] Jaynes ET. Information and statistical mechanics. Physical Review, 1957, 106 (4) :620–630. [doi:10.1103/PhysRev.106.620]
[18] 李宪东.基于最大熵原理的确定概率分布的方法研究[硕士学位论文].北京:华北电力大学,2008.
[19] Chen Y, Zhang HL. Overview of social computing in information security. Journal of Tsinghua University (Sci & Tech), 2011, 51 (10) :1323–1328(in Chinese with English abstract). http://www.cnki.com.cn/Article/CJFDTOTAL-QHXB201110018.htm
[20] Waters M,著;杨善华,译.现代社会学理论.北京:华夏出版社,2000.
[21] 赵鑫珊.我对人类社会公理的敬畏.见:马小平,编.人文素养读本.2006. http://www.teacherclub.com.cn/tresearch/blog/showArticle.jsp?ArticleCode=1390764846&CID=00001
[10] 王飞跃, 曾大军, 毛文吉. 社会计算的意义、发展与研究状况. e-Science, 2010,7 :3–14.
[12] 王飞跃. 从社会计算到社会制造:一场即将来临的产业革命. 中国科学院战略与决策研究, 2012,27 (6) :658–669. [doi:10.3969/j.issn.1000-3045.2012.06.002]
[13] 王飞跃, 曾大军, 曹志冬. 网络虚拟社会中非常规安全问题与社会计算方法. 科技导报, 2011,29 (12) :15–22. [doi:10.3981/j.issn.1000-7857.2011.12.001]
[14] 王飞跃. 社会计算与数字网络化社会的动态分析. 科技导报, 2005,23 (9) :4–6. [doi:10.3321/j.issn:1000-7857.2005.09.002]
[15] Tan HY. Research on Chinese event extraction[Ph.D. Thesis]. Harbin:Harbin Institute of Technology, 2008(in Chinese with English abstract).
[16] Yeung RW, Wrote; Cai N, et al., Trans. Information Theory and Network Coding. Beijing:Higher Education Press, 2011(in Chinese).
[18] Li XD. The method study about probability distribution based on the principle of maximum entropy[MS. Thesis]. Beijing:North China Electric Power University, 2008(in Chinese with English abstract).
[19] 陈昱, 张慧琳. 社会计算在信息安全中的应用. 清华大学学报(自然科学版), 2011,51 (10) :1323–1328. http://www.cnki.com.cn/Article/CJFDTOTAL-QHXB201110018.htm
[20] Waters M, Wrote; Yang SH, Trans. Modern Sociological Theory. Beijing:Huaxia Publishing House, 2000(in Chinese).
[21] Zhao XS. I was in awe of the human society axiom. In:Ma XP, ed. The Humanities Reader. 2006(in Chinese). http://www.teacherclub.com.cn/tresearch/blog/showArticle.jsp?ArticleCode=1390764846&CID=00001