基于情境推演的微博突发事件预测模型研究-王征.pdf-得力文库

资源描述

《基于情境推演的微博突发事件预测模型研究-王征.pdf》由会员分享，可在线阅读，更多相关《基于情境推演的微博突发事件预测模型研究-王征.pdf（7页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、情报学报2017年3月第36卷第3期Journal of the China Society for Scientific and Technical Information，March 201 7，36(3)：267273基于情境推演的微博突发事件预测模型研究王征，杨茜(西南财经大学经济信息工程学院&研究生院，成都611130)摘要微博信息平台的高速发展，给网络突发事件管理带来了信息量激增等新挑战。为应对这些问题，研究并提出了一个新型的微博突发事件发现与预测模型，该模型基于情境推演算法构建，通过历史数据与现场情境数据的信息融合匹配进行事件发展预判；通过深层发掘和融合，对突发事件的未来

2、情境进行预测和刻画。数据仿真实验证明，该模型具有较高的预测准确性、较全面的事件关键节点覆盖度和较好的时效性。关键词突发事件；微博；情境；推演；预测MEPD：A Micro-blog Emergent Incident PrognosisModel Based on Situation DeductionWang Zheng and Yang Qian(School ofEconomics Information Engineering and Post Graduation，Southwest University ofFinance andEconomics，Chengdu 611130)

3、Abstract：High-speed evolution of the micro-blog information platforms has brought many management challengessuch as information deposition to Internet emergent incident managersIn response to the problems，a new microblogemergent incident prediction model was researched and proposed based on the situ

4、ation deduction algorithmsThemodel fused fusion historical data and field event data to predict the emergent incident prospectsAnd it used the related situation space to mine the microscopic situation and integrated the key event nodes to forecast the developmenttrend of emergent incidentsData simul

5、ation results show that the model has higher prediction accuracy,greater COVerage and better timeliness than the old does SOKey words：emergent incident；microblog；situation；deduction；prognosis引口微博作为曾经的首选社交网络平台，从2014年以来受到了新兴竞争对手(如：微信)的冲击。201 5年11月，由于“内容荒”等原因，新浪微博宣布：为保持其影响力，支持原创，将破除对所有用户的众多约束限制。目前，作为先

6、期革新措施，新浪微博已紧随美国Twitter平台(2016年1月)之后，放开了140字长度限制，支持长文模式，并在内容原创领域和腾讯微信进入了完全竞争模式，这些改革举措给网络信息监管和舆情控制等领域带来了新的挑战。为此，国内外学者进行了大量针对性很强的研究和开发工作，突发事件预测即是其中的探讨热点之一。Lachlan等【、Alahmadi等21、Weiler等3】主要采用同步关键词检测的方式进行突发事件识别；Gaglio等41、PhridviRaj等51、Burnap等61、Kim等【71、Sagioglou等【8】主要采用经验预测法进行微博事件发现与发展趋势评估；Lu等【91、Pirozma

7、nd等10】、收稿日期：20161026；修回日期：20161220基金项目：国家社会科学基金青年项目“群体性事件管理推演与应对措施验证研究”(14CGL050 o作者简介：王征，男，1979年生，博士，副教授，主要研究方向为情报处理等，Email：wangzhen9151400163com；杨茜，女，1989年生，博士研究生，主要研究方向为信息波动理论等。万方数据268 情报学报第36卷Li等【111、Zadeh等【12】主要通过信息扩散侦测和传播测度等影响力建模方法进行突发事件预测。由于国内的微博系统近期发展速度太快，目前还没有成熟的微博突发事件预测模型产生；国内相关的研究成果主要

8、包括：何玉梅等13、彭敏等【141运用系统动力学及谱聚类等算法进行突发事件监测，陈国兰1”、赵洁等【16】运用突发词爆发词分析方法进行突发事件识别与跟踪。从最新研究成果的实际运用效果来看，微博突发事件的预N检测研究主要集中在访问量监测、综合人气评估、评论统计分析等传统方法的改进上，因此难以适应微博快速进化的现状；而近期的微博情境感知51、博主复杂关系网络分析6】、多媒体综合分析等创新成果在实际预测应用中又暴露出一系列问题，如预测精度较差、时效性差、系统资源开销较大等，其实用性受到了质疑。针对这些新情况和新问题，本文提出了基于情境推演的微博突发事件预测模型MEPD(microblog emerg

9、ent incidentprognosis model based on situation deduction)，并给出了该模型的模型结构、处理流程、关键算法以及数据仿真实验。2 问题分析与解决方案目前，国内外最新研究成果普遍存在下列两个问题；对此，本文提出了相应的解决方案：问题一：尽管当前的研究工作普遍指出微博(舆情)管理系统中，突发事件预测比检测更重要，但由于微博信息是典型的流式信息，其数据量巨大、流失速度快，因而无法有效地进行全文检索，信息生灭速度快因而不能全部存留进行全局处理。本文将通过情境推演5巧】解决这一问题，即：对于某一事件(主题)，通过综合处理方式，从微博信息流中抽取必要的情

10、境要素，存储下来构建情境推演序列，从而预测和研判突发事件的发展趋势。问题二：海量的微博监测历史经验与数据得不到有效的应用，这主要是由于流式信息的易流失性造成的。本文将通过情境的关联发现与信息压缩解决这一问题，即：基于微博历史事件的监测数据，构建突发事件的情境表述空间，通过相似情境的关联发现对未来情境的构成要素进行预测，同时部分代替情境直接描述，实现信息的间接压缩。3模型研究与设计本模型的关键模块、结构组成，以及突发事件预测流程如图1所示。图1 模型结构与预测流程31模型结构微博信息流处理模块：该模块通过各微博系统提供的API接口，采用动态滑动窗口方式进行微博数据采集，根据实际采集情况，将结果将

11、保存在两级缓存中备用，其中实缓存构建在内存中，暂时存储最新采集到并等待预处理的微博信息，而虚缓存构建在硬盘中，长期存储尚未得到处理的微博信息。预处理模块：该模块对采集到的微博信息实施预处理，对于从实缓存取出的数据块，要进行内容清洗、数据集成、数据变换和归一化处理等操作，最终生成信息浓度较高的微博要报。鉴于微博长度限制取消后，冗余数据量激增的现状，该模块将对冗余数据进行压缩处理，以降低后续的处理开销。情境生成模块：该模块对预处理之后的微博要报实施情境分析、序列与关系图构建，其中：对于新生事件，将赋予其事件ID、构建其情境序列，并将构建各个情境之间的关系图；对于已有的事件，将生成新的情境，插入其情

12、境序列，并调整各个情境之间的关系，优化情境关系图。情境推演模块：该模块对于已生成情境关系图的微博事件进行情境推演处理，通过第3节中的推演算法进行突发事件的前景预测，当事件中的关键情境刻画完成后，可对其未来情境进行预测，并根据具体结果向管理人员告警。管理接口模块：该模块向管理人员提供人机接口，接收管理员指令，进行解析和调度后，向其他模块分发对应的任务。万方数据第3期王征等：基于情境推演的微博突发事件预测模型研究 26932突发事件预测流程本模型的突发事件预测流程主要包括以下步骤：Stepl：该步骤在微博信息流处理模块中进行，信息流采集模块采用动态滑动窗口机制，从微博系统提供的API接口中获取微

13、博信息，进而将采集到的信息进行粗过滤，剔除垃圾和冗余信息，最终将结果存储在缓存中。其中，滑动窗口的大小，将根据预处理模块与粗过滤结果的反馈，进行动态调节，以保证信息流处理的效率。Step2：该步骤在预处理模块中进行，预处理模块从缓存中取出微博信息，首先进行内容清洗，迸一步去除其中的重复冗余、垃圾广告等内容；接着进行数据集成，对上下文相关的微博信息进行标注与连接；最后进行数据变换和归一化，将微博信息压缩成微博要报交由情境生成模块处理。对于高度重复内容、非原创内容，将通过关键点识别、创建链接、内容替换等方式进行压缩。Step3：该步骤在情境生成模块中进行，情境生成模块在接收到预处理之后的微博要报之

14、后，对其中的原创内容进行抽取，生成微博事件，构建其情境序列，并以首发情境为根节点组建情境关系图，并根据后续的微博要报，将评论、转载等情境信息逐步填充和插入该事件的情境关系图，以形成完整和有序的微博事件空间，以备后续模块从中发掘和预测突发事件。Step4：该步骤在情境推演模块中进行，情境推演模块对发生变化的事件进行触发式监测，当某一微博事件持续发生变化时，该模块将基于种群变异算法推演其未来发展趋势(如下文41节)，预测和刻匦该事件中未来可能出现的情境，当出现突发事件检测阈值超标等情况时(如下文42节)，该模块将向管理人员告警，并存留与提交微博现场场景以及预测场景，以供评估和决策之用。Step5：

15、该步骤通过管理接口模块进行，管理人员一方面根据情境推演模块发布的告警信息，进行突发事件研判，另一方面将研判结果反馈给相关模块，以调节微博数据的采集粒度、优化告警阈值和细化突发事件监测需求。4 关键算法41推演算法主体基于情境推演的突发事件预测算法的主体过程，以及相关变量定义如下：本算法基于种群变异算法来推演突发事件的变迁过程，对突发事件的关键情境进行预测。首先，设突发事件情境(预测对象)的配对概率和变异概率分别为Pc0以及砌o，而当前进行监测的时间的规模为；动态的突发事件的情境阈函数为R。在t时刻，个情境组成了突发事件的最初情境种群；总的推演计算步骤如下：Stepl：影响力较大的前S个情境将直

16、接进化至下一代情境Child，而其余的(N-s)个情境被定义为Temp备用。Step2：将影响力较弱的情境群组Temp进行配对交叉，具体配对率&通过公式(1)进行计算，并将预测到的新情境与生成它的父本情境进行对比，留下影响力较大的情境。被处理完毕的情境群为Prel，保留在缓冲中备用。公式(1)中的g是情境预测(进化过程)的计步器，而以倒是Temp情境种群中的影响力的大值，厂是Temp情境种群的平均影响力，。是配对情境中的最大影响力。Pc：j Pc0木些毫半，矿小7(1)=” 1092(g+1) “。()【Pco，elseStep3：对Temp种群中的情境，逐个进行预测(变异)处理，其中变异概率

17、砌以公式(2)处理得到，随后将预测到的新情境与生成它的父本情境进行对比，对情境进行压缩处理，即：留下影响力较大的情境，而对其他情境存留摘要信息。被处理完毕的情境群为Pre2，保留在缓冲中备用。公式(2)里的厂是进行当前变异处理的情境的影响力；其他变量如上文所述。Pm：h木业嚣1业，m 7(2)= ” l092(g+) 。。( )lPm。，PlseStep4：将上述步骤生成的情境种群Prel与Pre2进行融合，对于没有明显变化的情境个体，仅存留一个，随后得出影响力最大的(N-s)个情境存人下一代情境种族Child。Step5：当情境种群中的情景最大影响力达到阈值，或其他情境评估值超标时，算法终

18、止，并向管理人员提供相应的参数表和情景预测评估信息；否则从Step2步骤继续迭代。万方数据270 情报学报第36卷42 突发事件预测与刻画算法上述算法能够对微博中的突发事件进行初步的筛选与预测，但难以对其中的细节进行刻画，本算法中采用突发事件情境中的各项观测与评估指标作为事件的特征值，通过现场(当前)微博数据的压缩和融合，以及前期处理得到微博历史突发事件集，得到微博事件集泸“。，“2，一，U。)，并初步形成事件矩阵扩，来深度刻画和预测其中的突发事件，详细的算法描述如下：首先，设定微博事件集中的情境为：(墨，乃)，i=1，2，n；其中的xiR“是输入的情境向量，而YiR是输出向量，事件深

19、度刻画就是要在其中找到一条从输入情境空间到输出情境空问的高维非线性映射(事件发展路径)，从而将情境变换中的非线性问题转化为事件特征空间的线性问题，可以将输出的情境表示为公式(3)：Yi=厂(x)=(C01，妒(t)+b (3)其中，伊(蕾)是非线性映射：尺”专H，是高维线性情境空间的权值数组，而bR是对应的偏置量。其次，构建了对应的数组输出之后，为实现突发事件的预测，需要将规约历史情境的目标函数极小值作为条件，来回归生成(4)式的最小值通过约束条件，即公式(5)：J(co，占)=o51109112+o5y：1毛2 (4)H(co,b，占)=乃一(1，烈t)一6一t)=0，f=1，2，n(5)其

20、中，公式(4)中的占是算法中的历史回归误差，它越大，则支持数组越多。而公式(4)中的y是算式中的处罚因子(大于0)，它用于历史经验误差的处罚，它越大，则经验项受到的处罚力度越大，从而使得算法的预测精度得到提高，与之对应的则是算法对相关事件的适用性降低；反之，精度降低，而适用性提高。实际处理中，通过处罚因子的引入，对整个事件中当前情境影响不大的历史情境进行融合与压缩，从而节省整个模型的处理开销。其次，将公式(4)和公式(5)变换为无约束求解，可以得到公式(6)：旦L(oJ，占，b，a)=J(co，占)一：aiH(co，b，占) (6)i=1其中，公式(6)里的ai0，扛1，2，n是通用的拉格朗E

21、t算子，通过对各项目进行求偏导，有：缈=ai(P(Xi)i=l呸=0 (7)嘶2 YciH(co，b，占)：0进而消除其中的09和，可得公式(8)：r0 Q暴。E焐明 r Q+yEL口jLy-J、。其中，Y=M，y2，以1，口=口1，a2，1，F=1，1，l】1，而E是单位矩阵，Q则可以有公式(9)表示：Q=K(xi，xj)=妒(t)缈(x，)f，J=1，2，z (9)其中，K(x“xj)是事件的情境核函数。通过对公式(8)求解，可以得到一个非线性回归函数，如公式(10)所示：厂(工)=K(t，xj)+b (10)通过41节中生成的微博事件情境序列，可以得到ai和b之值，从而生成回归函数。本算

22、法中为了提高处理效率，采用了径向基函数作为事件推演的情境核函数，该函数如公式(11)所示：K(t，o)=eXp一Xi-xy2cr2) (11)由于公式(11)中的盯的取值对于最终的推演结果影响太大，因此，本算法中采用另一核函数替换了它，从而将输人向量融合到高维的历史事件核空间中，一方面对情境序列和关系图再一次进行压缩，节省处理开销，另一方面通过历史数据的反馈对相关内参数进行调节，提高事件的刻画与预测精度。该条件核函数如公式(12)所示：QELM：H蕾=K(xl，x1)K(Xl，xs)；；K(xuX1)K(xN，XN)K(xl，xy) (12)其中，Q皿M为NN维的对称矩阵，由此可得：K(X,

23、X1)h(x)HT=l i (13)【-K(x勘)J此时得到的当前突发事件情境的输出，可以表沭为：万方数据第3期王征等：基于情境推演的微博突发事件预测模型研究 271K(x，X1)f1f(xj)=I ； I(去+Q脱M)f1T (14)K(x，XN)l。，其中，(去+Q删)-1丁是对应的输出加权。乙进而可以采用一阶权值局域预测模型对当前情境进行处理，即：从得到的历史突发事件情境空间内发现与当前突发事件情境核心最接近的(m+1)个情境，并最终以这(m+1)个情境进行突发事件刻画与预测。由于突发事件的情境是一种典型的混沌时间序列，因此，历史情境空间的相似关系是随着时间前进而演进的指数规律，可表

24、述为：e以，而其中的五为最大预测速度指数(用以控制情境序列的处理速度)。至此，当情境数据量m1，且需要实施k(k1)步推演时，可进行下列处理：设初始事件引发的微博事件情境序列为，i=1,2，g，在其推演过k步之后的新序列为+t，通过拟合后可得：+女=ake+壤，i=1,2，g (15)通过最4-乘计算可得：q 厂m ，霉I(墙+。一一墙)l=rainf_1 L=l -J继续求偏导，有：=1，=1得(墙+。-ak一墙)=o(墙+t-ak一墙)墙=o到：鲰霉墙+暑(墙)=i=1 j=l i=1 j=l4 m霉硫+。墙i=1 j=lg m q m吼m+玩层墙=只墙+。1 ，=l i=1 ，=1进而表

25、示为矩阵乘法：PCO伽c。e叭21(圹ak、1 ，其中，相关的参数有以下性质：c。e1：q霉m墙，五=最终，可以通过公式(17)求得a，玩：(轷。只T#墙告1叫r蚴i=1户1 q m 霉墙i=1 j=l只+。Tj=l口 m霉墙+。(17)由此，将吼和玩代人第k步推演预测中+I=Clke+，将得到推演k步之后的预测情境+t：场+女=(XM咖嘞姗f，一，嘞m(掰-1)，j (18)此时得到的情境即可用来作为突发事件的研判依据，当突发事件检测阈值超标等情况出现时，可进行告警。5实验与评价由于目前的开放式微博(Twitter和新浪微博)中的超140字长文都积累有限，实验中采用了仿真与实测数据相结

26、合的方法：其中实测数据为新浪微博API接口提供的2016年3月至5月精简数据集3742万条(原创、评论与首次转载)，其中的长微博的数量超过了18万条；仿真数据集为网络机器人(爬虫程序)获取的、内容相关的新浪博客页面数据共计9个大型舆情突发事件(事件选取参照人民网舆情监测室发布的2016年第1，2季度互联网舆情分析报告)的数据14万条(页)，将仿真数据按时间顺序，插入主题相同的精简数据集中，融合成为载有超长文字的微博数据集。仿真实验中采用了EDMM(具有长尾预测能力的细分决策树微博发掘和预测模型)4作为MEPD模型的性能比较对象，为保证比较的公平性，两个模型都采用了IKAnalyzer工具包对微

27、博数据流进行分词处理。为了验证两种模型的预测性能，以人民网舆情监测室的舆情月度报告为依据，对于9个大型突发事件案例的事前、事中和事后三个情境进行了情境关键词(特征词)抽取(抽取上限为100个)，并由专家对其进行了筛选，构建了虚拟的突发事件情境。最终仿真实验对两个模型的三种重要指标进行了测试，即：预测准确度(对下一时刻里事件情境元素的预测)、事件关键节点覆盖度(情境中事件关键词、主体等元素的覆盖程度)和预测时效性(从事件发生到预警产生的时间长短)。、，厶，卜、。j砒谢谢m，L=、，、阮，。L有此至般墙。芦B。肖号2，。瑚。汹盾M侄。怪骺简磁磁。芦日。斟|I唆也墙。芦P。斟=以万方数据272 情

28、报学报第36卷从预测精确度来看(如图2所示)，MPED模型的效能大大超过了EDMM模型，由于该模型中信息压缩效果良好，对一定时间段内的突发事件细节情形采样准确，压缩后有效信息损失极小，从而保证了事件预测的预测精度。垂囊鼬4 5 6 7 8 9突发事件编号预测精度对比从事件关键节点覆盖度来看(如图3所示)，MPED模型对突发事件关键节点的覆盖度超过了EDMM模型，并在覆盖度达到峰值后，长期保持了较高的覆盖度，而EDMM模型随着事件的演进和数据量的激增，出现了覆盖度的快速下滑，效能较之MPED模型有一定差距。需要注意的是，由于情境预测只能从历史情境中抽取元素，无法预测新元素，因此，从目前的实

29、验结果来看，前人成果中预测算法及模型的精确度均难以超过70，而MPED模型的关键节点覆盖值达到了673。从预测时效性来看(如图4所示)，尽管MPED模型具有较高的预测精确度和事件关键节点覆盖图3关键节点覆盖度对比4 5 6 7 8 9突发事件编号预测时效性对比度，但其并未牺牲时效性作为代价。由于MPED模型良好的预测性能，其预警时耗反而较少，9个网络突发事件预警案例中，该模型比EDMM模型的平均预警时耗要少15左右，这对于网络突发事件的早期预警和后期管理准备是极为有利的。6 结论基于情境推演的微博突发事件预测模型在数据仿真实验中被证明具有良好的综合性能，应能在微博信息平台的高速发展中发挥其作

30、用。从目前微博的发展状况来看，该模型还应该在以下几方面进行深入探索：首先，为应对微博内容的进一步开放，应进一步研究微博及其关联页面的分层发掘，并研究潜在的关键事件节点的发掘方法；其次为应对微博多媒体数据的深入应用，应研究其多媒体数据的数据挖掘方法与技术；最后为应对微博与其他新媒体平台的互引用和交叉协作，应研究复杂信息网络环境下的信息抽取与聚类方法，如新闻与微博的信息互动检测机制等。参考文献1Lachlan K A，Spence P R，Lin X L，et a1Social media and crisismanagement：CERC，search strategies，and Twitte

31、r contentJComputers in Human Behavior，20 1 6，54：6476522】 Alahmadi D H，Zeng X JISTS：Implicit social trust and sentiment based approach to recommender systemsJExpert Systemswith Applications，20 1 5，42(22)：884088493 Weiler A，Grossniklaus M，Scholl M HSituation monitoring ofurban areas using social media

32、 data streamsJInformation Systems，2016，57：1291414 Gaglio S，Lo Re G，Morana MA framework for real-time Twitter data analysisJComputer Communications，2016，73：2362425PhridviRaj M S B，GuruRao C VData miningpast，present andfuturea typical survey on data streamsJProcedia Technology，201412：256263【6 Bumap P，

33、Rana O F，Avis N，et a1Detecting tension in onlinecommunities with computational Twitter analysisJTechnological Forecasting and Social Change，2015，95：961087 Kim T，Hong J S，Kang P LBox office forecasting using ma-chine learning algorithms based on SNS dataJInternationalJournal ofForecasting，2015，3I(2)：

34、3643908 Sagioglou C，Greitemeyer TFacebooks emotional consequences：Why Facebook causes a decrease in mood and why people stilluse itJComputers in Human Behavior，2014，35：359-36332图2【34冈2如加加m0骥窖枷非露澄万方数据第3期千征等：基于情境推演的微博突发事件预测模型研究 273Lu X J，Yu Z W，Guo B，et a1Predicting the content dissemination trends b

35、y repost behavior modeling in mobile social networksJJournal of Network and Computer Applications，20 14，42：197207Pirozmand P，Wu G W，Jedari B，et a1Human mobility in opportunistic networks：Characteristics，models and predictionmethodsJJournal ofNetwork and Computer Applications，201442：4558Li J X，Peng W

36、，Li T，et a1Social network user influencesensemaking and dynamics predictionJExpert Systems withApplications，2014，41(11)：5115512412Zadeh A H，Sharda RModeling brand post popularity dynamics13】14】【15】16in online social networksJExpert Systems with Applications，2014，4l(6)：3091-3104何玉梅，齐佳音，刘慧丽基于微博的个体持续度舆论动力学研究J情报科学，2015，33(12)：121128彭敏，张泰玮，黄佳佳基于回归模型与谱聚类的微博突发话题检测方法J计算机工程，2015，41(12)：176181陈国兰基于爆发词识别的微博突发事件监测方法研究J】情报杂志，2014，33(9)：123128赵洁，马铮，周晓峰，等基于突发词项频域分析的微博突发事件检测J情报理论与实践，2015，27(1)：124129(责任编辑车尧)网m万方数据

展开阅读全文