基于微博文本数据分析的社会群体情感可视计算方法研究-刘翠娟.pdf

上传人:1890****070 文档编号:111382 上传时间:2018-05-13 格式:PDF 页数:9 大小:1.84MB
返回 下载 相关 举报
基于微博文本数据分析的社会群体情感可视计算方法研究-刘翠娟.pdf_第1页
第1页 / 共9页
亲,该文档总共9页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《基于微博文本数据分析的社会群体情感可视计算方法研究-刘翠娟.pdf》由会员分享,可在线阅读,更多相关《基于微博文本数据分析的社会群体情感可视计算方法研究-刘翠娟.pdf(9页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、北京大学学报(自然科学版)第52卷第1期2016年1月Acta Seientiarum Naturalium Universitatis Pekinensis,V0152,No1(Jan20 1 6)doi:1013209j047980232016021基于微博文本数据分析的社会群体情感可视计算方法研究刘翠娟1,2刘箴1,+柴艳杰1方昊1刘良平11宁波大学信息科学与工程学院,宁波315211;2浙江万里学院智能控制研究所,宁波315100;t通信作者,Email:liuzhennbueducn摘要 针对已有的情感分析研究多侧重在情感的倾向性方面,缺乏对各类情感的详细描述,不能形象直观地反映社会

2、群体的情感变化的问题,提出一种基于依存句法和人工标注相结合的情感分析方法。该方法采用三维立体的人脸表情进行情感分析,形象地呈现社会群体的情感变化。对于不同的社会事件,以可视化方式来展现不同地区微博群体的情感。实验结果表明,该模型可以有效地描述人群情感,研究结果为基于大数据的网络舆情分析提供了一种新思路。关键词 文本分析;微博;情感分析;可视计算中图分类号TP391Research on the Visualization Method of Social Crowd EmotionBased on Microblog Text Data AnalysisLIU Cuijuanl”,LIU Zh

3、enlI,CHAI Yanjiel,FANG Ha01,LIU Liangpin911Faculty of Information Science and Technology,Ningbo University,Ningbo 3 1 52 1 1;2Intelligent Control Research Institute,Zhejiang Wanli University,Ningbo 315100;t Corresponding author,Email:liuzhennbueducnAbstract Existing sentiment analysis focus on the e

4、motional tendencywhich are lack of detailed description ofall kinds of emotions,they cant intuitively reflect the emotional change of social groupsAn emotional analysismethod based on the combination of dependency parsing and artificial tagging was proposedFacial expressionanimation to present emoti

5、ons analysis was realizedThe microblog crowds emotion in different areas for differentsocial events was visualizedThe experimental results show that the model could closely and effectively simulatethe crowd emotion,and it could provide a new way of the analysis of network public opinion based on lar

6、ge dataKey words text analysis;microblog;sentiment analysis;visual computing随着移动互联网的发展,社会媒体成为人们表达情感的重要载体。微博作为传播较广泛的社会媒体,已经成为了解民众情感的重要渠道。面对既庞大又看似杂乱无章的微博数据,如何有效地通过已有数据提取有价值的信息进而分析网络舆情【11,并以更加清晰的方式呈现,成为当前备受关注的重要研究领域。虽然关于文本的情感倾向性研究已取得不少成果,但是社会媒体群体情感可视分析方面的相关研究很少见。本文首先对基于微博的文本情感分析和大数据的可视化进行综述。然后给出微博文本的情感

7、计算模型,提出一种基于依存句法和人工标注相结合的情感分析方法,并以三维立体的人脸表情呈现群体情感。最后结合微博文本分析实验,说明群国家自然科学基金(61373068)、宁波市科技计划项111(2015A610128,2015C50053,2015D10011,2014C50018)、高等学校博士学科点专项科研基金(20133305110004)和浙江省教育厅科研项目(Y201431792)资助收稿日期:20150619;修回日期:20150915;网络出版日期:20150929178万方数据刘翠娟等 基于微博文本数据分析的社会群体情感可视计算方法研究体情感分析的思路。本文从社会计算的视角进行群

8、体情感分析,针对特定话题,从微博等社会传感网络获取所关注的社会信号,从中提取感兴趣的社会事件信息。本文研究结果可为深入开展微博群体情感分析研究提供一种新的视角。1相关研究关于微博情感分析的研究已经积累了很多工作。基于机器学习的方法把文本情感分析看做分类问题,采用朴素贝叶斯、K最邻近、支持向量机和条件随机场等算法构造分类器,通过对训练集的特征进行学习来构造模型。从监督微博群体情感的视角,情感分析的计算效率较高。采用机器学习的方法,由于需要训练大量的样本【21,对技术速度要求较高。因此,采用基于情感词匹配的方法并结合句法分析(syntactic parsing)成为群体情感计算的有效途径。Caro

9、等【3】提出一个模型,通过语义理解分析用户的情感,并借助数据可视化展现情感的正负强度。Loia等【4】提出一个提取情感的框架,采用四维情感层次,利用同义词集合计算情感的相似度,结合模糊集的语义模式计算情感强度。实验证明,此框架能很好分析文本中情感的极性。Wang等【5】提出一个交互的可视化系统,用于分析互联网上用户的群体情感,采用细胞自动机模型比较时变特性,可以适用不同的社交平台。关于情感原因的检测,Lee等16J提出一个文本驱动的、以规则为基础的情感原因的检测方法,构建了一个情感原因标注语料库和检测系统,经验证,取得显著效果,有助于分析和语言建模。在情感标注方面,Mohammad等【7】关注

10、词的情感与词的极性相结合,生成一个大规模词J隋感的联合词汇,并考虑8种基本情绪,使用自动生成的词选择题来进行情感标注,取得较好效果。Francisco等8提出一种自动标注情感的方法,该方法考虑情感类别和情感维度,通过情感本体进行分层分类来描述通用情感和特定情感,为情感标注提供了一种有效的手段。冯时等9】提出一种基于句法依存分析技术的算法,考虑情感关系对中的依存距离,并通过建立原型系统实现情感倾向的搜索结果。徐琳宏等【10】构造情感词汇本体,从情感类别、强度和极性三方面来描述词汇。可视化是一种大数据分析的重要方法,可以对数据进行推理,进而展示隐含的数据模式【11】。可视化数据的基本原理是让数据用

11、某种可视化方式呈现(如图形、图表、地图等),使人们能够更加直观地发现庞大数据内部隐藏的规律,进而得出结论,并且能够直接与数据进行交互。Zhang等【12】使用5Ws数据维度进行大数据分析和可视化,证明大数据可视化可以揭示数据接收和发送的密度,从密度视角分析大数据的特征。Mukhopadhyay等【1 3】将可视化应用于生物医学领域,通过多路结构图,从生物文本中提取重要信息,有助于理解基因和疾病的关系。可视界面是直观了解海量社会媒体信息的重要工具。利用可视化工具对微博数据进行可视分析有助于更好地发现微博的数据规律,具有广阔的发展前景。微博数据的可视化方面主要有以下几种方式:标签云与Wordle、

12、图表、网络、地图等。Zhang等【14】提出一个电子云模型(ECM)来分析微博的情感,将情感映射到电子的稳定性,通过核密度和边界绑定表述情感的空间变化。数据可视化为微博的深入研究开辟了一条新径,具有深远的理论指导意义和实践意义。综上所述,关于微博情感分析的可视研究虽然已取得可观的成果,但还存在一些问题。1)已有的研究多侧重在情感倾向性上,缺乏对各类情感的详细描述。对于社会事件,人们更希望了解不同负面情感的强度,这方面研究尚不多见。2)在情感分析中,已有研究对于情感词强度没有给出具体的量化方法,仅用级别代替。3)现有的社会媒体可视研究大多停留在线条图形,可视效果欠缺。鉴于以上不足,本文针对社会事

13、件,从多情感视角分析群体情感。在情感词的强度上,采用模糊集合理论,给出情感词的量化描述;在可视效果上,采用人脸表情呈现情感,实现更加逼真的情感表现方式。2微博文本的情感计算模型微博文本的情感计算模型采用三元组表示:EModel=为情感词,n为情感词个数;C-为情感词的类别,共6类;E(0,1)为情感词的情感强度。微博文本的情感计算模型如图1所示。模型的算法步骤如下。1)对于收集的微博文本,首先进行句法分析,对微博文本进行预处理。2)抽取并统计情感句数目,根据句中情感词的强度,计算每个情感句的初始值。如句子结尾有感179万方数据北京大学学报(自然科学版)第52卷第1期 2016年1月; 回 圃l

14、,:二二:二二:习:巧:三JH日句法分析I牟令I句法分析器 去停用词。jji移一jj。j 一J感计算 抽取情感关系对组 l-_拉斗Ijl I寄纠 t “-白I U V计算情摩强度I毒l情感词典I=令l统计分析Ijor :|l咖。土mI-I:修正情感词 甘;l一一情感强度 il否定词表l几U t 更新情感句 、|情盛强度 I句子fII摩I。:蕊:。:倪1屯 情感的 情感的 情感的时问变化 位置分布 表情呈现圈1微博文本情感计算技术路线Fig1 Affective computing technique route of micro blog text叹号,则句子的情感强度按照15倍计算;如果有疑

15、问号,则句子的情感强度按照08倍计算。对于表情符号,可以采用类似的思路,并将最终的句子情感强度进行归一化处理。3)以情感句中的每一情感词为单位,抽取关系对组,并计算出每个情感词的原始值(Pf)。4)对于每个情感词的关系对组(包括转化后的ADV依存对),结合程度副词和否定副词修饰强度的变化,构造情感强度的修正公式,计算其依存修饰后的情感值。新的公式计算出的情感值仍在O1之间。5)结合情感旬分析,计算微博文本中的各类情感强度值,结果呈现为二元组:EGloup=,分别表示前项词号、前项词、前项词性、后项词号、后项词、后项词性和初始强度。本实验关注以下形式的关系对:情感词为后项词,前项词中出现副词或者

16、否定词的关系对。我们依据式(2)修正该关系对的强度。微博情感可视化编程环境为Windows 81,采用的工具为vs2013,可视化编程接口为directx 11,用3dmax 2009进行地图制作。42实验数据采集本文的实验数据包括微博内容和微博评论。微博内容包括“招远围殴凶杀”、“事业单位打破终身制”、“大老虎”、“世界杯”、“高考生夺刀救人”等社会事件。为了验证本文提出的方法,通过腾讯和新浪微博的API接El,抓取大量社会事件的微博数据。这些数据是去重(过滤掉重复)后的数据,避免万方数据刘翠娟等 基于微博文本数据分析的社会群体情感可视计算方法研究同一个博主所发信息被多次采集。在调查初始情感

17、强度时,只选择部分去重后的数据集(特定事件的500条)。在分析时,选择特定事件去重后的所有数据集。从实验数据分析看,微博情感随时问的变化与事件本身的特性有关,对于突发事件,通常情感随着时间变化快速达到高潮,然后迅速消退。目前情感词典不可能包含微博上一些口语化的情感词汇,这在很大程度上影响了情感分析的效果。43实验结果分析431情感词的标注实验下面分别从性别、地区、情感强度和情感类型4个方面对情感词的标注实验进行分析。1)性别。在采集的微博数据中,男性网民比女性网民数量多。对于“大老虎”事件,性别不同,对事件的关注度也不同,参与评论的男性普遍多于女性。可见在通过社会媒体参与评论方面,男性比女性更

18、关注社会政治。2)地区。图4显示,对于“大老虎”事件,得到的6种情感强度值的比较,从不同的省份(5个省份)得到的调查结果看,情感强度有微弱的差别,也可能是样本数据量不够充分,没有体现出地区间的差异。总体上,不同地区的情感类型和强度差异不大,说明网民对该事件的关注与地区位置无关。3)情感强度。对不同事件进行调查,得到情感词的初始强度。从图5可以看出,不同事件中情感词的情感强度差异较大,比如愤怒”的强度较大,而“惊讶”和“恐惧”的强度较低。说明对于社会事件,网民表现“质怒”这种情感时比较强烈,而表现晾()8世莲nn蜒(J 41情感类型图4“大老虎”事件中不同省份的情感强度Fig4 Emotiona

19、l intensity of“big tiger”eventin different provinces快乐 愤怒 厌恶 惊讶 恐惧 悲伤情感类型图5 不同事件的情感类型和强度Fig5 Emotion types and intensity of different events讶”和“恐惧”情感时强度比较柔和。4)情感类型。在标注情感词过程中,有些地区可能不出现某种情感强度或者某类情感强度较低,原因可能是发表的微博数量过少。针对这种情况,我们假设该地区该种情感强度为0。从表l中可以看出,不同事件对情感的类型也有影响。例如,“高考生夺刀救人”事件,大家更多表现出快乐的情感;同一事件可以体现多种

20、情感,例如,“大老虎”事件,大家既表现出快乐的情感,也表现出愤怒和厌恶的情感。432微博情感分析实验1)相同事件的分析。从图6和7可以看出,对于“招远围殴凶杀”事件,不同地区网民表现出不同的情感,主要为愤怒、悲伤和厌恶。黑龙江省网民的愤怒和悲伤情感最强:每类情感各地区也有差异,悲伤类差异最小。针对“招远围殴凶杀”事件,我们对比了本文方法和情感单词匹配方法(在微博文本中搜索情感单词,一旦搜索到,就把该情感词的情感作为该条微博的情感类型)。由于每条微博文本所包含的情感类型较为单一,所以本文方法和情感单词匹配方法在情感类型判断的准确率和召回率相差不大。在测试的样本中,以厌恶情感为例,本文的方法获得的

21、准确率和召回率分别为06379和05441,而情感词匹配的方法获得的结果为06121和05221。2)不同事件的分析。从图8可以看出,同样是高兴情感,不同的事件引起的情感强度却不相同。各地区的情感图中,“事业单位打破终身制”普1838641恻骠餐旱J万方数据北京大学学报(自然科学版)第52卷 第1期 2016年1月馘酸馋墼图6“招远围殴凶杀”事件中的愤怒情感Fig6 Angry emotion ofZhaoyuan hit homicideincident矿步秽帝矿矿矿图7“摺远围殴凶杀”事件中的悲伤情感Fig7 Sadness emotion of“Zhaoyuan hit homicide

22、incident遍比“高考生夺刀救人”的情感强度值高,可能是由于前者涉及全社会民众的切身利益,关注的人更全面,从而情感强度更强烈。3)情感可视化。本文采用立体的脸谱(6种表情和1种中性表情)与中国地图相结合的方式,对实验结果进行可视化呈现,然后结合不同地区的微博184数目进行整体分析,其中人头越大表示该地区情感影响力越大(考虑情感强度和微博数量)。从图9可以看出,针对“打破事业单位终身制”事件,主要表现的是“快乐”的情感,说明民众对该事件普遍持支持的态度。广东地区对此事件的反映最强烈,部分地区对此事件没有明显反映,例如台765432OOOOOO0O蜊礤镩錾万方数据刘翠娟等 基于微博义本数据分析

23、的社会群体情感可视计算方法研究O 70 6O 5答04,n 1北京 广东 湖南 上海 新疆图8 5个省市高兴情感的对比Fig8 Happy feelings comparison of 5 provinces图9 “打破事业单位终身制”事件中高兴情感的可视化显示Fig9 Happy emotion visualization in the event of“Breakingtenure institutions湾和西藏等。通过可视化显示,可以看出各地参与此类事件讨论的积极程度。由于该微博文本所包含的情感类型并非单一,情感单词匹配方法容易导致对微博文本真正情感类型的误判,以高兴情感为例,本文方法

24、比情感单词匹配方法在情感类型判断的准确率和召回率更有优势。在测试的样本中,仍以高兴情感为例,本文方法获得的准确率和召回率分别为07831和05462,而情感词匹配的方法获得的结果为07195和04958。从图10可以看出,对于“招远围殴凶杀”事件,从微博数量和情感强度综合来看,广东、山东等地的参与程度较高。原因可能是事件发生地在山东,会引起山东网民的积极关注;广东地区可能是由于的网民通过网络参与社会事件的意识较高,更关注社会热点事件。通过对上述各类实验结果的分析发现,凶杀图10“招远围殴凶杀”事件中愤怒情感的可视化显示Fig1 0 Angry emotion visualization ofZ

25、haoyuan hithomicide”incident类、政治类事件更容易引起民众的愤怒情感,同时伴随强烈的恐惧情感。对于这类事件,通过社会媒体的参与,容易形成人群的负面情感,对社会稳定形成不良影响,应当引起政府足够的重视。5 结语随着近年来群体性事件的不断攀升,人群管理正面临各种新的挑战。以微博为代表的社会媒体是了解民众群体情感的重要载体,社会媒体爆发式的信息传播方式容易引发负面情感的迅速扩散,一旦失控,将导致群体性事件变得不可预测和难以控制。如何从微博的海量数据中分析民众的群体情感,一直是政府和学术界关注的热点。本文在已有微博情感分析研究的基础上,提出微博群体情感计算框架,建立了基于人工

26、标注统计的情感单词强度计算方法,并结合依存句法分析,计算微博文本的情感类型和强度,结合地理位置,采用表情人头来185万方数据北京大学学报(自然科学版)第52卷 第l期 2016年1月形象呈现群体的情感类型。实验结果表明,该方法能够有效地分析群体情感,通过分析不同事件来反映群体的情感类型。本文方法可用来预测社会事件可能造成的人群负面情感,为和谐社会的人群情感管理提供一种高效可视化方式,为基于大数据分析社会事件提供一种新思路。限于数据资源和水平,本文的工作还需要进一步完善。未来的工作将考虑补充数据资源和情感词典,在微博可视化呈现中加人体感交互虚拟人,实现更真实的可视交互体验。186参考文献王飞跃社

27、会信号处理与分析的基本框架:从社会传感网络到计算辩证解析方法中国科学:F辑,2013,43(12):1598161 1Ren Fuji,Kang XinEmploying hierarchical Bayesiannetworks in simple and complex emotion topicanalysisComputer Speech and Language,2013,27(4):943-968Caro L D,Grella MSentiment analysis via dependency parsingComputer Standards&Interfaces2013,35

28、(5):442-453Loia V,Senatore SA fuzzy-oriented sentic analysisto capture the human emotion in Web-based contentKnowledge-Based Systems,2014,58(1):7585Wang Changbo,Xiao Zhao,Liu Yuhua,et a1SentiView:sentiment analysis and visualization forinternet popular topicsIEEE Transactions on HumanMachine Systems

29、,2013,43(6):620630Lee S Y M,Chen Ying,Huang Churen,et a1Detecting emotion causes with a linguistic rulebasedapproachComputational Intelligence,2013,29(3)390416【7】Mohammad S M,Turuey P DCrowdsourcing a word-emotion association lexiconComputational Intelli-gence,20 1 3,29(3):436-4658】9】【10】12】13】14】15

30、】Francisco V-Gervis PEmotag:an approach toautomated markup of emotions in textsCompu-tational Intelligence,20 1 3,29(4):680-72 1冯时,付永陈,阳锋,等基于依存句法的博文情感倾向分析研究计算机研究与发展,2012,49(11):2395-2406徐琳宏,林鸿飞,潘宇,等情感词汇本体的构造情报学报,2008,27(2):180185任磊,杜一,马帅,等大数据可视分析综述软件学报,2014,25(9):19091936Zhang Jinson,Huang Maolin5Ws

31、 model for bigdataanalysis and visualization2013 IEEE 16thInternational Conference on Computational Scienceand EngineeringSydney,2013:1021-1028Mukhopadhyay S,Palakal M,Maddu KMultiwayassociation extraction and visualization from biological text documents using hyper-graphs:applicationsto genetic ass

32、ociation studies for diseasesArtificialIntelligence in Medicine,2010,49(3):145154Zhang Chenghai,Liu Yuhua,Wang ChangboTime-space varying visual analysis of micro-blog sentimentThe 6th International Symposium on VisualInformation Communication and InteractionNewYork:ACM,2013:6471Kazemzadeh A,Lee S,Narayanan SFuzzy logicmodels for the meaning of emotion wordsIEEE Com-putational Intelligence Magazine,2013,8(2):24-49吲吲吲吲万方数据

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 研究报告 > 论证报告

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com