基于合并模型的中文文本情感分析.pdf-得力文库

资源描述

《基于合并模型的中文文本情感分析.pdf》由会员分享，可在线阅读，更多相关《基于合并模型的中文文本情感分析.pdf（7页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、基于合并模型的中文文本情感分析李思1，张浩，徐蔚然，郭军北京邮电大学模式识别与智能系统实验室，北京，100876E-mail：1lsl 98cfgmailcom ，摘要：本文研究中文文本的篇章倾向性分析问题。针对于传统的只考虑单一粒度：的情感分析方法，本文提出了一种新颖的基于不同粒度的结合模型的中文文本情感分析算法，该方法结合了摹于词语级和句子级的篇章情感分析。在基于词语级篇章情感分析方法中采用条件随机场(CRFs)模型对情感词进行识别并判断出词的倾向性；针对句子级情感方法采用基于最大熵的文本情感倾向性判别模型。采用基于合并模型的方法，在提升结果的准确率的同时，确保J，召【里】率。实验证明，相

2、对于单一粒度上的情感分析方法，本文的方法取得r良好的效果。关键词：合并模型：词语级；句子级；情感分析。Oh i nese Text Sent i ment Ana l ys i SBased on Comb i nat i on Mode ISi Li，Hao Zhang，Weiran Xu，Jun GuoPattem Recognition and Intelligent System LabBeijing University ofPosts and Telecommunications，Beijing 100876E-mail：1Isl 98cfgmailcornAbstract：111

3、is paper focuses on the task of text sentiment analysisFor just one level was considered by thetraditional text sentiment aimlysis,a hovel combination model based on different level was presented to Chinesetext sentiment analysisThis model included phrase1evel and sentence-levelIn the phlase-level s

4、entimentanalysis,Conditional Random Fields(CRFs)Was used tO identify the sentiment wordThe Maximum Entropymodel Was uesd in the senteneeAevel sentiment analysisThe expriement resulit proves that the combinationmodeI is better than one leveI modelKeywords：Combination Model，Phrase-level，Sentiment-leve

5、l，Sentiment Analysis1 引言随着网络媒体的内容、形式日益丰富，其中带有个人情感色彩的文章、言论也越来越多，尤其以各类BBS论坛、Weblog等形式的网络媒体为典型。这些文本中的内容经常是对一些新闻时事、法规政策、大众人物、消费产品、影视娱乐等话题的个人评论，反映的是用户个体的观点。如何采用机器白动处理的手段对这些网络文本的内容进行情感分析判别，成为当前互联网智能信息处理的一个研究热点，是一项具有较人实用价值的关键技术，可以与多种现有互联网庶刚相结合，应用于国计氏生的众多领域，如电子商务中的推荐系统、信息安全中的过滤系统、网络搜索中的个性化观点检索、网络社区中用户兴趣挖掘等等

6、。文本情感分析主要是指文本的褒贬分类，一般将文章分为三类，褒义、中性、贬义。+国家863计划项I：1资助，编号：2007AA012417；国家自然科学基会资助，编吁：60905017；高等学校学科创新一川智计划资助，编号：B08004。同时，文本的情感分析可以分别基于词语级、句子级、段落级或篇章级进行处理。本文主要针对词语级与句子级结合的处理模式进行研究。在进行情感分析前，首先假设中文文本的情感表达具有内在的构成机制，这种机制可以通过构成文本的词语的有序排列来表示。在中文自然语言处理中，包括分词、命名实体识别等I=作都显式或者隐式的使用了这一假设，本文也以此假设为出发点。在基于词语级文本情感分

7、析中，首先对文本中的情感词进行识别并进行倾向性判断。依据前文所提到的假设，利用词，词性，否定词表，转折词表等作为特征，使用CRFs模型从训练语料中学习，并对测试语料中的情感词进行自动识别和倾向性判断。按照文本中包含情感词的不同倾向性的比例计算该文本的情感倾向性。对于基丁：句子级文本情感分析，采用最大熵建立文本倾向性模型，并对测试语料中文文本包含的句子判断其倾向性，按照文本中包含句子倾向性的比例计算该文本的情感倾向性。本文具体章节安排如下。第二节介绍当前国内外文本倾向性分析的方法；第三节具体介绍本文所采用的基于词语级、句子级文本情感分析的方法及合并模型；第四节给出实验结果，对本文的提出的方法进行

8、验证；第五节，结论及对以后工作的展望。2相关工作英文情感词的抽取已经有了一定的研究，由于中文表达的复杂性，近几年才开始进行中文情感词抽取方面的研究，目前还处于探索阶段。Hatzivassiloglou等人1】提出了一种四步法的有监督学习算法，根据语言学上的连接词对形容词的语义倾向的约束关系，由已知词语的极性，推测与其由连接词所关联的其它词语的语义倾向。Turney2使用了种无监督的方法来判断一个短语的情感倾向性，他使用互信息的方法计算该单词与“execllent”和“poor”的互信息，然后两个结果相减得到该短语的平均情感倾向性指标，从而判断它的极性。Riloff3提出了使用bootstrap

9、ping的方法抽取主观表达模式，然后使用这些模式抽驭语料集中的主观情感词。在中文情感词抽取方面，朱嫣岚等人【4】提出了一种基丁：HowNet的中文词语情感倾向性计算方法。Yao等人【5在计算中文词汇情感倾向性时，不仅考虑了辞典中词汇的倾向性，而且分析了词语上卜文中的情感倾向性，并对结果做出修正。乔春庚等人【6】提出了从一些种子情感词出发，利用句型结构，根据共现特征，扩展情感词，对扩展后的情感词进行选择评价得到带有极性的情感词，将新的情感词加入种子情感词，再进行下一轮扩展，直到不出现新的情感词为I：。然而，这些方法都始于一个情感词辞典，针对目前互联网上用户产生的大量文本无法做到更有效的分析，例如

10、“她是影坛最红的明星”和“这是一个红色杯子”中，在第一句“红”表示著名、受欢迎，属于褒义的情感词，而第二句的“红”不包含任何情感含义，它不是情感词。同样都是作为形容词出现在句子中，如果单靠情感词辞典是无法准确识别情感词的。本节针对这个问题，本文采用基丁LMR模板的中文情感词抽取算法。对于篇章的情感分析Pang等人【7】最早利用机器学习方法来解决文本情感分类问题，以internet上的电影评论文本作为语料，采用了不同的特征选择方法，应用朴素贝nt斯、最火熵、SVM对电影评论进行分类。在他们的另一项I：作【8】中，把文本的极性分类问题转换成求取句子连接图的最小分割问题，实现了一个基-F minim

11、umcut的分类器，对文本进行极性分类。张猛【9】等人以情感词识别的结果，采刚支持向量机模型，利朋各类情感类别词数之和，融合多种信息对文本的倾向性进行判别。王克【10】等在中文文本文本土客观分析中，分别采用对句子级中的情感词的个数判别句子的主客观性和基于情感词分数之和得剑323句子的主观分数。刘康等【1l】分别采用基于机器学习的观点倾向性判别方法和基于情感词典的观点倾向性判别方法。宋锐等121首先基于“大连理-I：大学信息检索实验室的情感词汇本体库”中的情感词汇从语料中提取出情感词汇，然后依据篇章的情感强度和情感词汇和文章词汇的比例来判断文本的倾向性。现今情感分析一般会采用基丁情感词典和基于机

12、器学习的方法，由丁语言表达有其自身的复杂性，同一词句在不同的文本中会有不同的倾向性，基于机器学习的方法会略好于情感词典的方法。然而这些方法般都基于单一粒度的情感分析。从理论角度，在文本处理上，粒度越小，召回率就越高。合并模型的优势在于，在确保准确率的同时，又保证了召同率。、3基于结合模型的中文文本情感分析31 基于词语级文本情感分析针对同一词语在不同的句子可能出现不同的情感倾向，本节采用了基于CRFs模型和LMR模板131的情感词识别算法。31I LMR模板在设定LMR情感词模板来模拟词语序列的情感表达之前，首先假设中文文本的情感表达具有内在的构成机制，这种机制可以通过构成文本的词语的有序排列

13、来表示。词与词之间信息的位置关系通常会体现某种情感表达。一个包含n+m+1个词的序列可以表示为L。Ln1L1MRlR。lRm，其中，M为待判定的词，L为文本序列中M词左侧序列的词，R为文本序列中M词右侧序列的词。LMR情感词模板通过对情感词序列建模米判别M位置词的情感倾向性和极性。本文中选取词，词性，句法分析结果，转折词表，否定词表，词与词之间的依存句法关系141作为特征。312 基于CRFs模型的情感分析算法CRFs是一个在给定输入节点条件下计算输出节点的条件概率的无向图模型，该模型是在给定需要标记的观察序列的条件下，计算整个标记序列的联合概率分布，而不是在给定当前状态条件下，定义下一个状态

14、的分布。标记序列的分布条件属性，让CRFs可以很好拟合真实世界的数据，而在这些数据中，标记序列的条件概率是依赖于观察序列中非独立的、相互作用的特征，并通过赋予这些特征不同的权值来表示该特征的重要程度。令x=表示输入的观察序列，y=是有限状态的集合，其中每个状态和一个标记了!l对应lL。根据随机域的基本理论，给定观察序列X的特定标记序列的联合概率具有以一F形式：，pI五允)oc叫莩名，乙川，y，)+莩。J。，f) ， “ 在式(1)中tj(yj1，Yi，x，i)表示对于观察序列的标记序列位置i-1与i之间的转移特征函数， Sk(yi，X，i)表示观察序列的i位置的状态特征函数。入j和u-分11

15、1-。：两个函数的权重。324式(1)中状态特征函数Sk(yX i)和转移特征函数tj(Yi1，Yi，x，i)都表示特征函数，只是表达方式有些不同。为了表达上的统一，状态特征函数可以改写为：sk(yi，墨i)=Sk(Yi-l，Yi，x，i)，这样状态转移函数和状态函数都可以表示为特征函数的统一形式tj(Yiq,yi，】，i)，至此，在给定观察序列X条件下的标记序列如的概率可以写成：p(y k旯)=雨1 ed喜莩旯，厂，yf)j c2，” ，、其中zG)=expl无，厂，-l，y，五圳(yi-I肌Y x，i)，它是状态特征函数和转移特征函数的统一形式表示。特征函数可以表示成观察值上的真实特征b

16、(墨i)，在当前状态(对应于状态函数情况)或是前一状态与当前状态(对应于转移函数情况)有特定取值时，每个特征函数取值为一个观察特征b(x，i)。例如：厂丸乒愕0 M y,_,=N砒eutra刑l,觇y,珈舭 (3)其中b伍i)表示真实观察值，当某种情况出现时值为1，否则为0。例如：嘶)=托髁i予置慧嚣“勤 (4)313 篇章的情感计算经过LMR情感词模板的CRFs情感词识别和分析模型，可以得剑语料中每篇文本的如下信息：包含倾向性的词数，记为WordSubNum：正面倾向性(褒义)的词数，记为WordPosNum；负面倾向性(贬义)的词数，记为WordNegNum；使用下式计算文本的极性判

17、别指标：。PosScale=WordPosNumWordSubNum (5)其中PosScale为情感极性的判别指标，按照(6)式对极性进行判别。 fl矿P出彪08 (6)l 0 。therwise其中，1表示贬义，0表示中性，1表示褒义。中性文本中包含混合文本及客观文本。混合文本即内部包含赞扬的，也包含批评的，篇章总体上是持客观的态度。32 基于句子级文本情感分析对丁基下旬子级文本情感分析，使用以词为单位的unigram和bigram作为文本特征，特征的权值为它在该样本中出现的词频的布尔值，使川最人熵建立了句子级的倾向性判别模型131。将语料经过预处理、分词和词性标注处理后，对每篇文本进行句

18、子分割，句子分隔符包括逗号、句号、分号、问号和叹号。然后，使用句子级最人熵倾向性判别模型对每个句子的倾向性和极性进行判别(与训练使用相同的特征表示和特征加权方法)。这样，就可以得到每篇文本的如下信息：包含倾向性的句子数，记为SenSubNum；正面倾向性(褒义)的句子数，记为SenPosNum；负面倾向性(贬义)的句子数，记为SenNegNum使用(7)式计算文本的极性判别指标：PosScale=SenPosNumSenSubNum (7)其中PosScale为情感极性的判别指标，按照下式对极性进行判别。其中，1表示贬义，0表示中性，l表示褒义。f一1矿PosScale08 (8)1 0

19、 otherwise，t 一33 合并模型理论上，对于文本的处理上，粒度越小会越好，但小粒度会丢失部分信息。合并模型可以很好的避免不必要的损失。利用上述两个模型所得到的结果，构造合并模型，在确保准确率的同时，又保证了召回率。整个的合并模型以词语级篇章情感分析为基础，加入词语级及句子级分析结果的折中因子，从而引入句子级的结果对词语级结构进行修正，弥补了词语级分析中词窗有限的问题。 s=二Pw+(h)x错S表示文本最终极性判别指标，P-代表基-j=词得到的情感极性判别指标，PS代表基于句子得到的情感极性判别指标。Q作为平衡冈子，平衡基于词与句子的情感极性判别指标，Q0，1。公式(9)中的S的值属于

20、0，1，本文中采用与单一粒度相同的文本情感极性判别方式，如公式(10)所示。同样，1表示贬义，0表示中性，1表示褒义。=11乏点S00s6 ，4实验结果及分析本文选取COAE测试集中829篇进行试验，其中164篇正倾向，108篇负倾向，客观文本557篇。在句子级篇章情感分析中使用10147句带有情感倾向性的文本和10000句无倾向性的文本作为训练语料；在词语级篇章情感分析中，使用1741个已进行褒贬分类的词为训练语料。分别采川准确率、召同率利F值(公式11)对实验结果进行评测，以三类各项的平均值作为主要评测指标。326表l句子级篇章情感分析Tab1 Text sentiment analysi

21、s based on sentencelevel准确率召回率 F值褒义 229091 384146 287016贬义 155689 24074l 18909l中性 689922 479354 565678平均值 358234 36808 347262表2词语级篇章情感分析Tab2 Text sentiment analysis based on phaselevel准确率召州率 F值褒义 668142 920732 774359贬义 882353 833333 857143中性 938124 843806 888469平均值 829539 865957 83999表3基于合并模型篇章情感分

22、析Tab3 Text sentiment analysis based Oil Combination Model准确率召回率 F值褒义 826087 695122 754967贬义 834783 888889 860987中性 892361 922801 907326，F均值 851077 835604 841093F re：2x Precisionx Recallsco (11)re=一 I 11)一Precision上Recall、7表l、表2、表3分别列出了单一粒度下及合并模型的篇章情感分析结果i表中黑体分别表示该子项中的最好结果。句子级篇章情感判别，准确率、召同率和F值缔果普遍偏低

23、。基于词语级篇章情感判别的结果已经具有了较高的准确率和召同率。词语级的平均准确率高于句子级准确率4713，说明在一定情况下，文本中的词语在情感分析上，具有更重要的作用。合并模型中a取08。相对于词语级，合并模型结果的准确率提升215的同时，F值也有所提升。F值的提升说明合并模型同时确保了准确率和召网率，在准确率提升的基础上，保证了良好的召同率。在829篇测试文档中，基于句子级的篇章情感识别方法可以正确识别356篇，11i全部的429：基丁词语级的篇章情感识别方法可以止确识别71l篇，占全部的8577：基丁二结合模刑的篇章情感识别方法可以止确识别724篇，rli全部8733。由丁句子级篇章情感识

24、别方法得剑的结果偏低，一定程度上影响了合并模型对结果更人幅度的提升。3275结论与展望本文提出了一种新颖的基于结合模型的中文文本情感分析方法，考虑了文本中不同粒度的文本对情感分析的影响。通过实验结果比较，基1：词语级能获得比基于句子级更好的结果；结合模型，综合考虑词语级及句子级的结果，在提高准确率的同时，也保证了召同率，从而得到一个较高的F值。本文中Q值的取值往往需要依靠经验值，是否可以设定一个具有稳定性并有广泛适用性的Q值是下一步。f作的一个思路。同时，对丁文本情感极性判别指标的计算还需要进一步改进，本文中所使用的情感极性判别的方法，只考虑了文本中褒贬词句的分布比例，只是从数值上进行了判别，

25、并没有对词句在篇章中的重要程度进行考虑。【9】【lO】【11】【12【13参考文献Hatzivassiloglou V，McKeown RPredicting the semantic orientation ofadjectivesProceedings ofthe 35mAnnual Meeting of the Association for Computational Linguistics and Eighth Conference of the EuropeanChapter ofthe Association for Computational Linguistics,Marid

26、,1997，174-181Tumey P DThumbs up or thumbs down?：Semantic orientation applied to unsupervised classification ofreviewsProceedings of the 40th Annual Meeting Oil Association for Computational Linguistics，Philadelphia,2002，417-424Riloff EWiebe JLearning extraction patterns for subjective expressionsPro

27、ceedings of the 2003Conference on Empirical Methods in Natural Language Processing，2003，70-77朱嫣岚，闵锦，周雅倩，黄萱菁，吴立德基于HowNct的词汇语义倾向计算中文信息学报，2006，20(1)，14-20Yao T FLou D CResearch on semantic orientation distinction for Chinese sentiment wordsnIe 7tllInternational Conference on Chinese Computing，Wuhan，200

28、7乔春庚，孙丽华，吴韶等基于模式的中文倾向性分析研究第一届中文倾向性分析评测研讨会，2008，2131Pang B，Lee L，Vaithyanathan SThumbs up?Sentiment classification using machine learning techniquesIn ProcCone on Empirical Methods in Natural Language Processing，2002，79-86Pang B，Lee LA sentimental education：sentiment analysis using subjectivity summa

29、rization based onminimum cutsIn Procof the 42nd Meeting of the Association for Computational Languages，2004，271-278张猛，彭一凡，樊扬等中文倾向性分析的研究第一届中文倾向性分析评测研讨会，2008，3845王克，张眷良，朱慕华等基于情感词词典的中文文本主客观分析第一届中文倾向性分析评测研讨会，2008，56-62刘康，赵军NLPROR：一种新的观点检索系统第一届中文倾向性分析评测研讨会，2008，115124宋锐，林鸿飞DUTIR关于COAE2008评测报告第一届中文倾向性分析评测研讨会，2008，142-151何慧，李思，肖芬等PRIS中文情感倾向性分析技术报告第一屈中义倾向性分析评测研讨会，2008，4655【14】http：irhiteducndemoltp328吲嗍嘲嘲啊嘲

展开阅读全文