基于词语情感隶属度特征的情感极性分类-宋佳颖.pdf

上传人:不*** 文档编号:128030 上传时间:2018-05-15 格式:PDF 页数:7 大小:446.60KB
返回 下载 相关 举报
基于词语情感隶属度特征的情感极性分类-宋佳颖.pdf_第1页
第1页 / 共7页
亲,该文档总共7页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《基于词语情感隶属度特征的情感极性分类-宋佳颖.pdf》由会员分享,可在线阅读,更多相关《基于词语情感隶属度特征的情感极性分类-宋佳颖.pdf(7页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、北京大学学报(自然科学版)第52卷第1期2016年1月Acta Scientiarum Naturalium Universitatis Pekinensis,V0152,No1(Jan20 1 6)doi:1013209j047980232016004基于词语情感隶属度特征的情感极性分类宋佳颖黄旭付国宏+黑龙江大学计算机科学技术学院,哈尔滨150080;t通信作者,E-mail:ghfuhotmailtom摘要 在模糊集合论框架下探索基于词语情感隶属度的情感极性分类特征表示方法。以TFIDF为权重分别构建情感特征词语的正向、负向极性隶属度,并以隶属度对数比作为分类特征值构建基于支持向量机的情

2、感极性分类系统。在产品评论、NLPCC2014情感分类评测数据和IMDB英文影评等数据上的实验结果表明,基于情感隶属度特征的系统优于基于布尔、频度和词向量等特征表示的系统,验证了所提出的基于情感隶属度特征表示的有效性。关键词 情感极性分类;模糊集合论;隶属度;支持向量机中图分类号TP391Exploiting Lexical Sentiment Membership-Based Featuresto Polarity ClassificationSONG Jiaying,HUANG Xu,FU Guohong十School ofComputer Science and Technology,H

3、eilongjiang University,Harbin 150080;t Corresponding author,Email:ghfuhotmailcornAbstract A lexical sentiment membership based feature representation was presented for Chinese polarityclassification under the ffamework of fuzzy set theoryTFIDF weighted words are used to construct thecorresponding po

4、sitive and negative polarity membership for each feature word,and the log-ratio of eachmembership is computedA support vector machines based polarity classifier is built with the membership log-ratios as its featuresFurthermore,the classifier is evaluated over different datasets,including a corpus o

5、f reviewson automobile products,the NLPCC2014 data for sentiment classification evaluation and the IMDB filmcommentsThe experimental results show that the proposed sentiment membership feature representationoutperforms the state of the art feamre representations such as the Boolean features,the freq

6、uent-based features andthe word embeddings based featuresKey words sentiment polarity classification;fuzzy sets;membership;supported vector machines随着Web 20的兴起和社会媒体的迅速发展,情感分析(亦称意见挖掘)已成为自然语言处理研究的一个热点,并在近年得到快速发展,各种情感分析系统层出不穷。由于机器学习方法性能的不断提升,使得情感分类能够得到效果较好的基线系统,机器学习框架能够从选取的特征中学习不同类别的指向信息,其参数、特征集和权重的确定对

7、分类性能起决定性作用。因此,本文将特征的选择和表示作为重点探索的内容。随着基于神经网络的语言模型的发展,基于词袋(bagof-words)的模型逐渐受到排斥,神经网络模型不再只是对词语的罗列而更多地考察了词序关系,在大规模的无监督训练下往往能得到更多的语义信息,因此在抽取、语音识别、翻译、校对等工作中发挥了优势。同时,很多情感分析工作已将词语、段落的向量表示作为特征权重应用于分类框架【1川,但通过对比发现,这类方法在国家自然科学基金(61170148)和黑龙江省人力资源和社会保障厅留学人员科技活动项目资助收稿日期:20150606;修回日期:20150818;网络出版日期:2015092917

8、1万方数据北京大学学报(自然科学版)第52卷 第1期 2016年1月情感分类问题的解决上依然有很大的改进空间。虽然Ngrams语言模型考虑了词语的窗口内上下文,但很少有数据能够满足多窗口的上下文短语概率计算,Ngrams存在数据稀疏和高维度的限制,对于词语间的语义距离的衡量依然模糊。与Ngrams相对的递归神经网络(recurrent neural networks,RNNs)语言模型21,其内部结构能够更好地进行平滑预测,从而放宽了上下文的窗口限制,在很多应用中优于传统的Ngrams。因此,我们利用mYYs作为本文的一组基线方法。然而,在新方法不断涌现的今天,词袋模型仍然存在优势,某些语料数

9、据在传统的朴素贝叶斯(Naive Bayes,NB)、支持向量机(SupportVector Machine,SVM)分类框架下,结合优化的特征、权重集,依然能够获得更好的分类结果【51。本文从优化特征及权重的角度出发,在已经取得很好效果的NBSVM基础上,进一步探索更佳的SVM应用方法。我们针对产品评论语料,应用递归神经网络语言模型【2(recurrent neural networkbased language model,RNNLM),通过贝叶斯法则判定正负极性,应用Paragraph Embedding生成的句子向量作为特征,通过SVM分类器判定极性3】。应用NBSVME5】结合Ngr

10、ams特征判定极性作为本文的基线方法。受到情感表达外沿模糊性的启发,我们尝试用模糊集合理论挖掘词语的正负情感间的细微差别,结合模糊推理的词汇模糊集合的情感隶属度确定方法,将正负情感极性隶属度有效融合作为特征表示方法,提出基于词语情感隶属度特征的分类框架,并完成与上述各种分类方法的比对,实验结果说明了本文提出的分类方法对于情感极性分类的有效性。1相关研究情感分析问题通常分为两大解决线路,分别是基于词典的情感分类方法【】和基于语料库的情感分类方法5,8-9。由于通用词典对于各类型、领域的文本覆盖度不足,基于词典的方法的效用逐渐弱化,而基于对语料库中信息进行统计的机器学习方法越来越受到重视。Yang

11、等【9】将句子级情感分类看做序列标注问题,将有情感标签的句子作为输入,通过条件随机场和后序正规化(posterior regularization)来学习参数,利用上下文短句的语境和评价对象,对不含有情感词语的短句进行情感倾向预测,对各类特征进行整合,包括词典模板、转折连172接、意见共指等。随着情感分析研究的不断深入以及基于语言模型的新型语义表示方法21 0】的出现,各种基于神经网络模型的向量表示方法【13】也应用到情感分析领域。由于这些基于神经网络的语言模型能够在无监督的条件下挖掘一定的语义信息,这些向量表示的获取也成为当前的研究热点。Le等3】通过词语的向量表达预测上下文的词向量,将句子

12、向量看做一个特殊的主题词向量,应用随机梯度下降训练词语语义向量表示,用这些词向量进一步推断句子向量,将得到的向量表示作为支持向量机分类器的特征完成句子情感分类。Bespalov等【l 3通过浅层语义分析得到词的向量表示,进一步将文本表示为Ngrams特征向量对应的线性权重向量用于情感分析。Tang等【14】在大规模微博语料库中,以微博表情符号作为弱情感标签,通过3种神经网络模型有监督的训练,得到面向情感语义的词向量表示,将词向量表示作为特征放入SVM分类器中,得到不错的效果。Wang等【5】分别对朴素贝叶斯和SVM这两种常用的分类模型的适用情况进行分析,提出应用朴素贝叶斯对数频次比作为SVM特

13、征权重的分类模型,通过实验证明这种简单的模型对于情感分类任务十分有效。本文在Wang等【5】工作的基础上,以相关理论为依据,进一步对特征权重优化,以得到更佳的分类性能。2情感分类方法21情感词语模糊集合正向词语模糊集合:设论域x为所有词语的集合,则论域x上的正向情感词语模糊集合POS是x到0,1】的一个映射肛Pos:H【0,1。对于x五Pos称为正向词语模糊集合POS的隶属度函数,os)称为x属于词语模糊集合POS的隶属度。负向词语模糊集合:设论域x为所有词语的集合,则论域x上的负向情感词语模糊集合NEG是x到0,1】的一个映射NEG:肛0,1】。对于x五脚EG称为负向词语模糊集合NEG的隶属

14、度函数,gNEO)称为工属于词语模糊集合NEG的隶属度。由上述定义可知,这些隶属度函数的确定是模糊集合理论能否有效投入应用的关键。22情感分类的TFIDF221情感词语频率TF定义f“)R吵l是训练样例i的特征的频数,即厂“)代表特征巧在样例f中出现的次数。对于所万方数据宋佳颖等 基于词语情感隶属度特征的情感极性分类有的训练样例,可以定义正负两类特征频数向量如:TFP。s=口+:。fn, (1)TFN。G=口+n叫f“。 (2)其中n是为了数据平滑设置的参数。根据上面得到特征频数向量,对TFPos和TFNnG分别除以其自身向量的频数总和进行归一化处理,进一步计算其对数比,如式(3)所示:川。g

15、(器黠o 222情感词语的逆文档频率IDFNBSVM是将文档词频信息的归一化对数比作为特征权重,其形式如式(3)所示。受到基于模糊推理的词语隶属度构建方法【15】的启发,我们通过分析认为,在归一化频数的基础上,融合特征对应各个类别的逆文档频率(IDF)信息,能够使特征具有更好的类别指向性,从而削弱在各类极性的情感句中大量出现的无关特征对分类性能的影响,可以作为词语的模糊情感极性隶属度的一种表示方法。因此,为词语计算对应的正负两类的IDFPos和IDFNEG,如式(4)和(5)所示:r, +q 、IDFPos=109l孚等l, (4)I,uounI pos厂,它 + 、IDF。NEG=logI芒

16、三等I, (5)L乙ouIu neg其中,Counti。表示含有特征f且极性为正向的样例的数量,反之为负向,计算时同样使用加1平滑。昂。和爵。分别表示训练数据中正向极性样例和负向极性样例的数量。23词语情感隶属度常见的隶属度函数确定方法包括模糊统计法、例证法、专家经验法等。为了避免在选择时受到主观因素的过多影响,本文采用模糊统计法计算每个词语的正、负情感隶属度。模糊统计法是通过n次重复独立统计实验来确定某个特征词对正、负情感词语模糊集合的隶属度,其形式上与概率统计法比较类似,但二者分别属于不同的数学模型。我们以TFIDF表示法为原型,通过对频数向量http:wwwcsientuedutwcjl

17、inliblinearhttp:tcciccforgcnconfcrence20 14pagespage04一evahtml的归一化,平衡词频对极性类别的影响。归一化向量对应的与相同极性的IDF的积做为每个特征对于正负情感极性的最终隶属度,正负情感隶属度计算如式(6)和(7)所示:MPoS=(T50sIITF,osmFPos, (6)MN阳=(TFkGIITFN。GDFN。G。 (7)24词语情感隶属度特征表示23节定义了基于TFIDF的词语情感隶属度函数,能够给每个特征确定它隶属于两个情感极性模糊集合的程度。为了量化正负情感隶属度大小对特征的情感指向的作用,我们将两类隶属度函数值进行融合,把

18、正负情感隶属度的对数比作为特征权重值,特征i的权重计算方法如式(8)所示:纠气(TTFos川llTT瞄Fpost1)脚IDFiil,oso(8)25支持向量机SVM支持向量机的基本原理是通过对有类标记的训练数据构造相应的模型,继而应用模型通过测试数据中的属性特征来预测其对应的类标记。训练数据形式是成对的样例和标签,Y。),f_1,r,其中xiR”,yE一1,+1)。为了解决某些样本点线性不可分,引入松弛变量60,改变约束条件为yi(wxi+b)卜6,目标函数由原来的剖,旷变为m。in寺,w+c善(,;薯,只), (9)1 U。、 H 、。其中,C0是惩罚系数,它决定了对于误分类的惩罚的大小,一

19、般根据实际问题确定。由于Linear是应对大规模训练任务的快捷有效的SVM分类器,且Linear能够支持L2一regularized逻辑回归(LR)和L2一loss,L110ss线性支持向量机,因此选择Linear作为本文的SVM工具,可选训练参数S为0,即应用L2正规化逻辑回归,对应的式(9)中孝=log(1+e一咒1)。3实验结果与分析为了对上述方法进行全面的验证,分别对汽车领域产品评论、NLPCC 2014评测的数据和英文影173万方数据北京大学学报(自然科学版)第52卷 第1期 2016年1月评IMDB数据进行情感极性分类。下面给出相应的实验设置、结果及其分析。31 实验设置如表1所示

20、,我们给出三类实验数据的统计信息。语料分别是从汽车之家爬取的汽车领域的多品牌网络用户评价、NLPCC2014评测中的情感分类任务数据(多领域产品评论)和IMDB(大规模英文公开影评)。其中IMDB数据共有影评10万句,使用方法与Le等【3】相同,包含有标注的25000条训练语句、25000条测试语句,其余5万句是无标注的语句,仅在无监督地训练词向量时使用,标注的语句分为正向极性、负向极性两类标签。实验的评测指标为准确率(accuracy,Acc)、精确率(Precision,P)、召回率(Recall,R)和凡测度(用。为了进一步验证基于情感隶属度的特征表示的有效性,本文还考虑用以下4种方法作

21、为实验的基线方法。1)RNNLM+NaiveBayes:Mikolov等【2】提出的基于递归神经网络的语言模型(RNNLM),在语音识别实验的结果中验证了RNNLM明显优于Ngram语言模型。此处RNNLM基于简单的Elman神经网络1 6|,它是一个包含输入层、隐藏状态层和输出层的神经网络,能够允许应用更大窗口的上下文来完成对序列中其他词的预测,在训练时能做到更好的数据平滑。但在实际训练中,上下文的窗口大小还会受梯度下降效率的限制。本文利用RNN语言模型,借助贝叶斯法则计算每个测试样例属于正负极性类别的概率,从而完成分类。本文RNNLM相关实验应用RNNLM Toolkit完成,具体训练参数

22、设定为-hidden(50), -direct-order(3),-direct(200),-class(1 00),-debug(2),-bptt(4),-bptt-block(1 0)。表1语料统计信息Table 1 Basic statistics of the experiment data174http:aistanfordedu一amaasdatasentimenthttp:wwwautohomecorncnhttp:wwwfitvutbrcz-imikolovrnnlmhttps:codegooglecompword2vec21 Paragraph Vector+SVM:Le掣3

23、】提出的无监督的对句子、段落或文本预测得到定长的向量表示,可以作为特征用于有监督的分类框架。具体地,将句子向量看做一个特殊的主题词向量,应用随机梯度下降训练词语语义向量表示,再用这些词向量进一步推断句子向量表示,将得到的向量表示作为支持向量机分类器的特征完成句子情感分类。其中,句子向量合成的相关实验借助word2vec完成。在训练句子向量阶段,我们选择的语言模型为SkipGram,向量维度设定了不同的大d(100,200和300),训练的窗口大小设定为10,同时使用HS和NEG方法,其他参数为默认值。3)Bool+SVM:最传统的布尔权重支持向量机应用,同样作为本文的基线系统实验,分别考察不同

24、特征集结合布尔权重的分类效果。4)NBSVM:由Wang等【5】提出的线性分类器,是由归一化特征频数的对数比作为特征权重的、基于支持向量机的分类框架。为了全面对比特征与特征权重的结合对分类效果的影响,选择在相关研究中常用且有效的类别指向信息【35】作为本文的特征集:1)基于Ngrams的特征集,包含一元语法词组(unigram)、二元语法词组(bigram)和三元语法词组(trigram);2)基于词性信息的特征集,包括名词、动词、形容词、代词、数词、量词等实词。由于否定副词和一些程度副词也是对情感表达有指向作用的词汇,本文将副词特征也加入实词特征中。32实验结果与分析321汽车评论语料情感极

25、性分类结果针对汽车产品评论设置的实验及其结果如表2所示,在Paragraph Vector相关实验中,鉴于对生成的语义向量表示准确性的考虑,在无监督的向量训练阶段,我们在训练语料中加入26729句爬取得到的网络汽车评论作为背景语料,帮助得到更为有效的embedding向量表示。在生成句子向量表示时,分别考察了不同维度大小对结果的影响,表2第一列括号内的数字表示生成的向量的维数。本文提出的将词语情感隶属度对数比作为特征权重的方法,在实验结果中以Fuzzy+SVM作为标记。万方数据宋佳颖等 基于词语情感隶属度特征的情感极性分类说明:粗体数字表示该指标下的最好结果。下同。从表2可以看出,在特征选择方

26、面,通常三元语法特征优于二元语法特征,二元语法特征优于一元语法特征,但在SVM结合布尔权重和应用NBSVM时却不符合我们的理论推断。分析其原因为语料规模较小,数据稀疏造成结果的不稳定性;另外,简单的布尔权重使得大部分三元特征的权重为1,无法很好地衡量这些多词组特征的情感指向比重。在句子向量(Paragraph vector)和情感隶属度对数比特征的SVM(Fuzzy+SVM)实验结果中,特征不同时呈现的分类性能都符合常规的理论推断,在一定程度说明三元语法特征较二元、一元特征具有更好的限定性,能够更准确地获取句中的词序关系。同时,从准确率方面来看,虽然实词特征较一元的词语特征更为有效,但依然不如

27、二元、三元短语特征,说明高阶的短语特征使组合的词语具有更准确的限定性,更全面涵盖句子情感信息。在分类效果方面,可以看出原有方法中的NBSVM具有较好的分类性能,随着特征的优化,能够得到更佳的结果,同时其结果优于基于RNN语言模型和句子向量合成的方法,说明虽然语义向量信息的获取能够促进抽取、相似度衡量等工作的发展,但如何从语义信息中有针对性的挖掘情感信息,仍有待研究。本文提出的fuzzy+SVM在同等特征集作用时,取得优于NBSVM的分类效果,进一步说明在确定特征权重时,在特征频数归一化的基础上,融合IDF信息后,去除了在正负极性中都大量出现的特征对隶属度的影响,使得到的特征情感隶属度能更全面描

28、述各个特征对于类别的指向作用。322 NLPCC2014评测数据情感极性分类结果为了进一步验证方法的性能,使用NLPCC评测的公开数据进行实验,本轮实验主要考察性能较好且比较接近的三类基于支持向量机的方法。由于数据规模的限制会在很大程度上影响无监督训练的过程,本轮实验没有采用训练句子向量作为特征,表3列出同样使用NLPCC数据的Wang等【17】的结果用于比对。从表3可以看出:1)同类方法不同特征相对比,呈现出三元语法特征优于二元语法特征,而二元语法特征也好于一元语法特征的现象,这完全符合高阶语法模型能够更准确地限定上下文的特点,同时反映出语料规模较小(如汽车评论)时,对理论的验证可能存在偏差

29、,容易对研究方法的走向形成错误指引;2)在NLPCC数据集上的实验结果表明,基于情感隶属度对数比特征的系统在所有评测指标中均取得最好性能。表3中,Wang等【1 7】采用的是通过深度学习得到的词语向量特征表示结合逻辑回归分类器的方法。NLPCC2014评测数据集上的对比实验结果表明了本文提出的基于隶属度的特征表示方175万方数据北京大学学报(自然科学版)第52卷第l期 2016年1月表4 IMDB数据集上的情感分类结果Table 4 Results of polarity classification over the IMDB dataset 法的有效性。323 IMDB情感极性分类结果除中

30、文产品评论和NLPCC2014评测数据集以外,我们还选择了常用于情感分类任务的英文语料IMDB数据,并且应用各类方法的最好参数进行情感分类,包含代表性最强的trigram特征以及语义表示效果最好的300维向量特征。在完成句子向量特征的实验Paragraph Vector时,我们在无监督训练阶段没有借助其他数据,而是使用完整的IMDB数据(共100000句)训练得到对应的句子向量。实验结果如表4所示。从表4可以看出,在IMDB数据集上的实验结果中,本文方法得到的综合准确率和F值都表现出最大优势,精确率和召回率均处于较好位置,说明本文确定的情感隶属度是对词语极性和强度的有效度量。Wang等151针

31、对IMDB数据得到9122的准确率,相比之下,本文提出的基于词语情感隶属度的特征值表示方法更具有实际意义。由于本文方法176完全是基于语料库的统计方法,不对语言种类、领域做任何限定,上述结果中的英文数据实验就形成了本文方法有效性的完整印证。4结论与展望根据情感极性分类研究现状,在现有方法的基础上,本文以TFIDF为原型,融合模糊推理的隶属度确定方法,进一步为词语设定了情感极性隶属度,从而得到基于词语情感隶属度的特征值表示方法。分别对汽车领域评论、NLPCC评测数据和IMDB数据集进行实验,结果显示,通过优化特征和权重,在传统的机器学习分类框架下依然能够取得很好的分类性能。虽然本文实验取得了预期

32、结果,证明了融合的情感隶属度特征值对于情感分类问题的有效性,但没能在整体框架下实现全面创新,仅取得小幅度的提高。后续工作应该全面深化对问题的研究,扩大数据规模,并挖掘更有效的有指向性的特征。万方数据宋佳颖等 基于词语情感隶属度特征的情感极性分类参考文献1】Socher R,Pennington J,Huang E H,et a1Semi-supervised recursive autoencoders for predictingsentiment distributionsProceedings of EMNLP11East Stroudsburg,2011:151-1612Mikolov

33、 TKarafiit M,Burger L,et a1Recurrentneural network based language modelProceedingsof INTERSPEECH10Chiba,2010:104510483】Le Q v,Mikolov TDistributed representations ofsentences and documentsProcedings of the 3 1 stInternational Conference on Machine LearningBering,2014:118811964】Zhang Dongwen,Xu Hua,S

34、u Zengcai,et a1Chinesecomments sentiment classi6cation based on word2vecand SVM perfExpert Systems with Applications,201 5,42(4):1 857一l 863【5】Wang S,Manning C DBaselines and bigrams:simple,good sentiment and topic classificationProceedings ofACL12Jeju Island,2012:90946Ding Xiaowen,Liu Bing,Yu P SA

35、holistic lexicon-based approach to opinion miningProceedings ofWSDM08New York2008:23 l240【7】Taboada M,Brooke J,Tofiloski M,et a1Lexicon-based methods for sentiment analysisComputationalLinguistics,2011,37(2):2673078】Wang Hongning,Lu Yue,Zhai ChengxiangLatentaspect rating analysis on review text data

36、:a ratingregression approachProceedings of SIGKDD10New York,20 1 0:783-7929】Yang Bishan,Cardie CContext-aware learning forsentence-level sentiment analysis with posteriorregularizationProceedings of ACL14Baltimore,10】12】【13】14】1516】1712014:325-335Mikolov T,Chen K,Corrado G,et a1Efficientestimation o

37、f word representations in vectorspaceROLf20130907)201503-211http:arxivorgabs13013781Socher R,Perelygin A,Wu J Yet a1Recursive deepmodels for semantic eompositionality over a senti-ment treebankProceedings of EMNLP13Seattle,2013:1631-1642Bengio YCourville A,Vincent PRepresentationlearning:a review an

38、d new perspectivesIEEETransactions on Pattern Analysis and MachineIntelligence,2013,35(8):1798-1828Bespalov D,Bai B,Qi Yet a1Sentimentclassification based on supervised latent NgramanalysisProceedings of CIKM11Glasgow,201 1:375-382Tang Duyu,Wei Furu,Yang Nan,et a1Learningsentiment-specific word embe

39、dding for twittersentiment classificationProceedings of ACL14Baltimore2014:15551565Aida-zade K,Rustamov S,Mustafayev E,et a1Humancomputer dialogue understanding hybridsystemProceedings of the 2012 InternationalSymposium on Innovations in Intelligent Systems andApplications(INISTA)Trabzon,2012:1-5Elman J LDistributed representations,simplerecurrent networks, and grammatical structureMachine Learning,1991,7(23):195225Wang Yuan,Li Zhaohui,Liu Jie,et a1Word vectormodeling for sentiment analysis of product reviewsCCISLPCC14)Shenzhen,2014,496:168-180177万方数据

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 研究报告 > 论证报告

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com