基于语义约束lda的商品特征和情感词提取-彭云.pdf-得力文库

资源描述

《基于语义约束lda的商品特征和情感词提取-彭云.pdf》由会员分享，可在线阅读，更多相关《基于语义约束lda的商品特征和情感词提取-彭云.pdf（18页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、软件学报ISSN looO9825，CODEN RUxuEw，o“r”口，可s咖d旭，2017，28(3)：676693【doi：1013328巧cnkijos005154中国科学院软件研究所版权所有基于语义约束LDA的商品特征和情感词提取丰彭云1，2，3，万常选1r，江腾蛟1r，刘德喜1r，刘喜平1r，廖国琼1，31(江西财经大学信息管理学院，江西南昌 330013)2(江西师范大学计算机信息工程学院，江西南昌 330022)3(数据与知识工程江西省高校重点实验室(江西财经大学)，江西南昌 330013)通讯作者：万常选，Email：wanchangxuan263_netEmail：jos

2、iscasaccnhttp：wwwJoso唱cnTel：+8610一62562563摘要：随着网络购物的发展，w曲上产生了大量的商品评论文本数据，其中蕴含着丰富的评价知识如何从这些海量评论文本中有效地提取商品特征和情感词，进而获取特征级别的情感倾向，是进行商品评论细粒度情感分析的关键根据中文商品评论文本的特点，从句法分析、词义理解和语境相关等多角度获取词语间的语义关系，然后将其作为约束知识嵌入到主题模型，提出语义关系约束的主题模型sRcLDA(semantic relation constrainedLDAl用来实现语义指导下LDA的细粒度主题词提取由于sRcLDA改善了标准LDA对于主题词

3、的语义理解和识别能力，从而提高了相同主题下主题词分配的关联度和不同主题下主题词分配的区分度，可以更多地发现细粒度特征词、情感词及其之间的语义关联性疾验结果表明，sRcLDA对于细粒度特征和情感词的发现和提取具有较好的效果关键词： LDA模型；语义约束；商品特征；情感词中图法分类号：TP311中文引用格式：彭云，万常选，江腾蛟，刘德喜，刘喜平，廖国琼基于语义约束LDA的商品特征和情感词提取软件学报，20l 7，28(3)：676693http：wwwJosorgcn100098255154htm9芝文弓I用格式：Peng Y，Wan Cx，Jiang TJ，Liu Dx，Liu xP，Liao

4、GQExtracting product aspects and user opinions based onsemantic constrained LDA modelRuan Jian Xue BaoJoumal of Software，2017，28(3)：676693(in Chinese)http：wwwJosorgcn1000一98255154htmExtracting Product Aspects and User opinions Based on Semantic Constrained LDA ModelPENG YUnl，2一，WAN ChangXuanlr， JIAN

5、G Teng_Jia01， LIU DeXil，一， LIU XiPin91r， LIA0 GuoQion9131(Sch001 ofInformation and Technology，Jiangxi University ofFinance and Economics，Nanchang 330013，China)2(school of Computer and Information Engineering，Jiangxi NormaI university，Nanchang 330022，China)3(Jiangxi Key Laboratory ofData and Knowledg

6、e Engineering(Jiangxi university ofFinance and Economics)，Nanchang 330013，China)Abstract：With the development of online shopping，the Web has produced a la唱e quantity of product reViews containing abundantevaluation knowledge about productsHow to extract aspect and opinion words from the reViews and

7、further obtain the sentiment p01arityofthe products at aspect level is the key problems to s01Ve in flnegrained sentiment analysis ofproduct reViewsFirst，considering certainfeatures of Chinese product reviews，this paper designs methods to deriVe semantic relationships among words through syntactic a

8、nalysis，word meaning understanding and context releVance，and then embed them as constrained knowledge into the topic modelsecond，asemantic relation constrained topic model called SRCLDA is proposed to guide the LDA to extract fine-grained topical wordsTllroughthe improvement of semantic comprehensio

9、n and recognition ability of topical words in standard LDA，the pfoposed model can increase基金项目：国家自然科学基金(61562032，61662032，61662027，61173146，61363039，61363010，61462037，61562031)；江西省自然科学基金重大项目(20152AcB20003)；江西省高等学校科技落地计划(对LDl2022，KJLDl4035)Foundation item：National Natural Science Foundation ofChina(6

10、1562032，61662032，61662027，61173146，61363039，613630lO，61462037，61562031)；江西省自然科学基金重大项目(20152ACB20003)；江西省高等学校科技落地计划(LDl2022，K儿D14035)收稿时间：201607一03；修改时间：20160914；采用时间：2叭6-1l-01；jos在线出版时间：20161129cNKI网络优先出版：2016-11-29 13：34：56，http：，wwwcnkilnetkcmsdetail112560TP201611291334001html万方数据彭云等：基于语义约束LDA的商品特

11、征和情感词提取 677the words correlation under the same topic and the discrimination under the different topics，thus revealing more flnegrained aspectwords，opinion words and their semantic associationsThe expe“mental results show mat SRCLDA is an eHective approach fornne-grained aspects and opinion words ex

12、tractionKey words： latent Di“chlet a110cation model；semantic constraint；product aspect；opinion word随着互联网的普及和网络购物所带来的便捷性，网络购物呈现出了前所未有的爆发式增长趋势由此，在购物网站上产生了大量的商品评论文本数据，且日益呈现大数据化趋势要从海量的非结构化在线评论文本数据中获得有用的信息，通过人工方式进行处理的难度越来越大，希望通过相应的技术对这些评论文档进行自动化处理、分析，提取有用的知识在这样的应用需求背景下，出现了针对文本的情感分析(sentiment analysis)技术情

13、感分析也叫观点挖掘(opinion mining)，主要研究人们对某一类实体如产品、服务、事件及其属性所表达的观点、情感和评价的相关问题，情感分析的数据对象主要是文本【1】人们在获取商品总体性评级的同时，有时候还希望了解更细致的商品功能及使用的评价情况，需要进行基于商品特征级别的细粒度的情感分析，以满足人们获取商品局部性特征评价信息的需求商品特征是指商品属性及构成商品的各个方面(aspect)，包括全局特征和局部特征：全局特征一般指整体对象及其属性，如“这款相机非常不错”中的“相机总体质量真的好”中的“质量”；局部特征指整体对象的组成部分及其属性，如“价格很高”中的“价格”“屏幕很清晰”中的“

14、屏幕”情感词是直接或间接对商品特征进行评价的词语，也有全局情感词和局部情感词之分：全局情感词一般用来描述、评价全局特征，如“相机很好”中的“好”、“质量不错”中的“不错”，且全局情感词具有一定的通用性，有时也可用来修饰局部特征，如“价格不错”等；局部情感词一般用来描述、评价局部特征，如“价格很实惠”中的“实惠”“屏幕很清晰”中的“清晰”商品评论是用自然语言表达的非结构化的文本数据，数据量非常庞大，需要综合运用自然语言理解及数据挖掘技术，并有效降低文本的数据表示维度，才有可能实现细粒度的特征和情感词挖掘利用LDA主题模型可以进行文本数据的降维，实现大规模文本数据的主题词提取，并通过主题聚类来获取

15、词语间的关联关系但LDA主题模型偏向于提取高频的全局性主题词和词语共现关系，在主题词语的概率分配过程中没有考虑词语间的语义关系，导致一些低频的、具有隐含语义关系的特征词和情感词提取的准确率和召回率不高，尤其在具有丰富语义关系的中文商品评论中具体表现如下(1) 难以提取低词频的同义特征在中文商品评论中，经常会出现多个不同词语描述同一特征，如“价格”“价位”和“价钱”由于LDA模型对高频的“价格”“价钱”较敏感，往往会忽略掉低频的“价位”，从而影响此类特征词的提取率：(2) 难以发现低词频的情感词在中文商品评论中，有些情感词只用来修饰某一个或某一类的特征，如“价格很公道”“色彩很鲜艳”中的“公道”

16、“鲜艳”这类情感词具有一定的专属性，词频相对于全局情感词要低很多，其与特征词的共现关系容易被其他高频情感词所湮没，使得LDA模型难以发现这类情感词；(3) 难以满足细粒度词语的主题分配要求一篇评论文档往往会对多个不同特征进行评价，如“相机不错，价格很实惠，屏幕清晰，电池也很耐用”中的“相机”“价格”“屏幕”和“电池”，要实现细粒度的特征提取，需要尽量将这些不同特征分配到不同主题；此评论句中也出现了多个情感词，如“不错”“实惠”“清晰”和“耐用”，需要将这些情感词分配到对应其关联特征的不同主题标准LDA倾向于将评论文档中高共现的特征词和情感词分配到同一主题，难以在主题分配中实现细粒度特征和情感词

17、之间的有效区分为了解决上述问题，实现细粒度的特征和情感词提取，需要有指导地进行主题词挖掘，即：对主题模型进行约束，形成监督效应来提取符合挖掘目标的主题词在主题模型中引入must1ink和cannotlink语义约束，使满足mustliIlk关系的词语尽量分配到同一主题，而满足cannot1ink关系的词语尽量分配到不同主题本文试图从语义关系的发现来探索词语间的关联性，利用关联性进一步对主题模型形成约束机制，从而发现特征和情感词之间的隐含关系引入词语之间的语义关系可以提升主题模型的语义理解能力，提高识别局部词语间关联关系的能力，更多地发现细粒度的特征和情感词本文的主要贡献包括：万方数据678 如

18、甜Md，Q厂跏舢口陀软件学报v0128，No3，March 2017(1)从中文商品评论的语言结构和特点出发，设计了获取特征词特征词、特征词一情感词和情感词情感词的must1ink和cannot1ink语义关系的方法：(2) 构建了基于must1ink和cannotliIlk的语义关系图，设计了利用语义关系图来指导主题模型进行主题一词语分配的约束机制：(3) 将语义关系知识嵌入到LDA模型，提出了细粒度商品特征和情感词提取模型SRCLDA本文第l节介绍相关工作第2节构建语义关系图第3节设计SRCLDA模型第4节进行实验分析最后部分是总结与展望1相关工作在商品特征和情感词的提取研究中，主要方法有

19、以下几类(1)基于词频和共现的方法在商品特征及情感词的提取中，由于商品特征通常是名词或名词短语，且特征和情感词具有一定共现性，有些研究基于频繁名词和共现规则的方法提取特征和情感词Hu等人【2抽取出现频率大的名词及名词短语作为候选商品特征，通过压缩剪枝和冗余剪枝策略对提取的频繁商品特征进行筛选，抽取特征词附近的形容词作为情感词，再使用关联规则挖掘识别频繁商品特征，最后，利用抽取的情感词来识别非频繁的特征Popescu等人【3】将商品特征看作是商品的一部分，使用候选商品特征和领域特征之间的共现来提取商品特征，并使用点互信息PMI(pointwise mutualinfomation)表示关联程度，

20、最终按关联程度大小选择商品特征该方法提高了商品特征提取的准确率，但召回率有所下降基于词频的方法会造成部分低频特征词的丢失，并容易产生高频的非特征词同时，随着商品评论数量的增加，共现及关联规则很难覆盖日益复杂的文本语法及语义结构关系(2)基于机器学习的方法Jakob等人4】利用条件随机场CRF(conditionalraIldom fields)模型提取特征；Jin等人【5】将特征词和情感词的提取看做是一个序列标注任务：评论中的每个词都对应一个标签类别，提出使用词汇化的隐马尔可夫模型(1exicalized HMM)寻找最有可能的标签序列su等人6】提出一个相互增强准则来挖掘特征和情感词之间的隐

21、式关联，并基于聚类的方法将隐含特征识别出来王荣洋等人【_7】基于CRFs模型研究了多种特征及其组合在特征提取上的效果，重点引入了语义角色标注新特征上述基于机器学习的方法需要人工标注数据集，当商品评论的数据量很大时，要耗费大量的人力(3)基于句法依存的方法刘鸿宇等人【8】基于句法分析获得名词和名词短语的候选特征，然后，结合PMI和名词剪枝算法对候选特征进行筛选获得最终结果wu等人【9】利用依存分析发现评论中商品特征与情感词之间的联系，并使用TreekemelSVM(support vector machine)方法将情感词和商品特征的组合进行分类，分为“相关”“不相关”两类赵妍妍等人【1 o】利

22、用统计方法来获取描述评价对象及其评价词语之间修饰关系的句法路径，提出了一种基于句法路径的情感评价单元自动识别方法，并通过句法路径编辑距离的计算来改进情感评价单元抽取的性能Qiu等人【11】提出了一种Double Propagation方法同时进行情感词和特征词的识别与抽取，在定义一系列种子情感词的基础上，制定了特征词和情感词之间的规则关系，通过不断迭代将情感词抽取与识别出来姚天畴等人12】基于依存句法分析总结出“上行路径”和“下行路径”的匹配规则，进而总结出sBV(主谓关系)极性传递的一些规则，用于情感评价单元的识别Poria等人【13利用商品评论中的语言常识及句法依存树来发现显性和隐性的特征

23、，算法的准确性依赖于句法分析和情感词典由于商品评论文本的语法结构较为随意，基于句法依存的方法难以穷尽其句式结构关系，在非规范格式评论文本中难以识别特征和情感词关系(4)基于改进的LDA方法由于商品评论数据量极大，同时行文较为自由，有些研究者试图利用LDA(1atent dirichlet allocation)主题模万方数据彭云等：基于语义约束LDA的商品特征和情感词提取 679型【14J的文本降维及主题聚类作用，通过提取主题词来发现特征和情感词LDA是一种概率生成模型，结构包括3层：文档、主题和词语，主要思想是：文档是主题的随机混合；主题是满足一定概率分布的词语组合LDA将表达文本的词向量转

24、化为主题向量，降低了文本维度，同时，在文本生成过程中可以提取主题词由于LDA倾向于产生全局性的主题词，为了提取更多的局部主题词，以下研究对标准LDA主题模型进行了扩展，包括两类模型：一类仅提取特征；一类同时提取特征和情感词特征提取Titov等人【15J将标准LDA模型扩展为多粒度MGLDA(multigrain LDA)模型，并假设全局主题倾向于捕获商品总体属性而局部主题倾向于捕获用户评价的商品特征，在此基础上对全局主题和局部主题两类不同类型的主题建模Andrzeiewski等人【16】将领域知识用Dirichlet森林先验的方式加入到LDA中，提出了DFLDA(dirichlet fores

25、t LDA)模型，引入了MustLink和cannotLink两种约束作为先验知识但是随着文档数量的增加，该模型的计算复杂度呈指数级增长，给模型的运算带来了困难zhai等人【l 7J提出了带约束的LDAfconstrainedLDA)模型来实现商品特征抽取及分组，设置了must1ink和c锄not1ink两种约束类型：一种约束将具有相同成分的特征词归属于同一主题，另一种约束将同一语句中的特征词划分到不同主题(即，一个语句中不会同时出现相同特征的评价)Chen等人【18】将mustset和cannotset引入LDA，其中，mustset中的词语属于同一主题的概率较高，而cannotset中的词

26、语属于同一主题的概率较低，提出了McLDA(LDA with m-set and c-set)模型，用于提取特征词Ba曲eri等人【19】提出了基于LDA的特征发现模型ADMLDA(aspect detection modelbased on LDA)，关注的核心任务是如何从评价句子中提取所需的特征区别于标准LDA的词袋模型，ADMLDA假设一个句子中的特征相关词构成一个马尔可夫链，并将这种词语结构信息融入模型；同时，对文档内部特征分布的条件独立性假设进行了松弛处理马柏樟等人【20】利用LDA筛选出候选产品特征词集合，进而通过同义词词林拓展和过滤规则得到最终的产品特征集chen等人【21】在模

27、型中加入先验知识来指导特征提取，提出了AKL(automated l(Ilowledge LDA)模型先验知识的获取无须人工输入，而是自动从商品评论大数据中得到，并且来自于不同的商品领域特征和情感词提取Lin等人【221在标准LDA模型的基础上加入了情感层，并考虑每一个情感不同的特征分布，提出了JsT(；ointsentiment topic)模型用来同时识别主题和情感Lu等人【23】提出了STM(sentiment topic model)模型，对文档和句子级别的主题联合建模，利用极少量先验知识(种子词形式)来加强主题和特征词的直接关联性，并通过训练总体极性的回归模型进行情感极性预测Jo等人

28、【24l假设一个句子仅有一个特征，且句子中的所有词语都由某一个特征来生成，首先提出了sLDA(sentenceLDA)模型，其主要任务是用来发现特征词；在此基础上提出了AsuM(aspect and sentiment unification model)模型，它是sLDA模型的扩展，将特征和情感合并同时进行建模，用来发现特征词情感词匹配单元由于没有特征词和情感词先验关联知识的引入，仅依赖LDA本身的先验分布难以识别一些句子级别的词语关系Mo曲add锄等人【2 5】将评价文本分解为情感短语的形式，提出了ILDA(interdependent LDA)模型，试图从情感短语中提取特征词及对应的情感

29、词孙艳等人【26】提出一种无监督的主题情感混合模型UTSu(uIlsupervised topic and sentiment unmcation)，通过在标准LDA模型中融入情感来实现，可实现文档级别的情感分类chen等人【27】提出了AMc(automatically generated must1inks and cannotlinks)主题模型，并在模型中加入了Must1inks和Cannot1inks约束知识，用来提取特征词和情感词Must1inks和Cannotlinks都是基于已有的LDA主题模型从多领域数据中获取，其中，Mustlinks中的词语关系知识是利用相同主题下高频率的

30、top词语获得，而Cannot1inks中的词语关系则利用不同主题间的高频率top词语获得由于约束知识的获取直接来源于LDA，所以会忽略一些低频的特征词和情感词Dennouche等人【28】针对目前提取主题词和情感词时往往没有考虑它们之间关联关系的问题，提出了主题情感TS(topicsentiment)主题模型，并基于Gibbs抽样过程进行模型参数推导TS模型区别于已有模型的特点包括：同样主题的不同描述对应了不同的情感极性，强调情感极性的分布和特定主题的关联性；模型考虑了主题与情感词的关联性，通过在LDA中加入情感层来实现，但没有分析主题下特征词和情感词的关联性欧阳继红等人【29】基于主题情感

31、混合模型JsT和万方数据680 乃“埘口，矿跏阳软件学报v0128，No3，March 2017RJsT(reverse ioint sentiment topic model)并综合文档级和局部级两个粒度上的情感主题分布，进一步提出了MG_JsT(multi gmin JsT)和MGRJsT模型厶够同时抽取文档的主题和情感信息一些研究将马尔可夫链、最大熵等引入主题模型，实现特征词、情感词提取以及情感极性分类【30_33】文献3406】利用一些外部信息和知识来影响LDA的主题词提取，如产品信息、用户行为和人口学知识等对LDA主题模型的研究现状进行分析，发现LDA适于提取全局特征词和全局情感词，

32、难以满足细粒度情感分析的要求，其无监督学习方式也使得提取的主题往往难以符合预期的领域知识挖掘目标对LDA主题模型进行改造，加入先验知识来提高局部主题词的发现率，是目前细粒度情感分析研究的热点和趋势LDA是词袋型概率生成模型，提取的词语关联性主要体现在文档级别的共现，无法深入地理解词语之间的语义关联，从而可能将共现高但无语义关联的词语分配到同一主题，或将共现低但语义关联强的词语分配到不同主题，造成提取的主题词不能真实反映特征和情感词的关系已有的must1ink和cannot1ink语义关系约束获取没有分析特征词和情感词之间的关系，容易造成情感词和特征词的主题分配不准确如，同一情感词可修饰不同特征

33、、同义情感词可修饰不同特征等基于大数据背景下的中文商品评论文本，本文提出了基于特征词和情感词的3类must_lillk和cannot1ink语义关系，在保留LDA的大容量文本主题词提取功能的基础上，从语义约束角度对主题模型进行弱监督改造，提升了LDA对中文商品评论文本的语义理解能力，使它能够按照预定语义目标进行主题词挖掘，实现细粒度商品特征和情感词的提取。2语义关系图构建引入语义关系的目的是为了影响主题模型的主题词语分配，通过语义关系尽量发现更多的局部低频特征词和情感词，并增强同类特征及情感词分配到同一主题的概率，同时减少不同类特征及情感词分配到同一主题的概率。提高细粒度主题词及其关系提取的准

34、确率和召回率词语语义关系的获取来自于文本自身的词、句结构，通过分析候选特征词和候选情感词之间的语义关系，提取特征词之间、特征词和情感词之间以及情感词之间存在的must1ink(w1，w2，w。)和cannot1ink(w1，w2，w。)关系，其中，w1，w2，表示候选的特征词或情感词属于mustIilll【语义关系集合(简记为MS)的词语应尽量分配到同一主题，而属于cannotIink语义关系集合(简记为CSl的词语应尽量分配到不同主题21特征词之间的语义关系获取(1)特征词之间的Ms(简记为M。)关注词语的同义性，同义特征词可以互相取代，应尽量分配到同一主题，如“价格”“价钱”和“价位”等这

35、类词语间具有较强的must1ink语义关系，一些低频的特征词通过mustlink关系可关联到高频特征词，从而有利于LDA的识别候选特征词是名词和动名词，利用同义词词林扩展版的层级结构可以获取候选特征词之问的同义关系，见公式(1)s(w，w，)：嬲dM hav锄。o (1)Iu，else其中，wi，w，)等于1表示词语wl和w2具有同义性，k4表示同义词词林的前4层结构在获取M。候选特征词后，可构建如图l所示的语义关系图，每一个连通子图对应一个同义特征词聚类簇市标银屏荧光Fig1 Semantic relationships diagram of must-link between aspect

36、s and aspects图1 特征词特征词的M&。语义关系图万方数据彭云等：基于语义约束LDA的商品特征和情感词提取 681(2)特征词之间的cs(简记为e&。)考虑同一句子中特征词的不可重复性，即，一个复句中多个单句的评价特征的互斥性例1：“板板不错，外观很漂亮，价格合适，图像清晰，性能还行”的词性标注和依存句法分析如图2所示，其中，“板板”“外观价格图像”和“性能”是5个不同的特征考虑到复旬中的候选特征之间具有一定的句法依存关系，设置句法规则来获取候选特征词RFig2 POS tagging and dependency parsing of Exp1图2例1的词性标注和依存句法分析规则

37、1一个复句中的单句满足SBV(主谓关系)依存结构关系，对应的主语名词(或动名词)组成候选特征词集根据规则1，从图2中可以获得候选特征词集板板，外观，价格，图像，性能)在获取砜。的多个候选特征词集后，可以进行集合间的合并，使得各集合之间不存在共有词语，可构成如图3所示的语义关系图，其中，词语节点问有连接边表示存在ca皿ot1i11k关系外观清晰度图像音质Fig3 Semantic relationships dia掣am of cannot-link between aspects and aspects图3特征词特征词的c惋。语义关系图22特征词和情感词之间的语义关系获取(1)特征词和情感词

38、之间的MS(简记为朋。)不考虑LDA容易发现的高频全局共现关系，主要关注局部特征词和局部情感词之间的共现关系，尤其是情感词修饰特征词的专有关系例2：“价格很公道”“霸气的外观”的词性标注和依存句法分析如图4所示，其中，情感词“公道”“霸气”只修饰一个或一类特征词，这些情感词一般词频较低，不易被LDA发现通过句法结构分析和词性关系规则识别候选特征词和情感词，并利用改进的PMI算法进行共现的专有性识别，实现候选特征词和情感词的筛选雩荨氧，一层象飞，拦R00t价格很玎 d公道 Root霸气口wD 日的外观甜口 wpFig4 POS tagging and dependency parsing

39、 of Exp2图4例2的词性标注和依存句法分析规则2一个单句中满足SBV(主谓关系)或ATT(定中关系)依存结构关系，对应的名词(或动名词)为候选特征词，对应的形容词为候选情感词万方数据682 乃甜聊口，Q厂蛳陀软件学报v0128，No3，March 2017根据规则2，从图4中可以识别候选特征词和情感词集(价格，公道)，(外观，霸气)在句法分析的基础上，设计改进的PMI算法来计算特征词和情感词之间的关系，以获取符合语义要求的候选特征词和情感词计算候选特征词和情感词之间的语义关系强度OEs-PMI(opinion exclusive in sentence PMI)见公式(2)，即使共现频率

40、不高，但情感词对于特征词具有专属性，也会有较高的语义关系强度oSEP瑚i，wi)= ，厂(w)慨i姑蛾i：簿：一K鸯)：一慨1Fig9 Semantic relationships of4SG图9语义关系图螂G霪舔j瓯【磐黪蛾Fig1 O Semantic relationships of CSG图10语义关系图CSG在图9中，包括朋&。，朋&。和M&。这3层其中，埘&。中包含多个不相交的同义特征词集合；幡0层中的局部情感词集合关联于对应的特征词；朋&。中的情感词和埘&。层中情感词形成近义、反义关系，并同时关联到对应万方数据684 知甜聊口，矿胁日比软件学报v0128，No3，March 20

41、17的特征词在图10中，包括c鼍。，瓯。+c这两层其中，强。中包含多个不相交的特征词集合；在c倪。+呱。层中，首先利用C倪。获取局部情感词和对应特征词的cannot1iIlk关系，然后利用C髋。得到对应于同一特征词的局部情感词之间的cannotlink关系3 SRCLDA模型设计31语义约束机制语义约束可以增加相同主题下词语的语义一致性，同时减少不同主题下词语之间的耦合性，从而提取更多的细粒度特征词和情感词主要从以下3个方面考虑约束机制的设计(1) 改善LDA模型的语义理解能力，减弱无语义相关共现关系的影响，尽可能多地发现符合局部语义关系的特征和情感词：(2) 在主题模型的主题词语分配中，增强

42、满足MsG关系词语的同一主题分布概率，减弱满足csG关系的词语同一主题的分布概率，提高同主题词语间的内聚度，减少不同主题词语间的耦合度：(3)语义约束要弥补LDA对于低频关系识别的不足，提高共现频率低、但具有明显特征和情感词语义关系的词语的分配权重，更多地发现低频隐含关系将语义约束知识加入到LDA，通过概率增益对主题词语的分配产生影响，分两种情况进行计算(1) 在对名词或动名词w进行主题分配时，考察其是否属于MSG和CSG：如不属于，则不进行分配约束：否则，按照公式(4)进行分配概率增益g。(w)的计算，即，计算语义约束对于w分配到主题j的影响值98(w)=九甩。r(1一九)聆晴 (4)其中，

43、厶是分配调节因子，即。是主题七中已分配词语在MSG中的个数，玎靠是主题尼中已分配词语在CSG中的个数(2)在对形容词w进行主题分配时，分两种情况计算概率增益g气w)：以单句为单位考察和其相邻的名词或动名词w是否同属于MSG 若属于则增强w和w属于同一个主题的概率，92(w)计算如公式(5)，其中，矿是分配系数98(w)=乃矿一(1一九)胛曲 (5) 否则，g气w)计算见公式(6)g。(w)=乃玎。一(1一乃)7 (6)对公式(4)公式(6)进行归一化，得到值小于1的g。(w)约束机制的加入，在一定程度上指导主题词语的概率分配，同时又保留了LDA本身的主题词语分配机制，在发挥其主题聚类作用的同时

44、，实现细粒度的主题词挖掘，即细粒度特征和情感词的提取32 SRCLDA模型结构将上述约束加入到LDA形成SRCLDA(semantic relation constrained LDA)模型，如图11所示，图中的符号说明见表17Iable 1 Notations in SRCLDA model表1 sRCLDA模型符号说明符号说明符号说明口文档主题分布的Dirichlet参数 must1ink约束的主题一词语分布口主题一词语分布的Dirichlet参数 sG cannot1ink语义关系集p 文档一主题分布 caIlnot1ink约束的主题词语分布驴主题词语分布丁主题个数w 词

45、语 M 文档个数w w的相邻词语 M 文档的句子个数z 主题句子的词语个数岛8G mustIink语义关系集万方数据彭云等：基于语义约束LDA的商品特征和情感词提取Fig1 l SRCLDA model图11 SRCLDA模型68533文档生成过程SRCLDA模型的文档生成过程如下选择主题分布良Dfrfc矗彪f(；选择词语分布 if(wfs)选择词语分布，Dfrfc向把攻历(，是must-link因子)； else if(wfs)选择词语分布纯fDfrfc彪f(历(f是cannotlink因子)； else选择词语分布伊Dfrfc而把f(历；对于文档d的句子&中的词语：选择主题z广良

46、 if(wf晶据G)选择词语wj； if(wfsG)选择词语w广仇； else选择词语wrv仍34模型参数计算sRcLDA在原有的LDA模型基础上添加了语义约束条件在计算词语w属于某主题z的分布概率之前，先进行两类条件分析词性判断：词语w的语义关系判断模型参数的计算主要包括文档主题分布湃主题词语分布妒的计算，要实现这两个参数的计算，首先要对Gibbs抽样的概率公式进行求解sRcLDA模型在标准LDA的基础上引入了约束变量兀Gibbs抽样的概率公式见公式(71 Pc五=七I，z一，口，y，=主若糍j喜譬揣c7，由于!：!：竺：生!兰! ： !竺：!竺!壁!兰! (81JP(wf，zf，口，y)

47、P(一f，z一，I口，)、由公式(7)、公式(8)可以得到公式(9) P(气=尼I，zz，口，)j丢害揣=尸(wf，刁2后I口，厂)(9)公式(9)可进一步展开为公式(10)万方数据686 如材M口，Q厂脚口陀软件学报V0128，No3，March 2017P(w，z，=七I口，y)=P(wf I五=尼，口，y)P(zf=露I口，y)=P(wf l乞=七，y)P(z。=后Ia) (10)=P(w 1五=|i，)P(wj 1毛=尼，y)尸(乙=尼Ia)由公式(9)、公式(10)可得公式(11)P0f_蚓，z_f，6匕层力芘P(wJzf_t历P(wJzf=屯力P0f_纠功 (1 1)最终，SRCL

48、DA模型Gibbs抽样的概率估算公式为Pc乞1 w，z一，口，y，oc尸c。嘭1刁，y，舅岩兰等丢辫 c2，其中，w。)一，表示词语w，属于主题七的次数(本次抽样除外)，)一，表示所有词语属于主题_j的次数(本次抽样除外)，矿是词语总数，姒一，表示w，所在文档d属于主题后的次数(本次抽样除外)，协一，表示wf所在文档d属于所有主题的次数(本次抽样除外)由公式(12)得到分布参数铆Hp的计算公式，见公式(13)、公式(14)，其分布对应于文档d、主题七和词语w =锹蔫=禹(13)，t 2Pcl刁2尼，y，渊=c+g。cw，赫 c4，其中，c警是文档d在主题七中的出现次数，c譬是词语w在主题|中的出现次数，疋；表示本次抽样主题七外的所有主题，w_，表示词语集合中除本次抽

展开阅读全文