基于LDA模型的主题分析.pdf

上传人:asd****56 文档编号:69683352 上传时间:2023-01-07 格式:PDF 页数:7 大小:379.73KB
返回 下载 相关 举报
基于LDA模型的主题分析.pdf_第1页
第1页 / 共7页
基于LDA模型的主题分析.pdf_第2页
第2页 / 共7页
点击查看更多>>
资源描述

《基于LDA模型的主题分析.pdf》由会员分享,可在线阅读,更多相关《基于LDA模型的主题分析.pdf(7页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、第35卷第12期自动化学报Vol.35,No.122009年12月ACTA AUTOMATICA SINICADecember,2009基于LDA模型的主题分析石 晶1范 猛2李万龙1,3摘要在文本分割的基础上,确定片段主题,进而总结全文的中心主题,使文本的主题脉络呈现出来,主题以词串的形式表示.为了分析准确,利用LDA(Latent dirichlet allocation)为语料库及文本建模,以Clarity度量块间相似性,并通过局部最小值识别片段边界.依据词汇的香农信息提取片段主题词,采取背景词汇聚类及主题词联想的方式将主题词扩充到待分析文本之外,尝试挖掘隐藏于字词表面之下的文本内涵.实

2、验表明,文本分析的结果明显好于其他方法,可以为下一步文本推理的工作提供有价值的预处理.关键词主题分析,LDA模型,文本分割,Gibbs抽样中图分类号TP301Topic Analysis Based on LDA ModelSHI Jing1FAN Meng2LI Wan-Long1,3AbstractTopic spotting of segments is performed based ontext segmentation and the main topic of the whole text is thengeneralized.Topics are represented by

3、means of word clusters.LDA(Latent dirichlet allocation)is used to model corpora andtext.Clarity is taken as a metric for similarity of blocks andsegmentation points are identified by local minimum.The topicwords of segments are extracted according to Shannon informa-tion.Words which are not distinct

4、ly in the analyzed text can beincluded to express the topics with the help of word clusteringof background and topic words association.The significationbehind the words are attempted to be digged out.Experimentstell that the result of analyzing is far better than those of othermethods.Valuable pre-p

5、rocessing is provided for text reasoning.Key wordsTopic analysis,latent dirichlet allocation(LDA)model,text segmentation,Gibbs sampling文本的主题分析旨在确定一个文本的主题结构,即识别所讨论的主题,界定主题的外延,跟踪主题的转换,觉察主题间的关系等,分析结果对于信息提取、文摘自动生成、文本分类等领域都有极为重要的价值.主题分析的程度随着应用对象的不同有所区别,浅层次的分析仅仅确定主题边界(文本分割)12,或者进而指明不同片段间的关系(是否讨论同一主题)3;比较复

6、杂的分析能够在识别边界的基础上讨论主题的内容4.作为文本推理的预处理,本文研究如何将边界计算及主题表示集中在LDA(Latent dirichlet allocation)模型的框架下统一实现.欲利用统计的方法分析文本,首先必须选择合适的模型.文献4以不附加任何统计假设的有限混合模型(Fi-nite mixture model)代表文本中的词汇分布,直接利用EM(Expectation maximization)对其进行训练,导致的问题收稿日期2008-07-16收修改稿日期2009-03-25Received July 16,2008;in revised form March 25,200

7、9长春工业大学博士基金(2008A02)资助Supported by Changchun Technology University Doctoral Program(2008A02)1.长春工业大学计算机科学与工程学院 长春1300122.长春工业大学科研处 长春1300123.吉林大学计算机科学与技术学院 长春1300121.College of Computer Science and Engineering,Changchun Uni-versity of Technology,Changchun 1300122.Department of Sci-ence and Research

8、Administration,Changchun University of Tech-nology,Changchun 1300123.College of Computer Science andTechnology,Jilin University,Changchun 130012DOI:10.3724/SP.J.1004.2009.0158612期石 晶等:基于LDA模型的主题分析1587是出现局部极大值,且收敛速度过慢.文中假定不同的片段由不同的模型产生,每个模型单独训练,意味着分割时仅仅依靠本文档的信息,并不吸收语料库学习的知识,错误率必然较高.PLSA(Probabilistic

9、 latent semantic analysis)5是另一可选模型,但模型中的文档概率值与特定文档相关,因此缺乏处理新文档的自然方法.同时待估参数的数量随着文档数量的增多线性增长,说明模型易于过度拟合.与PLSA模型相比,LDA(Latent dirichlet allocation)6称得上是完全的生成模型.由于该模型将主题混合权重视为k维参数的潜在随机变量,而非与训练数据直接联系的个体参数集合,推理上采用Laplace近似,变分近似6,MCMC(Markov chain MonteCarlo)7以及期望扩散(Expectation-propagation)8等方法获取待估参数值,所以克服

10、了上述不足.本文基于LDA模型为语料库及文本建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,获取词汇的概率分布.然后:1)根据Clarity度量(基于词汇的概率分布值)求得句间相似性,以局部最小值的方式识别片段边界;2)依照香农信息(利用词汇的概率分布值计算)提取片段主题词,并通过语料库的词汇聚类产生联想;3)从联想后的片段主题词中提取全文中心主题词.由于充分利用了语料库的词汇聚类使主题词产生联想,从而大幅度提高了主题词提取的准确率.实验结果表明以该方法分析文本的主题脉络,其结果基本符合人的直觉判断,且明显优于其他模型及方法.本文的结构安排如下,第1节介绍LDA模型.第2节和第

11、3节介绍基于LDA模型的主题分析方法,其中第2节给出文本分割的策略;第3节详述在文本分割的基础上实现主题提取的方法以及如何通过词汇聚类提高提取的准确率.第4节给出测试手段及实验结果,并就实验结果进行讨论.第5节对比、分析相关研究及工作.最后总结全文.1LDA模型目前的概率主题模型一般基于同样的思想文本是若干主题的随机混合.不同的模型会进一步作不同的统计假设,以不同的方式获取模型参数.1.1模型介绍一个文本通常需要讨论若干主题,而文本中的特定词汇体现出所讨论的特定主题.在统计自然语言处理中,为文本主题建模的方法是视主题为词汇的概率分布,文本为这些主题的随机混合.假设有T个主题,则所给文本中的第i

12、个词汇wi可以表示如下:P(wi)=TXj=1P(wi|zi=j)P(zi=j)(1)其中,zi是潜在变量,表明第i个词汇记号wi取自该主题,P(wi|zi=j)是词汇wi记号属于主题j的概率,P(zi=j)给出主题j属于当前文本的概率.假定T个主题形成D个文本以W个唯一性词汇表示,为记号方便,令(z=j)w=P(z=j)表示对于主题j,W个词汇上的多项分布,其中w是W个唯一性词汇表中的词汇;令(d)z=j=P(z=j)表示对于文本d,T个主题上的多项分布,于是文本d中词汇w的概率为:P(w|d)=TXj=1(z=j)w(d)z=j(2)LDA模型6在(d)上作Dirichlet()的先验概率

13、假设,使得模型易于处理训练语料之外的新文本.为了便于模型参数的推理,本文除了在(d)上作对称的Dirichlet()的先验概率假设外,在(z)上亦作对称的Dirichlet()的先验概率假设9,如下:wi|zi,(zi)Discrete(zi),(zi)Dirichlet()zi|(di)Discrete(di),(di)Dirichlet()这里的可以理解为,在见到语料库的任何词汇之前,从主题抽样获得的词汇出现频数,而可以理解为,在见到任何文档文字之前,主题被抽样的频数.尽管和的具体取值会影响到主题及词汇被利用的程度,但不同的主题被利用的方式几乎没有变化,不同的词汇被利用的方式也基本相同,因

14、此可以假定对称的Dirichlet分布,即所有的取相同的值,所有的取相同的值.1.2Gibbs抽样为了获取词汇的概率分布,本文没有将和作为参数直接计算,而是考虑词汇对于主题的后验概率P(w|z),利用Gibbs抽样间接求得和的值.MCMC是一套从复杂的概率分布抽取样本值的近似迭代方法,Gibbs抽样作为MCMC的一种简单实现形式,其目的是构造收敛于某目标概率分布的Markov链,并从链中抽取被认为接近该概率分布值的样本.于是目标概率分布函数的给出便成为使用Gibbs抽样的关键.对于本文的LDA模型,仅仅需要对主题的词汇分配,也就是变量zi进行抽样.记后验概率为P(zi=j|zi,wi),计算公

15、式如下:P(zi=j|zi,wi)=n(wi)i,j+n(.)i,j+Wn(di)i,j+n(di)i,.+TTPj=1n(wi)i,j+n(.)i,j+Wn(di)i,j+n(di)i,.+T(3)其中,zi=j表示将词汇记号wi分配给主题j,这里wi被称为词汇记号是因为其不仅代表词汇w,而且与该词所在的文本位置相关,zi表示所有zk(k 6=i)的分配.n(wi)i,j是分配给主题j与wi相同的词汇个数;n(.)i,j是分配给主题j的所有词汇个数;n(di)i,j是文本di中分配给主题j的词汇个数;n(di)i,.是di中所有被分配了主题的词汇个数;所有的词汇个数均不包括这次zi=j的分配

16、.Gibbs抽样算法详述如下(具体理论描述详见文献10):1)zi被初始化为1到T之间的某个随机整数.i从1循环到N,N是语料库中所有出现于文本中的词汇记号个数.此为Markov链的初始状态.2)i从1循环到N,根据式(3)将词汇分配给主题,获取Markov链的下一个状态.3)迭代第2)步足够次数以后,认为Markov链接近目标分布,遂取zi(i从1循环到N)的当前值作为样本记录下来.为了保证自相关较小,每迭代一定次数,记录其他的样本.舍弃词汇记号,以w表示唯一性词,对于每一个单一样本,可以按下式估算和的值:(z=j)w=n(w)j+n(.)j+W,(d)z=j=n(d)j+n(d).+T(4

17、)其中,n(w)j表示词汇w被分配给主题j的频数;n(.)j表示分1588自动化学报35卷配给主题j的所有词数;n(d)j表示文本d中分配给主题j的词数;n(d).表示文本d中所有被分配了主题的词数.Gibbs抽样算法从初始值开始运行,迭代足够次b后认为样本接近目标概率分布,然后每隔一定次数c抽取样本,b称为Burn-in间距,c称为Thinning间距.b和c的取值比较难于确定,一般与特定的语料库相关.如果所构造Markov链的相邻状态间关联较小,b,c以较小的值可满足需要,但如果相邻状态间的关联较大,就必须增大b,c的取值,方可降低自相关.2文本分割2.1分割策略待分割文本是语料库训练时没

18、有处理过的新文本,如果对于每一个未知文本,都将其加入语料库后重新训练,则异常浪费时间,也没有必要,本文的做法是只对新加入的词汇记号运行Gibbs抽样算法,且只迭代较少的次数.预处理的基本块采用汉语的整句s,分割的大致步骤如下:步骤1.对于语料库文本的词汇记号运行Gibbs抽样算法,迭代足够次;步骤2.以整句s作为式(3)中的文本d,遍历待分割文本的所有词汇记号,运行Gibbs抽样算法,迭代少数几次;步骤3.按照式(4)分别计算和的值;步骤4.根据公式P(w|s)=PTj=1(z=j)w(s)z=j求取待分割文本词汇的概率分布P(w|s);步骤5.基于P(w|s),利用Clarity度量计算句间

19、的相似值Sim;步骤6.结合局部最小值的边界估计策略,通过句间相似值Sim识别片段边界.2.2Clarity度量SimClr=KL(P(w|s1)|P(w|s2)+KL(P(w|s1)|GC)KL(P(w|s2)|P(w|s1)+KL(P(w|s2)|GC)(5)其中,GC代表词汇w在训练语料库的出现频率,即f(w),KL(|)被称为相对熵:KL(P(w|s1)|P(w|s2)=XwWP(w|s1)log2P(w|s1)P(w|s2)(6)2.3局部最小值法11假设待分割文本有n个整句,则相邻句间的相似值表为SimTable=Sim1,Sim2,Simi,Simn1,其中Simi=Sim(si

20、,si+1),1 i n 1.在表中选择局部最小值Simmin(s1,s2);从每一个局部最小值出发向左、向右分别寻找距离最近的较大值Simmaxl以及Simmaxr,利用公式drel(s1,s2)=Simmax l+Simmax r2Simmin(s1,s2)1计算相对深度;令为一常数,若相对深度drel(s1,s2),则s1,s2分属于不同的片段.3主题提取3.1词汇聚类仅仅依赖所在文本的内部信息确定主题词,错误较多,如果能够借助背景库使主题词产生联想,必然有助于准确率的提高,为此需要利用丰富的背景库知识聚类词汇.本文以1998年人民日报手工标注的语料为背景库,以知网词典中的每一个词作为种

21、子词,选择与之最相关的n个词形成一个聚类.对于每一个词汇w,按下式计算该词汇对于种子词s的SC值,根据MDL(Minimum description length)原则4,SC值越大,说明w与s的相关性越大.SC=H?m+mmsmH?m+smsmsmH?m+sms12mlnmsms2m(7)其中,H(z)=z lnz(1z)ln(1z),0 z 的主题词元素作为中心主题词,为一小于1的常数.4实验设计及结果对比本文所有实验以1997年和1998年人民日报手工标注的语料库以及文本分类语料库为背景库及建模对象(共12980个文本),并以知网词典(去除其中的虚词、形容词、副词等意义不大的词,再删掉语

22、料库出现频数小于10的词,剩余9768个词汇)作为选择词汇的词典.除知网外,抽取关键词实验还用到汉语词法分析系统ICTCLAS.所有这些实验中用到的资源均可网上下载并限研究使用.为了有效利用Gibbs抽样算法,先通过实验确定主题数目T的最佳值,以及Burn-in间距(b)和Thinning间距(c)的取值.对于主题结构的测试,按文本分割及主题提取两个方面分别单独进行.4.1词汇聚类以词典中的每一个词汇作为种子词s,当P(w|s)P(w)时,取7个SC ,=0.005的词汇(按SC值从大到小的顺序)和3个rel(w,s)r0,r0=0.00025的词汇(按rel(w,s)值从大到小的顺序),构成

23、同一个聚类.舍弃独词(只包括种子词)聚类,形成词汇聚类表.共有6502个聚类出现.4.2主题数目的确定针对同样的语料库及同样的词典(W=9768,D=12980,N=1032365,W为词汇数目,D为文本数目,N为词汇记号数目,也就是每次抽样依据式(3)对z赋值的次数),可变量包括超参数,以及主题数目T.本实验目的在于了解主题数目对于Gibbs抽样算法的影响,为此先确定,的值,然后为T选择合适的值.这实际上是一个模型选择的问题,本文采用贝叶斯统计中的标准方法予以解决.令=50/t,=0.01(此为经验值,多次实验表明,这种取值在本实验的语料库上有较好表现),T取不同的值分别运行Gibbs抽样算

24、法,检测lnP(w|T)值的变化.由本文建模的模型可知,是多项分布和上的Dirichlet先验概率假设,其自然共轭的特点说明通过对和积分可以求取联合概率P(w,z)的值.P(w,z)=P(w|z)P(z),并且和分别单独出现于第1项和第2项,对积分获第1项值如下:P(w|z)=(W)()W!TTYi=1Qw(n(w)j+)(n(.)j+W)(9)其中,()是标准的Gamma函数,n(w)j表示将词汇w分配给主题j的频数,n(.)j表示分配给主题j的所有词数.因为P(w|T)可以近似为一系列P(w|z)的调和平均值,所以按下式求取其值:1P(w|T)=1MMXm=11Pm(w|z)(10)实验结

25、果如图1所示.图1lnP(w|T)与主题数目的关系Fig.1The log-likelihood of the data for different settings ofthe number of topics T由图1可以看出,当主题数目T为300时,lnP(w|T)的值最小,随后开始急剧增大,说明主题数目为300时,模型对于语料库数据中有效信息的拟合最佳,因此,后续实验的主题数目取为300.4.3Burn-in及Thinning间距的选择为了科学地确定Burn-in(b)值和Thinning(c)值,本实验取T=300,以4个不同的初始值运行Gibbs算法,若b,c的取值合适,则抽样结果

26、(lnP(w|z)的值)随初始值的变化很小,也可以说独立于初始值.实验结果如图2所示.图2迭代数百次后lnP(w|T)趋于稳定Fig.2The log-likelihood stabilizes after a few hundrediterations1590自动化学报35卷从图2中可以看出,lnP(w|z)的值在迭代数百次后稳定,因此本文实验取Burn-in间距为350,Thinning间距为50.4.4文本分割的测试4.4.1测试集本实验利用1997年3月份人民日报手工标注的语料库构建4个测试集T311,T35,T68,T911,Txy表示所含主题片段的句数在x和y之间.每一个测试集包括

27、若干伪文本,即由不同类的文本连接而成的形式上的文本,要求相邻段落务必来自不同的类.其所含的主题数平均为7,具体如表1所示.表1实验中的测试集Table 1Test sets used in the experimentsT311T35T68T911片段句数3113568911伪文本数109127115984.4.2度量标准文本分割一般基于Pk12进行度量,但从理论上讲WindowDiff13更为科学.为了便于同类算法向前和向后的对比,本文采用Pk和WindowDiff两种标准分别度量.Pk=P(seg)P(miss)+(1 P(seg)P(falsealarm)(11)P(seg)是指距离为k

28、的两个句子分属不同主题片段的概率,而1 P(seg)就是指距离为k的两个句子属于同一主题片段的概率,本实验将两个先验概率取等值,即P(seg)=0.5,P(miss)是算法分割结果缺少一个片段的概率,P(falsealarm)是算法分割结果添加一个片段的概率.WindowDiff(ref,hyp)=1N kNkXi=1(|b(refi,refi+k)b(hypi,hypi+k)|0)(12)b(i,j)表示整句si和整句sj间的边界数量,N表示文本中的整句数量,k取真实片段平均长度的一半,ref代表真实分割,hyp代表算法分割.4.4.3实验结果Gibbs抽样的主题数目T=300,超参数=50

29、/T,=0.01,取10个不同的初始值运行算法,每个初始值迭代350次,然后每隔50次取一次样本,共取10次样本.加入训练语料的测试文本被初始化,继续迭代10次,开始计算结果.每个文本的测试结果取100个样本的平均值,测试集的实验结果取所有文本测试结果的平均值.作为与本文方法的对比,取PLSA5,LSA(Latent semanticanalysis)14,MDA(Multiple discriminant analysis)15三种算法在T311,T35,T68,T911上进行测试,结果如表2.可见,本文算法对于4个测试集均有较好的表现,而且实验表明测试结果比较稳定,不同样本间的差别较小.据

30、文献16,基于PLSA模型的分割,其结果的随机性较大,随迭代次数及主题数目的变化难于确定.表中同时给出Pk和WindowDiff的值也验证了Pk的一些缺陷13,比如对于不同的片段长度,Pk的评价准则不一致.同样的错误在较小片段内给予较大的罚分,而到了较大片段则给予较小的罚分或者忽略不计.表中两个11.94的Pk值,所对应的WindowDiff值差别极大,也正说明了这一点.由于WindowDiff对于错误的衡量比Pk更为精细,所以基于同样的分割方法及测试集,前者明显高于后者.表2与PLSA,LSA以及动态规划的对比结果Table 2Segmentation results compared to

31、 PLSA,LSA,anddynamic programmingT311(%)T35(%)T68(%)T911(%)本文算法7.55(16.12)12.29(27.03)5.72(18.18)10.67(24.32)PLSA16.79(43.64)13.81(36.34)13.26(37.50)11.94(45.90)LSA13.12(32.61)15.21(30.84)10.02(19.76)12.17(59.44)MDA11.61(18.45)11.38(27.22)11.94(26.00)11.00(31.98)4.5主题提取的测试4.5.1测试语料本测试采用的是文本分类语料库,共包括环

32、境、经济、艺术、教育、体育、计算机、医学、政治、交通、军事等10大类.测试语料库中的文本没有分词,所以首先利用北大的分词系统ICTCLAS(Institute of computing technology,Chineselexical analysis system)对其进行处理,然后凭直觉给每个类以一定数目的标识词(至多5个),如下表3所示.表3类及其标识词Table 3Categories and their identification words类别标识词类别标识词环境环境、动物、土壤、植被教育教育、思想、校、学经济经济、金融、财政、商品、贸易体育赛、训练军事战、军、炸弹、航空、装备

33、艺术文艺、艺术、拍摄、出版、剧院计算机电脑、网、芯片、数据、程序医药病、伤口、药、饮食交通交通、车、乘客、路、港口政治政治、会、访问、联合国、和平4.5.2度量标准若从某类文本提取的主题词包含该类的标识词,即认为提取结果正确.准确率(Precision)定义如下:precision=ncorrectntotal(13)其中,ncorrect指正确提取主题词的文本数,ntotal指测试文本的总数.4.5.3片段主题提取以类为单位进行测试,每个类取大约100个主题片段,其测试集合如表4所示.表4测试集及所包含的片段数目Table 4Test sets and their topics类别环境经济交

34、通教育体育政治军事计算机艺术医药片段数1011131021001051059795114106将本文方法与TF-IDF17及Z-SCORE17方法进行对比.TF-IDF的计算方法为weightw(s)=tfw(s)ln?NnwsnPi=1(tfw(s)2 ln2?Nnw(14)12期石 晶等:基于LDA模型的主题分析1591其中,tfw(s)表示词汇w在测试片段s中的出现频数,N为背景语料中所有的片段数目,nw是背景语料含有w的片段数目.Z-SCORE的计算方法为weightw(s)=tfw(s)NPi=1fi(w)NvuuuutNPi=1fi(w)NPi=1fi(w)N2fi(w)N(15)

35、其中,fi(w)是词汇w在背景语料第i个片段中的出现频数.当提取主题词的数量为5和7时,实验结果分别如表5和表6.从表中可见,本文方法的结果在两种情况下均远远好于其他两种方法,主要原因在于充分利用背景语料库的知识,使主题词产生联想,以此挖掘出隐藏于文本之中的内涵.为了使得对比结果更为清晰,图3绘出本文方法与TF-IDF以及Z-SCORE在主题词数为5,7,10时的对比情况,每种方法取主题词数固定下的10个测试集结果的平均值.从图3可以看出,随着允许提取主题数目的增多,三种方法的准确率均有提高,但本文方法的变化幅度最小,尤其当主题词数增加到7以后,基本保持不变了,这说明本文方法提取的主题词的先后

36、顺序对于片段核心内容的反映程度比其他两种方法好很多.表5主题词数为5的提取结果Table 5Subtopic identification results when the number oftopic words is 5类别本文方法(%)TF-IDF(%)Z-SCORE(%)环境81.2947.179.44经济90.4741.1129.68军事72.0950.5210.17计算机75.4656.3724.33交通100.0079.6933.12教育100.0080.0021.98体育98.4554.6976.65艺术96.0054.726.64医药93.2761.6744.83政治92.9

37、962.1330.10表6主题词数为7的提取结果Table 6Subtopic identification results when the number oftopic words is 7类别本文方法(%)TF-IDF(%)Z-SCORE(%)环境88.3364.8131.48经济95.5450.0034.62军事86.6563.5429.17计算机84.3868.0047.91交通100.0096.9281.54教育100.0088.2456.86体育98.9972.3189.23艺术99.8670.3716.67医药95.4278.6955.74政治97.2376.3649.09图3

38、本文方法与TF-IDF以及Z-SCORE的结果对比Fig.3Results of the method of this paper compared withthose of TF-IDF and Z-SCORE4.5.4中心主题获取令P(s)为片段主题词元素的出现频率,取P(s)的片段主题词元素为中心主题词,随着的提高,准确率不断降低,片段主题词数为7时,其中心主题词获取结果如表7所示(中心主题词数不限,但少于7).表7的取值及相应的中心主题提取的准确率Table 7 and the precision of extraction of central topic0.50.60.70.8准确

39、率(%)98.7897.2588.4174.545相关研究对比本文探讨适合主题分析的模型和方法,将主题分割与主题识别集成在LDA框架下实现.与本文研究最相关的工作是STM(Statistical topic model)4,MDA14因涉及国内对于主题分割部分的研究,所以也进行对比分析.STM是一种有限混合模型,原则上讲,这种模型假定一个文档仅仅呈现一个主题,往往无法准确描述语料库及文档建模所需的数据信息,同时,由于没有对主题概率及词汇概率作任何假设,导致局部极大值、过度拟合以及收敛速度过慢等问题.本文作者在实验中发现,基于该模型的主题分割错误率较高,基本在50%左右,主题词提取的准确率低于T

40、F-IDF方法.分析原因,除了上述模型自身存在的问题外,还由于对模型参数的估算基于单一文档的部分信息(包括h句的块),而非语料库丰富的知识,但毕竟一个块内提供的信息过于有限,所以无法准确估算参数值.MDA方法定义了4种全局评价函数,寻找满足分割单元内距离最小化和分割单元间距离最大化条件的最好分割方式,实现对文本分割模式的全局评价.其优点在于通用性强,无需语料库,缺点是片段边界的确定仅仅依赖本文档的内部信息,难于实现更好的分割.表2的实验结果同样说明,采用MDA方法,其分割错误率(Pk)极为集中(11%左右).而本文方法更多地依赖于语料库的训练,因此当语料库信息充分,测试文档与训练语料结构类似时

41、就会呈现更好的分割效果(Pk=5.72%).6结语本文利用LDA为语料库及文本建模,通过背景知识解析文本的主题结构文本分割之上提取片段主题词并总结全文的中心主题词.LDA是完全的生成模型,从理论上讲,具1592自动化学报35卷有其他模型无可比拟的建模优点.为了提高主题词提取的准确性,本文以词汇聚类的方式使主题词产生联想,将主题词扩充到待分析文本之外,尝试挖掘隐藏于字词表面之后的文本内涵.实验结果表明,本文方法有很好的分析表现,可以为文本推理的研究提供坚实的基础.下一步的工作将尝试采用文献18的方法提高模型训练的速度,使得该方法可行.References1 Kehagias A,Nicolaou

42、 A,Petridis V,Fragkou P.Text seg-mentation by product partition models and dynamic pro-gramming.Mathematical and Computer Modeling,2004,39(2-3):2092172 Gina-Anne L.Prosody-based topic segmentation for man-darin broadcast news.In:Proceedings of the 9th AmericanChapter of the Association for Computati

43、onal Linguistics-Human Language Technologies.Boston,USA:Associationfor Computational Linguistics,2004.1371403 Olivier F.Using collocations for topic segmentation and linkdetection.In:Proceedings of the 19th International Confer-ence on Computational Linguistics.Taipei,China:Associa-tion for Computat

44、ional Linguistics,2002.174 Li H,Yamanishi K.Topic analysis using a finite mix-ture model.Information Processing and Management,2003,39(4):5215415 Hofmann T.Probabilistic latent semantic analysis.In:Pro-ceedings of the 15th Conference on Uncertainty in ArtificialIntelligence.Stockholm,Sweden:Morgan K

45、aufmann,1999.2892966 Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation.Journal of Machine Learning Research,2003,3:99310227 Steyvers M,Griffiths T.Probabilistic topic models.Hand-book of Latent Semantic Analysis.New Jersey:Springer,20078 Minka T,Lafferty J.Expectation-propagation for the gener-

46、ative aspect model.In:Proceedings of the 18th Uncertaintyin Artificial Intelligence.Alberta,Canada:Morgan Kauf-mann,2002.3523599 Griffiths T L,Steyvers M.Finding scientific topics.In:Proceedings of the National Academy of Sciences.USA:Springer,2004.5228523510 Heinrich G.Parameter Estimation for Text

47、 Analysis,Tech-nical Report,University of Leipzig,Germany,200811 Brants T,Chen F,Tsochantaridis I.Topic-based documentsegmentation with probabilistic latent semantic analysis.In:Proceedings of the 11th International Conference on Infor-mation and Knowledge Management.McLean,USA:ACM,2002.21121812 Bee

48、ferman D,Berger A,Lafferty J.Statistical modelsfor text segmentation.Machine Learning,1999,34(1-3):17721013 Pevzner L,Hearst M A.A critique and improvement of anevaluation metric for text segmentation.Computational Lin-guistics,2002,28(1):193614 Choi F Y Y,Wiemer-Hastings P,Moore J D.Latent se-manti

49、c analysis for text segmentation.In:Proceedings ofthe 2001 Conference on Empirical Methods in Natural Lan-guage Processing.Pittsburgh,USA:Camegie Mellon Uni-versity,2001.10911715 Zhu Jing-Bo,Ye Na,Luo Hai-Tao.Text segmentation modelbased on multiple discriminant analysis.Journal of Software,2007,18(

50、3):555564(朱靖波,叶娜,罗海涛.基于多元判别分析的文本分割模型.软件学报,2007,18(3):555564)16 Shi Jing,Dai Guo-Zhong.Text segmentation based on PLSAmodel.Journal of Computer Research and Development,2007,44(2):242248(石晶,戴国忠.基于PLSA模型的文本分割.计算机研究与发展,2007,44(2):242248)17 Liu Y,Ciliax B J,Borges K,Dasigi V,Ram A,Navathe S B.Comparison

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 财经金融

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com