基于互信息改进算法的新词发现对中文分词系统改进-杜丽萍.pdf-得力文库

资源描述

《基于互信息改进算法的新词发现对中文分词系统改进-杜丽萍.pdf》由会员分享，可在线阅读，更多相关《基于互信息改进算法的新词发现对中文分词系统改进-杜丽萍.pdf（6页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、北京大学学报(自然科学版)第52卷第Acta Scientiarum Naturalium Universitatisdoi：1013209j0479802320160241期2016年1月Pekinensis，V0152，No1(Jan20 l 6)基于互信息改进算法的新词发现对中文分词系统改进杜丽萍李晓戈+ 于根刘春丽刘睿西安邮电大学，西安710121；t通信作者，E-mail：lixgxupteduca摘要提出一种非监督的新词识别方法。该方法利用互信息(PMI)的改进算法PMI算法与少量基本规则相结合，从大规模语料中自动识别2n元网络新词0为发现的新词最大长度，可以根据需要指定)。基

2、于257MB的百度贴吧语料实验，当PMI方法的参数为10时，结果精度达到9739，比PMI方法提高2879，实验结果表明，该新词发现方法能够有效地从大规模网络语料中发现新词。将新词发现结果编纂成用户词典，加载到汉语词法分析系统ICTCLAS中，基于10 KB的百度贴吧语料实验，比加载用户词典前的分词结果准确率、召回率和，值分别提高793，373和591。实验表明，通过进行新词发现能有效改善分词系统对网络文本的处理效果。关键词新词识别；未登录词；互信息；PMI改进算法；中文分词中图分类号TP391New Word Detection Based on an Improved PMI Algor

3、ithmfor Enhancing Segmentation SystemDU Liping，LI Xiaoget，YU Gen，LIU Chunli，UU RuiSchool ofComputer Science and Technology，Xian University ofPosts and Telecommunications，Xian 710121t Corresponding author，Email：lixgxupteducnAbstract This paper presents an unsupervised method to identify internet new

4、words from the large scale webcorpus，which combines with an improved Pointwise Mutual Information(PMI)，PMl。algorithm，and some basicrulesThis method can recognize interuet new words with length from 2 to n f丹iS any number as needed)Experimented based on 257 MB Baidu Tieba corpUSthe precision of propo

5、sed system achieves 9739when theparameter value of PMIalgorithm is equal to l 0，and the precision increases 2879，compared to PMI methodThe results show that proposed system is significant and efficient for detecting new word from the large scale webcorpusCompiling the results of new word discovery i

6、nto user dictionary and then loading the user dictionary intoICTCLAS(Institute of Computing Technology，Chinese Lexical Analysis System)，experimented with 1 0 KBBaidu Tieba corpus，the precision，the recall and F-measure were promoted 793，373and 591respectively，compared with ICTCLASThe result show that

7、 new word discovery could improve the performance ofsegmentation for web corpus significantlyKey words new word recognition；unknown word；PMI；improved PMI algorithm；Chinese word segmentation随着信息时代的发展与科学技术的进步，大量网络新词不断涌现，使得分词结果中存在大量的“散串”，严重影响分词系统处理网络文本的效果，新词识别已经成为提高分词效果的瓶颈【11。对于网络上出现的新词汇，例如近日在网上热传的“APE

8、C蓝”、“Duang”、“一带一路”、“单肾贵国家自然科学基金(613731 16)、陕西省普通高等学校重点学科专项资金(1 12一1602)和西安邮电大学研究生创新基金(ZL201331)资助收稿日期：2015-0607；修回日期：20150914；网络出版日期：2015-092935万方数据北京大学学报(自然科学版)第52卷第1期 2016年1月族”和“花样作死”等词语，一般的识别方法是基于大规模语料库，由机器根据某个统计量自动抽取出候选新词，再由人工筛选出正确的新词【2l。Pecina等3】采用55种不同的统计量进行2元词汇识别实验，结果表明，PMI算法是最好的衡量词汇相关度的算法之一

9、。通常情况下，PMI方法能够很好地反映字串之间的结合强度，但缺点是过高地估计低频且总是相邻出现的字串间的结合强度13-41。例如，“哕”和“嗦”、“蝙”和“蝠”等在语料库中低频且总是相邻出现，这些字串的PMI值非常高，包含这些低频字串的垃圾串的PMI值也非常高，例如“很I罗”和“嗦”、“的蝙”和“蝠”等。针对此问题，研究者将PMI方法与其他方法相结合进行新词发现研究。文献【57】均采用PMI方法与log1ikelyhood方法相结合进行新词识别。梁颖红等8】利用PMI方法衡量字串间的结合强度，结合NCvalue方法融入词语上下文信息来提高3个字以上长新词的抽取精度。何婷婷等【9】采用互信息方法

10、FMI抽取结构简单的质词。孙继鹏等【l o】提出一种语言文法信息与互信息相结合的新词识别方法。Pazienza等11】提出使用PMl2和PMl3的方法改进PMI方法来识别新词。Bouma12】通过向PMI方法中引进k个联合概率因子，改善PMI方法的缺点，这种改进的PMI方法称为PMI方法。杜丽萍等【13】通过抽象语料库中低频且总是相邻出现字串的数学特征，从理论上证明，当向PMI方法中引进3个及以上的联合概率因子时，PMI方法能够克服PMI方法的缺点。目前，常用的分词方法主要有3种：基于词表的分词方法、基于统计模型的分词方法和基于统计方法与规则方法相结合的分词方法【21。3种方法均有优点，但也存

11、在不足：基于词表的分词方法效率高，但对新词的识别能力不足【141；基于规则的方法很难涵盖所有的语言现象(2】，尤其对网络语料的处理能力非常有限；基于统计模型的分词方法重点在于解决自动分词的歧义分词问题，但需要人工标注训练语料，且受训练语料领域的限制。ICTCLASOn-stitute of Computing Technology，Chinese LexicalAnalysis System)是基于隐马尔科夫统计模型(HMM，Hidden MarKov Model)进行分词的广受好评的中文分词系统，ICTCLAS2002版在国内973评测中综合第一名，经过15年打造，ICTCLAS2015版又

12、增加了新词自动识别功能。本文在杜丽萍等【13】的定理1和定理2基础上，36采用非监督的基于PMI。与少量的基本规则相结合的方法，从大规模网络语料中自动识别新词，并对ICTCLAS2002版分词系统进行改进，对比改进后的ICTCLAS2002分词系统与ICTCLAS2002和ICTCLAS2015版的分词效果。1分词系统改进11改进分词系统框架分词系统改进主要分为两个阶段：1)基于大规模语料库进行新词发现；2)用新词发现结果编纂用户词典，加载到分词系统中。图1为改进的分词系统的流程。12基于PMI改进方法的新词发现定义1 PMI算法1 2】定义如下：PMI(x,y)：log裂，后旷，pxpkyJ

13、其中，p)和p)分别表示字串x和Y的概率，p(x，Y)表示字串工和Y的联合概率，PMl2，y)表示字串x和Y的相关度，也称PMI值。特殊地，当i=l时，PMI方法即PMI方法。新词发现过程主要分为4个阶段：1)确定2元待扩展种子；2)将2元待扩展种子扩展至2-n元；3)过滤候选新词；4)人工判定。算法的步骤如下。步骤l从4元字串中确定出2元的待扩展种子。对于每一个4元字串wi一。w wi+。wt+：，计算中间两元字串ww+，和前两元字串心一，心的PMI值之和的平均值mean。以及中间两元字串wfw+，和后两元字串+，K：的PMI值之和的平均值mean2。计算公式如下：图1改进分词系统流程Fig

14、1 Flow chart of the improved segmentation system万方数据杜丽萍等基于互信息改进算法的新词发现对中文分词系统改进meanl=寺(PMI(wi，wi+I)+PMI。(wl-1，w)，二1mean2=寺(PMI(wf，wf+1)+PMI(wf十l，w+2)。二对于4元字串wf一。w wf+。w+：，如果满足PMI。(W，wi+1)PMI。(W叫W)+meanI，PMl2(珥，w+1)PMI。(嗽+I，W+2)+mean2，则认为字串ww+，是一个词或者词的一部分的概率较大，即2元字串wfw+。为待扩展种子，执行步骤2；否则，认为字串和哗+，各自成

15、词或是词的边界的概率较大，宇串W wf+。的串频减1。步骤2 将t元字串扩展至t+1元字串，其中t2，一一1。取出待扩展字串w，wi+的前一元W一。和后一元W州，分别计算PMI(W_l，W，w+1)和PMI。(W，W+t-1 W+，)。有如下两种可能性。1)如果PMl2(wl-l，Wf，Wi+t-I)PMl2(wf，W州一)，则认为把字串w，wf+，。扩展成wi书，w-，的概率大于扩展成心，w+，的概率，1故向前扩展。计算mean=寺(PMI(w，w，w+，。)+PMIk(wi，Wo，Wo+l，wi+t-I)，其中o=i或0=i+t一2。如果满足PMI。(心一l，W，wf+f-I)+meanP

16、MI(，wo，wo，W+f-1)，则把t元字串wl，wf+。扩展成t+l元字串wi圳，W+J，t=t+l，依次迭代，执行步骤2；否则，输出t元字串w，W州，执行步骤3。2)女fl果PMl2(w-l，wf，心+)PMIk(Wl，Wi+一1，W)，则认为把字串W，W+。扩展成W，W+，的概率大于扩展成wH，wm一。的概率，故向后扩展。1计算mean=ff(PMI(wf，wo+l，wj+1)+PMI。(wi，wi十f-1，wf+f)，其中0=i或0=i+t-2。如果满足PMI。(wf，wj+f-l，wf+。)+meanPMI。(w，wo，wo-J，wJ+，-J)，则把t元字串W，W+。扩展成t+l元

17、字串w，wft=t+1，依次迭代，执行步骤2；否则，输出t元字串W，w+。，执行步骤3。步骤3利用可存在性过滤规则。如果t元字串W，W+的串频小于阈值r，则退出算法；否则，执行步骤4。步骤4利用停用词过滤规则。如果t元字串w，w+1的任意一个子串包含在停用词集合中，则退出算法；否则，按PMI(W，心，w0小，W+。)值降序地把字串wf喙H加入候选新词链三，执行步骤5。步骤5 根据核心词表，过滤候选新词链三上的核心词汇，执行步骤6。步骤6人工判定。2实验及结果分析21 实验数据1)257 MB(约1000万字)百度贴吧语料，用于网络新词发现。2)停用词典：包含702个停用词(选自哈尔滨工业大学停

18、用词表)，用于过滤候选新词结果中的垃圾串。3)ICTCLAS核心词典：共收集79836个词语，是目前比较规范的词典之一，用于过滤候选新词结果中的核心词汇，以便得到新词。4)10 KB百度贴吧语料，用于测试分词系统改进的效果。22新词实验及结果黄昌宁等”】指出，99以上的词长都在五字及五字以下，故本实验设定抽取的最大词长n等于5。由于难以统计257 MB百度贴吧语料中的全部新词，所以只采用准确率作为衡量新词发现方法的评测标准。准确率计算公式为准确率=鬻100o在PMI方法的参数k取110之间10个正整数值时，分别进行实验，图2描述随着k值变化的准确率变化趋势。表1列举PMI方法的参数k取110

19、之间lo个正整数值时，新词结果的前20条。23 改进分词系统实验及结果实验设计如下。实验一：基于ICTCLAS2002版分词系统进行实验；实验二：基于ICTCLAS201 5版分词系统进行实验：实验三：加载用户词典到ICTCLAS2002版分词系统中进行实验。采用准确率、召回率和F值3个指标来衡量分词系统的性能，计算公式如下：准确率=蔫器0，37万方数据北京大学学报(自然科学版)第52卷第1期 2016年1月摹糌器掣图2随着Ji值变化的准确率变化趋势Fig2 Precision trends with the value of k changes召降器粼枷仁篙嚣枷1 准确辨召回率针对1

20、0 KB百度贴吧测试语料进行上述实验，实验结果如表2所示，“切分出总词数”表示分词系统切分出的字串总数目，“识别新词数目”表示分词结果中包含的正确的新词数目。表3列举10 KB百度贴吧语料中3个例句分别在实验一、实验二和实验三中的结果。例1让我这个菜鸟都有点情何以堪啊!例2 这个镜头在变形金刚刚出来时候不是就被喷了么?例3小正太，你好。24结果分析从图2可以看出，准确率随k值增大而增大且逐渐趋于100。k=3时的准确率比k=l时提高136，k=-10时的准确率比扣1时提高2879。因此，当PMI。方法的参数k3时，PMI方法能明显改善新词识别的效果。由表1看出，当PMI方法的参数k3时，新词识

21、别结果与后=1和k=2时差异较大。在k=1和k=2的结果中，排名在前的字串中均包含低频的字或词，例如垃圾串“晦涩难”、“非贪婪”、“徽太尉”、“吧头衔”中分别包含“晦涩”、“婪”、“徽”、“衔”等低频字串，且这些字串的搭配词语固定。该现象反映出PMI方法和PMl2方法对低频共现字串敏感的缺点。在k3的结果中，均没有出现低频共现字串，说明k3时PMI方法克服了PMI方法的缺点，PMI方法能有效识别新词。从表2可以看出，相对ICTCLAS2002加载用户词典前，ICTCLAS2002加载用户词典后分词系统识别出的新词数目增加149个，准确率、召回率和F值也分别提高793，337和591。结果表明，

22、增加用户词典后，ICTCLAS2002分词系统处理网络语料的效果有明显改善。相对ICTCLAS2015分词系统，ICTCLAS2002加载用户词典后分词系统识别出的新词数目增加了124个，准确率、召回率和F值也分别提高67，31和496。表3中，针对例1，ICTCLAS 2002和ICTCLAS2015表1前20条实验结果Table 1 First 20 experimental results女实验结果晦涩难，非贪婪，周子琦，嘤嘤，金针菇，I罗嗦，耦合度，肝肠，蜀黍，吧头衔，矢量图，抠脚大，瞅瞅，衲法号，可理喻，天答辩，l 烫烫，鼎鼎，仔细观察，彬彬南海保镖，赫卡特，青年范兄，刘易雯，徽太

23、尉，满智勇，寒云似雾，童鞋，叼叼，云似雾，冒险岛，迭代器，吐槽，蜀黍，楠绾绾，锐英源，蛋疼，莱克斯，御坂，肝肠真朱，寒云，大神，蛋疼，窗体，良化，百度，楼主，控件，菜鸟，童鞋，吐槽，渡娘，膜拜，递归，炮姐，余贺，坑爹，尼玛，傲娇真朱，大神，楼主，窗体，百度，良化，控件，寒云，蛋疼，菜鸟，贴吧，渡娘，童鞋，源码，帖子，点击，递归，链接，吐槽，线程大神，楼主，真朱，窗体，控件，百度，良化，寒云，蛋疼，菜鸟，贴吧，源码，点击，帖子，线程，渡娘，链接，童鞋，微软，递归大神，楼主，真朱，控件，窗体，百度，良化，寒云，蛋疼，菜鸟，贴吧，源码，线程，点击，帖子，链接，渡娘，次元，微软，神马大神，楼主，真朱

24、，控件，窗体，百度，良化，寒云，蛋疼，贴吧，菜鸟，源码，线程，点击，帖子，链接，次元，渡娘，微软，神马大神，楼主，真朱，控件，窗体，百度，良化，寒云，蛋疼，贴吧，源码，菜鸟，线程，点击，帖子，链接，次元，微软，神马，报错大神，楼主，真朱，控件，窗体，百度，良化，寒云，贴吧，蛋疼，源码，菜鸟，线程，点击，帖子链接，次元，神马，报错，微软大神，楼主，真朱，控件，窗体，百度，良化，寒云，贴吧，蛋疼，源码，线程，菜鸟，点击，帖子，链接，次元，报错，神马，微软383456789“万方数据杜丽萍等基于互信息改进算法的新词发现对中文分词系统改进表3实验结果举例Table 3 Example of expe

25、rimental results实验编号实验结果让我这个菜鸟，都有点情何以堪，啊!ICTCLAS2002 这个镜头在变形金刚刚出来时候不是就被喷了么?dxi太，悔好f。让我这个菜鸟都有点情何以堪啊!ICTCLAS2015 这个镜头i在?变形?金?黜刚f出来i时候不I是就I被?喷I了?么?小正太，你好。ICTCLAS2002加载用户词典让我这个菜鸟都有点情何以堪啊!这个镜头在变形金刚，i日tl出来时候不是就被喷了么?小正太，你好。分词系统均把新词“菜鸟”切分为“菜鸟”；ICTCLAS2002加载用户词典(词典中包含新词“菜鸟”)后，分词系统把新词“菜鸟”切分为一个词。针对例2，IcTCLAs2

26、002分词系统把新词“变形金刚”切分为“变形金刚”；ICTCLAS2015分词系统分词把“变形金”切分为一个词，把“变形金刚”中的“刚”和它后面的“刚”结合起来切分为“刚刚”；ICTCLAS2002加载用户词典(词典中包含新词“变形金刚”)后，分词系统把新词“变形金刚”切分为一个词。针对例3ICTCLAS2002分词系统把新词“小正太”切分为“小正太”；ICTCLA$2015和ICTCLAS2002加载用户词典(词典中包含新词“小正太”)后分词系统把新词“小正太”切分为一个词。从10 KB百度贴吧测试语料的分词结果来看，主要有3种情况：1)ICTCLAS2002和ICTCLAS2015分词系统

27、在遇到新词时，大多情况下均是将新词切分为多个“散串”，如例l，ICTCLAS2002加载包含这些新词的用户词典之后，这些新词均能被正确切分；2)ICTCLAS2015分词系统自动识别出新词不正确，导致句子中其他词的分词结果不正确，如例2中把“变形金”当做一个词，导致“变形金刚”后面的“刚”和“变形金刚”中的“刚”结合起来切分为“刚刚”；3)在ICTCLAS2002把新词切分为多个“散串”时，ICTCLAS2015和ICTCLAS2002加载用户词典后的分词系统正确切分出新词，如例3。结果表明，通过加载用户词典改进分词系统是一种可靠有效的方法。3 结语本文基于257 MB百度贴吧语料，验证了PM

28、I方法的参数k取值大于等于3时，能够克服PMI方法的缺点，并通过调整新词发现算法中的参数来提高长度大于2元的新词识别率。最后，验证了基于加载用户词典来改进分词系统是有效可行的方法。下一步工作是研究PMI。方法的参数k取值与语料库规模、语料特征等因素的关系，找出一种自适应地确定参数k值的方法，提高新词识别效果，进一步增强分词系统处理web文本的能力。39万方数据北京大学学报(自然科学版)第52卷第1期 2016年1月参考文献1】张海军，史树敏，朱朝勇，等中文新词识别技术综述计算机科学，2010，37(3)：6-122】宗成庆统计自然语言处理北京：清华大学出版社，2008：1031463】Peci

29、na P，Schlesinger P Combining associationmeasures for collocation extractionProceeding Softl of the 2 1 th International Conference on Computational Linguistiesand 44th Annual Meeting of theAssociation for Computational Linguistics(COLINGACL2006)Sydney,2006：65 1“58【4】刘华一种快速获取领域新词语的新方法中文信息学报，2006，20(5

30、)：l 7235刘建舟，何婷婷，骆昌日基于语料库和网络的新词自动识别计算机应用，2004，24(7)：1321346】韩艳，林煜熙，姚建明基于统计信息的未登录词的扩展识别方法中文信息学报，2009，23(3)：2430【7】Patrick P，Lin D KA statistical corpusbased termextractorStroulia E，Matwin S1ecture notes inartificial intelligenceLondon2001：36-46【8】梁颖红，张文静，周德福基于混合策略的高精度长术语自动抽取中文信息学报，2009，23(6)：26-30何婷婷，

31、张勇基于质子串分解的中文术语自动抽取计算机工程，2006，32(23)：188190孙继鹏，贾民，刘增宝一种面向文本的概念抽取方法研究计算机应用与软件，2009，26(9)：28-30Pazienza M T，PennnacchioRi M，Zanzotto F MTerminology extraction：an analysis of linguistic andstatistical approachesBedim Springer-Vedag，2005：255279Bouma GNormalized(pointwise)mutual informationin collocation extractionProc Boennial GSCLConference 2009， Meaning：Processing TextsAutomaticallyTnbingen2009：3 l-40杜丽萍，李晓戈，周元哲，等互信息改进方法在术语抽取中的应用。计算机应用，2015，35(4)：9961000，1005莫建文，郑阳，首照宇，等改进的基于词典的中文分词方法计算机工程与设计，2013，34(5)：18021807黄昌宁，赵海中文分词十年回顾中文信息学报，2007，2l(3)：8-19刚叩U纠卅钉nnnnnn万方数据

展开阅读全文