一种用于专利实体的实体消歧方法教案资料.doc

上传人:1595****071 文档编号:52280864 上传时间:2022-10-22 格式:DOC 页数:22 大小:320KB
返回 下载 相关 举报
一种用于专利实体的实体消歧方法教案资料.doc_第1页
第1页 / 共22页
一种用于专利实体的实体消歧方法教案资料.doc_第2页
第2页 / 共22页
点击查看更多>>
资源描述

《一种用于专利实体的实体消歧方法教案资料.doc》由会员分享,可在线阅读,更多相关《一种用于专利实体的实体消歧方法教案资料.doc(22页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、Good is good, but better carries it.精益求精,善益求善。一种用于专利实体的实体消歧方法-文章编号:XXXX一种用于专利实体的实体消歧方法王琰炎,王裴岩,蔡东风(沈阳航空航天大学知识工程与人机交互研究中心,沈阳,110136)摘要:专利实体是用以表述专利、实用新型或外观设计的具有实际意义的实体,作为专利文本的核心内容,专利实体是专利文本中最值得实体搜索用户关注的焦点。专利实体搜索是专利技术方案信息抽取的第一步,而专利实体消歧是专利实体搜索中最重要的操作,是将具有领域歧义性的专利实体相关词,按照实体不同的领域含义,划分为不同类别的过程。将实体搜索技术应用于中文专

2、利摘要文本,并在实体搜索过程中使用了实体消歧技术,得到用户最关注的实体相关信息。本文在充分分析了专利摘要文本的特点的基础上,提出一种面向专利实体的消歧方法。本文使用基于IPC和向量空间模型的词向量表示法,结合凝聚式层次聚类算法,得到专利实体消歧结果。根据对比实验的结果能够得出结论,本方法能够实现准确的实体消歧,评测结果高达78.9%。关键词:专利实体、实体搜索、实体消歧、IPC、凝聚式层次聚类中图分类号:TP391.1文献标识码:AAnEntityDisambiguationMethodforPatentEntityWANGYan-yan,WANGPei-yan,CAIDong-feng(Kn

3、owledgeEngineeringResearchCenter,ShenyangAerospaceUniversity,Shenyang110136)Abstract:PatentEntityisasignificantentitythatusedtoexpresspatents,utilitymodels,andappearancedesign,asthekernelofpatenttext,patententityistheabsolutefocusofentitysearchusers.PatentEntitySearchisthefirststepofPatentInformatio

4、nExtraction,andtheentitydisambiguationofpatentisthemostimportantoperationofPatentEntitySearch,whichisdividerelativewordstodifferenttypesaccordingtodifferentdomains.ApplyentitysearchtechnologytotheabstracttextofChinesepatent,makeuseofthetechnologyofentitydisambiguation,whichcangettherelativeinformati

5、onthattheuserconcerned.Thispaperproposeadisambiguationmethodonthebasisofanalyzingthefeatureoftheabstracttextofpatentadequately.CombinedwithHAC,thispaperhavegottentheresultofdisambiguationbyusingthewordvectorrepresentationonthebasisofIPCandVectorSpaceModel,combinedwithHAC.Accordingtotheparallelexperi

6、ments,wecometotheconclusionthatthemethodcoulddisambiguateaccuratelywiththemeasurevalueof78.9percent.Keywords:PatentEntity,EntitySearch,EntityDisambiguation,IPC,HAC专利文本是集技术情报、法律情报和经济情报于一体的实用知识载体,是极为重要的科技信息来源1。专利实体作为专利文本中的核心对象,研究价值较高。专利实体的消歧是专利实体搜索的核心步骤,目标是解决专利实体搜索中同名实体的歧义问题,帮助用户准确定位目标信息。在专利文本的基础上进行实体

7、消歧,就是将具有领域歧义的实体相关词按照不同的领域含义划分为不同的类别。因此,专利实体上的歧义消解实际上就是目标词的聚类过程,消歧结果的好坏就取决于聚类中目标词向量的原始特征选择。本文尝试了三种不同的特征选取方法,将目标词表示成特征向量,再进行类别划分。经过实验验证,使用基于IPC分类的特征生成目标词向量的方法取得了更好的效果。本文共分为5部分内容,第1部分介绍了国内外的相关研究,第2部分介绍了本文提出的三种相关词特征向量表示方法,第3部分介绍了使用聚类算法进行专利实体消歧的过程,第4部分则是实验和分析,最后一部分是本文得出的结论与展望。1相关研究实体消歧问题是当下比较热点的研究问题,国内外的

8、大多熟研究从两个角度解决实体歧义造成的影响,分别是通过寻求更高质量的特征和引入外部资源辅助消解。在特征选取方面,何正焱2利用DNN(深度神经网络)方法,提出了一种文档和实体的相似度为框架的消歧模型;姜丽丽3提出了一种基于带权图结构的框架来实现人物实体的消歧工作,并使用实体标签对每个人物实体进行标注;Bagga和Baldwin4将不同文档间上下文的相似度作为特征实现实体消歧的;R.Bekkerman和A.McCallum5则结合了社交网络的链接信息和聚类两种非监督的框架对社交网络中的人物实体进行消歧。给定的文档集中所包含的被査询人的信息往往是非常有限的,因此网络公共资源经常被用来挖掘更多的信息以

9、提高同名消歧质量。其中,中科院的韩先培6使用了在线知识库信息来辅助解决实体歧义的,D.Bollegara7通过扩展查询词来对Web搜索引擎中的同名人物实体进行消歧;R.Bunescu8尝试使用在线百科全书(Wikipedia)的部分锚文本信息来扩充文档集,从而完成信息检测和同名消歧的任务。这些方法能够非常出色的完成实体消歧的任务,但是由于其需要花费大量的时间进行在线信息采集,因此更适合于服务器端的应用。现在阶段的实体消歧研究集中在通用文本上,而专利文本上的实体,又与通用文本中的实体有本质的区别。因此,本文需要充分利用专利文本及专利实体的特点,并在通用的实体消歧方法的基础上进行优化。2特征向量表

10、示方式实体消歧的目标是对专利相关词解析并分类,利用向量空间模型(VSM)的思想,将相关词表示成特征向量的形式,再对它们进行消歧。本文尝试了三种特征向量的表示方式,分别是利用基于TF-IDF的文档特征表示法、Word2vec词向量表示法,以及基于IPC分类的辅助表示法。2.1TF-IDF特征表示法TF-IDF是一种利用词语的词频(TF)和反文档频率(IDF)特征的统计方法,主要思想在于,如果某个词在一篇专利文档中出现的频率TF高,而在其他文档中出现较少,则认为此词具有很好的类别区分能力。基于TF-IDF的特征权值选取方法,使每个特征维度代表一篇相关文档,将每个目标词在每篇对应文档中的TD-IDF

11、值作为对应维度上的特征值,表示形式如下。其中,表示的是目标词w在专利文本中的词频,idf表示w在文本集上的反文档频率,N表示专利文本集中的文本总数,则表示w在文本集中的文档频率。由于考虑到专利文本的长度对目标词在不同专利文本中的权重值影响较大,需要进行的向量的归一化操作。2.2Word2vec词向量表示法本文使用了由Google的TomasMikolov1011团队研发的Word2vec词向量生成工具,生成指定维度的目标词向量。Word2vec工具是基于DeepLearning和神经网络模型,利用深度神经网络(DNN)的思想,通过上下文的分析,自动选取特征,并通过用户指定的参数,经过多次的迭代

12、,训练出词向量。Word2vec常用的参数包含上下文窗口大小(Window)、向量维度(size)、训练架构选择(cbow)以及最低训练词频(min-count)等。本文先利用分词工具和命名实体识别工具,将相关文档集进行分词和实体识别操作,并将经过分词和识别之后的文档作为word2vec工具的训练语料,进行词向量的训练。2.3IPC向量表示法IPC(国际专利分类)是目前国际上唯一通用的专利文献分类和检索工具12,是一个复杂的层次结构分类系统,分为部、大类、小类、主组和分组5个层次13。例如,篇专利文本的IPC分类编号是A47B1/02,可按照IPC体系做如下分解。表1专利文本的IPC编号分解举

13、例分解片段IPC层次含义A部(最外层)人类生活需要A47大类家具A47B小类桌子、写字台、抽屉、橱柜等A47B1/00主组可伸展的桌子A47B1/02分组(最内层)有可插入的活板和固定框架的桌子基于IPC的特征选取方法是利用IPC体系中每个层次的类别特征,将实体相关词词表示成特征向量的形式。基于IPC的特征向量表示方法是利用IPC的5个不同层次的IPC类别作为特征。以IPC的最外层(部)为例,IPC的部有AH类的8种特征,如下表所示。表2IPC的部的层次特征介绍标识表示含义举例说明A类人类生活需要A01:农业;A41:服装;A63:运动娱乐B类作业、运输B27:木材;B64:航空、飞行器C类化

14、学、冶金C01:无机化学;C10:石油、煤气;C21:炼铁D类纺织、造纸D03:织造;D21:造纸E类固定构造E02:水利工程;E04:建筑物;E05:门窗、钥匙F类机械工程、照明、加热F02:燃气机;F21:照明;F23:燃烧设备G类物理G02:光学;G11:信息贮存;G21:核物理、核工程H类电学H01:基本电气元件;H04:电子通信技术其中,AH类的每个特征向量的维度都是8,此时对于目标词w,其特征向量的形式是,向量的8个特征权值分别表示目标词w的上表中的8个类别上的权重值。使用类似于基于词语的TF-IDF的特征权值表示法,将基于单篇文档的特征更改为基于8种部的特征,将基于N篇专利文档的

15、特征进行降维,从而将基于文档的特征映射到基于IPC的8种部的特征。于是权值的表示形式为:其中,表示目标词在类文本中的词频,N是相关文档集大小,表示的是目标词w在类文本中的文档频率。同理,在IPC分类体系的大类和小类的层面上进行相同的特征选择,得到不同层次下的特征向量。本文在前三个层次的特征进行了实验,其中大类和小类的特征数目是123和629。3聚类分析3.1凝聚式层次聚类实体消歧中对于实体相关词的划分,使用的是聚类的思想,将实体相关词利用VSM表示成特征向量之后,对这些目标向量进行聚类分析。由于对于聚类结果缺乏预知,无法预测目标词会分为几类,因此本文使用层次聚类来实现专利实体的消歧。根据层次分

16、解的顺序是自下向上的还是自上向下的,分为凝聚的层次聚类算法和分裂的层次聚类算法14,本文使用的是前者。HAC是一个自底向上的层次聚类过程,一开始将每个目标词都看做一个由单个词组成的小聚簇,然后不断地对簇进行两两合并的操作,直到所有聚簇都合并成一个类为止。实体的歧义消解过程中,将每个目标词作为聚类的对象,每个目标词用特征向量的形式表示,对这些目标词进行聚类的过程就是对这些特征向量聚类的过程,其中向量之间的距离衡量公式使用的是欧氏距离。3.2聚类终止条件控制HAC的聚类过程需要通过阈值控制聚类的终止。本文选取6个不同的簇内相似度值水平k进行阈值控制,分别是0.5、0.3、0.1、0.001、1e-

17、9和0,分别对应聚类终止控制策略的16层。对于一个歧义实体,以这6个相似度作为层次聚类的终止条件得到6种聚类结果,分别采集每种聚类结果的详细记录,其表示形式如下:其中,表示第i层聚类结果的聚簇数目,是第i层聚类结果的F评价值;而则表示第i层的详细聚类结果记录,详细记录了每个聚簇包含的相关词数目以及簇内对象的相似度平均值,表示形式如下:随着层数的增加,相似度阈值逐层降低,聚簇数目逐层减少,每个聚簇内词语间的平均相似度值也逐层衰减,本文就是通过相似度的衰减程度来控制聚类的终止,本文尝试了几种衰减策略来控制,即最大值衰减、最小值衰减、平均值衰减,以及它们之间的融合衰减方法。3.2.1衰减程度首先计算

18、每个相似度水平k下的聚类结果中除1外的类内的目标相似度值。从第二层的相似度水平k=0.3开始,根据本层的类内相似度值和上一层的相似度值,计算衰减程度,第i层的衰减程度的表示形式如下:其中,和表示当前层和上一层的目标相似度值,可以表示当前聚类结果中簇内相似度的最大值、最小值或平均值。于是得到每一层的的三个衰减度、和。再通过实验选取合适的衰减阈值,当在第i层的衰减度大于该阈值时终止聚类,并将上一层的聚类结果作为最终的消歧结果。3.2.2衰减融合策略将三种衰减度中的两种以上加以融合,形成新的衰减策略,即衰减融合策略。共存在如表2的4种衰减策略。表2四种融合衰减策略融合策略策略说明RMax+Min同时

19、使用最大值策略、最小值策略RMax+Avg同时使用最大值策略、平均值策略RMin+Avg同时使用最小值策略、平均值策略RAll同时使用三种策略例如,在表2所示的聚类结果中使用RMax+Min的融合策略,此融合策略要求在每层的聚类结果中,两个衰减度和需同时满足和,若条件之一不满足就终止聚类。其他三种融合策略的应用方法与RMax+Min方法相似,只是使用的衰减度类型不同。通过实验分别验证这四种融合策略对于实体消歧的有效性,并与前一节提及的三种使用单独的衰减度的策略进行对比,找出最佳的衰减策略应用于专利实体的消歧。4实验与分析4.1实验设置本文使用的实验语料为来源于不同领域的2009-2010年的中

20、文专利摘要,共92万篇。本实验使用了10个具有领域歧义性的查询词,每个查询词通过相关词检索和筛选,得到50个最相关的目标词语。每个查询(Query)都含有至少两个领域含义例如,领域概念“载体”具有3个领域含义,将实体相关词映射到“载体”的3种不同的领域含义上,并按照不同的领域含义对标注这些目标词,从而实现专利实体的歧义消解,标准的消歧结果如下表所示。表3“载体”的实体相关词的标注结果相关词标注结果备注说明抗体DNA基因数据载体信道导体POC金属载体1112233生物医药类载体生物医药类载体生物医药类载体数据通信类载体数据通信类载体工业领域载体工业领域载体4.2评价指标专利实体消歧的目标是将实体

21、相关词利用层次聚类的方法划分为不同的类别,因而使用聚类技术的评价方法评价实体消歧的有效性,本文使用的评价方法是基于人工判定的F-Measure值。已知实体相关词标注结果和聚类结果集,其中表示标注结果中包含s个类别,表示聚类结果中包含的聚簇数目是m。计算每个标注类别在不同聚簇下的准确率(Precision)、召回率(Recall)和聚类F值,其中聚类准确率、召回率和F值的计算公式如下:,从中挑选最优指标值以及与其对应的簇,并以该最优的指标值来判定的质量,每个标注类别的F值表示为。本次聚类结果的最终F值的表示为:4.3实验结果与分析聚类终止条件的阈值控制由于实体消歧的过程就是层次聚类的过程,需要控

22、制聚类的终止条件得到最终的消歧结果。本文使用了3种单独的衰减方式(最大值衰减、最小值衰减、平均值衰减)以及它们之间相互融合的4种衰减方式,以控制了层次聚类的终止。7种衰减方式的聚类结果评价如下表所示。表4聚类终止条件控制结果展示RMaxRMinRAvgRMax+MinRMax+AvgRMin+AvgRAll0.67240.62880.65860.63210.62970.63040.7565从表中数据可得出结论,使用三种衰减方式相融合的衰减方式RAll得到最优的聚类结果。在此基础上,本文选取了4个候选的衰减度阈值0.2、0.3、0.4和0.5,分别在这4个阈值的基础上得出聚类的评测结果,如下表所

23、示。表5不同衰减度水平的评价结果0.20.30.40.50.71010.74850.76180.7887从实验结果中可以看出,本文在使用三种衰减度融合的基础上,并使用衰减度阈值为0.5的情况下,得到最优的结果。消歧评测结果本文提出的专利实体消歧方法是基于IPC分类体系结合VSM生成相关词的特征向量,并利用HAC算法进行聚类分析的过程,因而本文提出方法的评价指标采用的是层次聚类的评价方法F-Measure。将TF-IDF的特征表示法作为Baseline;在word2vec的词向量表示法方面,使用了三种维度的特征向量表示;而在基于IPC的特征表示法方法则使用了IPC的三个层次进行特征向量的辅助生成

24、。作为对比实验,本文引用了姜丽丽3的基于文档的词语相似度方法。本文在十个查询中的结果如表6所示。表6十个查询词的F值查询词Baselineword2vec方法共现度方法IPC方法size=200size=250size=300PBCSC病毒0.72480.75710.75710.75710.91110.98430.9921缓冲器0.37110.65990.64610.64610.65890.61220.61220.569引擎0.38820.55680.55680.55680.35150.75910.75420.7941接口0.63850.69890.69890.69890.65350.6858

25、0.68580.6858种子0.54880.68840.77930.77930.9230.93890.93420.9389粉碎机0.45880.52770.52770.52770.60350.68170.74810.6986过滤器0.53040.43550.46270.46270.55870.63270.69930.6549散热器0.41280.45310.45310.45310.49590.72030.76830.752牵引器0.48220.41220.41220.41220.57920.76250.83260.7915载体0.52170.63570.63570.63570.68050.82

26、130.86090.7936Avg0.50770.58250.5930.5930.64160.760.78870.7678从实验结果可以看出,基于IPC的特征向量表示方法的聚类效果明显优于其他方法,且在IPC的3个层次上都获得了较好的歧义消解结果。总体上看,此方法在大类的层次上获得了最好的评价结果,因为在部的层次上,相关词的特征向量维度是8,在低维空间上较稠密,不利于实体的歧义消解;而在小类层次上,特征向量又比较稀疏,使一些具有较高领域相关度的词对,由于在很多特征维度上没有交集,使它们的相关度较低,未被聚到一起,而影响最终的消歧结果。基于TF-IDF的方法能够反映的实体信息有限,大部分实体相关

27、词都是专利术语,其对应的特征向量较稀疏,而特征向量的维度较大,在聚类过程中不利于形成明显的聚簇,使聚类的准确率降低。使用Word2vec工具生成的词向量,能够在一定程度上引入语义信息,但这种语义信息只是集中于一定范围的上下文中,对于信息较为分散的专利文本,并没有生成对歧义消解有帮助的特征向量。使用文档共现度的信息表示法取得了不错的效果,但对于专利相关词之间的关系,文档共现信息不能完全体现词对的相关性。5结论与展望本文提出了一种用于专利实体的实体消歧方法,在充分分析和利用专利文本特点的基础上,利用IPC分类体系对专利实体进行消歧分析。充分利用IPC分类编号的特点,按照领域的歧义性,对实体相关词进

28、行类别的划分。本文在IPC体系的三个层次上分别利用词频、文档频率以及类别频率等特征,得到能够表达词语领域标识性的特征向量,再利用HAC算法对这些特征向量进行聚类,得到的聚类结果就是实体消歧的结果。同时,为了验证本方法的有效性,本文还引入了其他三种方法做对比,分别是基于TF-IDF的向量表示法、Word2vec词向量表示法以及文档共现度信息表示法。结果表明,本文提出的方法能够有效地实现专利实体的消歧。下一步的工作中,将尝试在不同的IPC层次下的特征在领域不同上进行混合和筛选。例如,在IPC的部的层次上,G类和H类都是与物理工业相关的领域,可以考虑将二者合并;A类是“人类日常生活类”,其中包含的领

29、域较复杂,可以考虑将A类特征按照不同领域进行分解等。这样,在新的IPC层次上进行实验,以期获得更好的效果。参考文献(References)1邓要武.科技报告、专利文献和标准文献资源检索与利用.图书馆工作与研究J.2008(7):71-7412ZhengyanHe,ShujiLiu,MuLietal.LearningEntityRepresentationforEntityDisambiguationC.InproceedingsofAssociationofComputationalLanguage,2013:30-343姜丽丽.实体搜索与实体解析方法研究D.兰州:兰州大学,2012.4A.B

30、agga,B.Baldwin.Entity-basedcross-documentcoreferencingusingthevectorspacemodelC.InProceedingsofthe36thAnnualMeetingoftheAssociationforComputationalLinguisticsandthe17thInternationalConferenceonComputationalLinguistics(COLING-ACL),1998:79-85.5R.Bekkerman,A.McCallum.Disambiguatingwebappearancesofpeopl

31、einasocialnetworkC.InProceedingsofthe14thInternationalWorldWideWebConference(WWW),2005:463-470.6X.Han,L.Sun,J.Zhao.Collectiveentitylinkinginwebtest:agraph-basedmethodC.InProceedingsofthe34thinternationalACMSIGIRConferenceonResearchanddevelopmentinInformationRetrieval,2011:765-774.7D.Bollegara,Y.Mats

32、uo,M.Ishizuka.DisambiguatingpersonalnamesonthewebusingautomaticallyextractedkeyphrasesC.InProceedingsofthebiennialEuropeanConferenceonArtificialIntelligence(ECAI2006),2006.8R.Bunescu,M.Pasca.UsingencyclopedicknowledgefornamedentitydisambiguationC.InProceedingsofEMNLP-CoNLL,2006(6):9-16.10T.Mikolov,K

33、.Chen,GregCorradoetal.EfficientEstimationofWordRepresentationsinVectorSpaceC.InProceedingsofWorkshopatICLR,2013.11T.Mikolov,I.Sutskever,K.henetal.DistributedRepresentationsofWordsandPhrasesandtheirCompositionalityC.InProceedingsofNIPS,2013.12刘德馨,李有馥.国际专利分类法评价J.情报科学,1993,14(4):20-27.13刘玉琴,桂婕,朱东华.基于IPC知识结构的专利自动分类方法J.计算机工程,2008,34(3):207-209.14马晓艳,唐雁.层次聚类算法研究J.计算机科学,2008,34(7):34-36.-

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 高考资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com