2023年[复杂中文文本的实体关系抽取研究]实体抽取.docx-得力文库

资源描述

《2023年[复杂中文文本的实体关系抽取研究]实体抽取.docx》由会员分享，可在线阅读，更多相关《2023年[复杂中文文本的实体关系抽取研究]实体抽取.docx（20页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、2023年复杂中文文本的实体关系抽取研究实体抽取第36卷第8期计算机科学Vol. 36No. 8困难中文文本的实体关系抽取探讨王苑徐德智陈建二 (中南高校信息科学与工程学院长沙410083) 摘要实体关系抽取是信息抽取探讨领域中的重要探讨课题之一。针对已有方法在处理困难文本上的不足, 提出了困难中文文本的实体关系抽取方法。结合中文文本的语法特征, 提出了7条抽取关系特征序列的启发式规则, 并采纳语义序列核和KNN 机器学习算法结合的方法来分类和标注关系的类型。通过对ACE 评测定义下的两个子类的实体关系抽取, 关系抽取的平均F 值达到了76%, 明显高于传统的基于特征向量和最短依存路径核

2、的方法。关键词实体关系抽取, 语法特征, 启发式规则, 语义序列核中图法分类号TP393, TP391文献标识码A E ntity R elation Extraction for Complex Chinese T ext WAN G Yuan XU De 2zhi CH EN Jian 2er (College of Information Science and Engineering ,Central Sout h University ,Changsha ) Abstract Entity Relation Extraction is one of the important in

3、Aiming at the problem of inefficiency of existing approaches paper presented a novel ap 2proach. This new approach feature sequence through combining with grammar feature of the kernel function with KNN learning algorithm to f ul 2fill the entity are carried out on two kinds of relation types define

4、d in the ACE guidelines that the new approach achieves an average F 2score up to 76%,significantly higher than the tra 2ditional feature 2based approaches and traditional shortest path for dependency kernel approaches. K eyw ords Entity relation extraction , Grammar feature , Heuristic rule ,Semanti

5、c sequence kernel 实体关系抽取是指自动识别包含在自然语言文本中的两个实体之间的预定义关系。所谓实体是指文本中包含的特定事实信息, 如人物、组织机构、地理位置等。实体关系抽取在数据结构化、信息检索和自动应答系统等领域有着重要的探讨意义。美国国家标准技术探讨院(N IST ) 在2023年组织的自动内容抽取(ACE , Automatic Content Extraction ) 评测中定义了7种实体关系类型和18种子类型。目前, 针对中文语料的实体关系抽取探讨方法主要有基于特征向量的方法1,2、基于改进的语义序列核方法3和基于Bootstrapping 的方法4。这些方法大都

6、只考虑一个句子只存在两个实体状况下的关系抽取。事实上, 包含3个或3个以上实体的句子是许多的, 正确地抽取这些实体的关系是个探讨难点。大量针对英文语料的实体关系抽取探讨从试验上证明, 句子的句法信息和语义信息对于实体关系的抽取特别有效。本文的主要工作集中于探讨包含多个实体的句子的实体关系抽取; 结合中文语料的语法特征, 对已有的基于最短依存路径核的中文实体关系抽取方法进行改进, 使之更适合于包含多个实体的句子的关系抽取。 1相关工作在已有的中文实体关系抽取方法中, 基于特征向量的方法1,2适合于只包含两个实体的句子的关系抽取, 这是因为基于特征向量的方法主要考虑的是描述实体关系的特征词的提取

7、。当句子中存在3个或3个以上的实体时, 不仅须要提取出描述实体关系的特征词, 还须要区分出该特征词的归属, 即区分该特征词描述的是哪一对实体之间的关系。因此, 基于特征向量的方法在处理包含多个实体的句子的关系抽取时, 性能往往会很差。基于改进的语义序列核方法3适合于句子比较短、比较简洁的状况, 更好的应用应当是和基于特征向量的方法相结合。基于Bootstrapping 的方法4, 关键部分是种子的选择和迭代模式的生成, 而现有的模式生成只限制于包含两个实体的关系句子, 关系抽取也只限于包含两个实体的关系句子。已有的加入语法信息的关系抽取方法采纳的语法解析工具主要有两种:句法解析工具和依存文

8、法解析工具。这两种工具解析的结果相对应地都有个专属的名称:句法树和依存到稿日期:2023209209返修日期:2023211226本课题受国家自然科学基金重点项目(60433020) , 湖南省自然科学基金(06JJ 50142) , 湖南省国土资源厅科技安排项目(202318) 资助。王苑(1984-) , 女, 硕士生, 主要探讨方向为信息处理等, E 2mail :wangyuan_csu. cn ; 徐德智(1963-) , 男, 教授, 主要探讨方向为 Web 计算、语义网等; 陈建二(1954-) , 男, 教授, 博士生导师, 主要探讨方向为计算机网络、计算机理论等。 208

9、树。基于句法树5和基于依存树的方法6由于对句法分析的精确率要求比较地高, 往往不太适合中文的实体关系抽取。而基于依存图(把依存树看成有向图) 中依存路径的方法7,8, 由于考虑的只是连接两个实体的依存路径, 对句法分析的精确率要求则相对要低许多, 该方法的不足之处是不适合于包含多个实体的句子的关系抽取。当句子中存在多个实体时, 由于依存图是个连通图, 随意的两个实体都存在着最短依存路径, 因此很可能会存在最短依存路径重叠或是交叉的状况。若不对随意两个实体的路径做筛选, 很可能会导致错误的关系抽取。针对已有方法不能有效解决多实体句子的关系抽取, 本文结合基于最短依存核路径方法在提取特征词上的

10、优势和基于语义序列核在计算对象相像度上的优势, 提出了新的困难文本的实体关系抽取方法。 2困难文本的实体关系抽取方法本文方法主要从两个方面进行介绍:介绍关系特征序列的获得方法和介绍关系特征序列的相像度计算方法。在不引起歧义的状况下, 本文中的文本特指句子。为便利描述, 引入下列定义。定义1(困难句子) 包含3个或3定义2(简洁句子) 定义3(征词集合。2. 1文献7论述了连接两个实体的最短依存路径可作为这两个实体的关系特征序列, 其论点是基于简洁句子的。困难句子由于包含着多个实体且句子的依存图是连通的, 因此很可能存在着最短依存路径重叠、交叉的状况, 即会存在连接两个实体的最短路径可能会包

11、括不属于描述这两个实体关系的特征词状况。以句子S1“孙玮的这种进取性格第一次在摩根士丹利工作期间就赢得了麦晋桁的青睐。”为例, 该句子的依存图如图1所示。宾语的分支上。而“摩根士丹利”处于“赢得”介词限定词的分支上, 依据汉语语法学问9, 谓语前的介词结构的语义指向是指向主语, 因此图1中“摩根士丹利”和“麦晋桁”不存在语义指向关系, 应认为“摩根士丹利”和“麦晋桁”不存在预定义关系。因此, 对困难句子的关系抽取, 应对实体之间的最短依存路径进行必要的限制和筛选。本文通过对大量语料的分析, 结合汉语语法学问, 引入了下列启发式规则。2. 1. 1获得关系特征序列启发式规则引入的启发式规

12、则包括下列7条: 1) 文献9指出当动词带宾语时, 介词短语一般不行以放在动词后, 而谓语前的介词结构的语义指向是指向主语。因此对于随意一对实体1和实体2, 若它们的依存路径为图2所示的形式, 则可认为这对实体不存在预定义的关系。在没有歧义的状况下, 本文图中的全部虚线箭头都表示连接两个词的依存路径长度不小于1, 大写字母如A 、B 、C 和D 之类都表示随意词。 2) 文献10, 即作为1, 则可认为这) Path1包含另一条最短依Path2, 为避开路径重叠带来的干扰作用, Path1端连接的实体, 对应关系特征序列应当取Path1与Path2没有重叠的部分。存在一种特别的状况。若依存图

13、结构如图4所示的状况时, 由于实体1与实体2是并列关系, 因此实体1与实体3的关系和实体2与实体3的关系是一样的。图4中的cc 表示coordination ,conj 表示conjunct 。这种结构的依存图表示实体1和实体2是并列关系。 4) 对于随意一对实体1和实体2, 若它们的依存路径为 (b ) 所示的形式, 则提取的关系特征序列为图5(a ) 、“实体1+动词i +实体2”。图5中的点划虚线箭头代表动词1到动词i 的长度不小于1, 并且动词1到动词i 的最短路径上不存在这样的动词, 其中该动词被某词以nsubj 的方式依存。图1句子S1的依存图片段该句子存在两个人名实体“

14、孙玮”和“麦晋桁”、一个机构组织实体“摩根士丹利”。该句子中“孙玮”和“摩根士丹利”存在着雇佣关系, 而“麦晋桁”和“摩根士丹利”不存在预定义关系。实行文献7中的方法提取出的“摩根士丹利”和“麦晋桁”的关系特征序列是“在摩根士丹利工作期间就赢得麦晋桁青睐”。由于包含着特征词“工作”, 在利用词频信息抽取实体关系时很可能会导致实体关系抽取错误。分析句子S1可发觉特征词“工作”应属于“孙玮”和“摩根士丹利”的关系特征序列。由此可见, 困难句子的实体关系抽取, 纯粹抽取最短依存路径为关系特征序列是不足的。细致视察图1, 可发觉“麦晋桁”处于动词“赢得”的干脆图5某句子的依存图片段依存树中除唯

15、一一个作为独立成分的动词外, 其他的词必需依存于其他另一个词。由于随意一个动词都必定会有主语, 所以当两个实体分别以nsubj ,obj 方式依靠于动词, 且它们的依存路径上又不存在以nsubj 方式依靠于该路径上的词时, 这两个实体应当是主语、宾语的关系, 并且它们的谓语应 209 该取最靠近宾语的那个动词。 5) 若存在随意两个实体分别处于某一动词的nsubj ,obj 的分支上, 则只考虑这两个实体的关系提取。如图6所示, 只考虑实体2与实体3的关系抽取, 不考虑实体1与实体2或是实体1与实体3的关系抽取。 6) 当随意两个实体都处于两个不同obj 的分支上时, 不考虑这两个实体的关系

16、抽取。由于处在obj 上的两个实体不存在着动作的关系, 不存在着限定(modifier ) 的关系, 即它们不存在语义指向关系, 因此可认为它们在句子中不存在预定义的关系。 7) 在提取随意两个实体的最短依存路径时, 若它们的最短依存路径如图7所示, 则提取的特征序列应包括动词2 。 Step5扩展。为避开数据稀疏对后面相像度的影响, 将对Step4 提取的特征序列进行扩展。扩展的方法是对Step4中提取的词增加词性标注(POS ) , 因此最终提取的序列形式为X =X 1X 2X n , 其中 X i 为二元组(p , w ) , p 代表了词X i 的词条, w 代表X i 的词性。 2.

17、 2关系特征序列的相像度计算方法本文采纳语义序列核来计算关系特征序列的相像度, 语义序列核的具体介绍请参见文献3。两个序列的相像度计算公式为 K (X , Y ) = K n (X , Y ) Z x (X , Y ) n =1 1 k 2 k (1) 其中X , Y 为关系特征序列; Z x (, ) 为标准化因子, 定义为 Z x (X , Y ) = =1 K n (X , X ) K n (Y , Y ) n =1 (2) 其中k 1为X 的长度, k 2为Y 的长度, K n (X , Y ) 为语义序列核函数, 定义为 K n (X , Y ) = n u i :u =Xi .p

18、 j :u =Yj .p l (i ) +l (j ) SIM k =1 n (X i k . w , Y j k . w ) (3) 图7中, 虚线表示方向随意且长度不小于1的依存路径。由于补语的语义要么指向被补充的动词, 要么指向被补充动词的宾语, 因此在提取两个实体的特征序列时, 不仅包括连接两个实体的最短路径, 还应包括图7形式中的动词2。2. 1. 2获得关系特征序列的过程在运用Stanford 解析效果。, 。算法1句子的预先处理算法输入:经过分词后的句子输出:经过初始预处理后的句子 Step1当位于两个实体之前或之后存在着标点符号时(如分号、其中i =i 1, i 2,

19、 , i n 和j =j 1, j , , j m 分别表示X 和Y , n |, m i 和Y j 分别是序列 X , l () (j ) Xi 和Y j 在原序 =0. 5,SIM 函数依据哈, 度。采纳语义序列核来计算关系特征序列相像度的好处在于考虑到了序列的语义学问, 削减了词频的影响, 提高了匹配的目的性。 3试验结果及分析 3. 1试验数据试验选择ACE 中定义的两个子类Employment 和Loca 2 ted 为预定义的关系类别。试验的语料来自Web 上选择的文逗号或顿号时) , 删去出现该标点符号之前或之后的全部词和该标点符号; Step2当位于两个实体中间的部分形式为

20、“33实体133, 3 档。包含人名实体和机构实体的句子总共有2500个, 存在Employment 关系的句子有800个, 不存在Employment 关系的句子有1700个。而包含人名实体和地方实体的句子总共有2400个, 其中存在located 关系的句子有800个, 不存在located 关系的句子有1600个。每个关系类别分别随机抽取 1/3为测试集、2/3为训练语料。 333, 33动词33实体2”时, 删去两个逗号之间间隔的部分, 其中符号3表示随意词; Step3由于文本中包含大括号的词往往是起着说明的作用, 因此删去文本中包含在大括号内的词以及该大括号; Step4删去出现

21、在句子中一些特别符号, 如破折号、分号等。对经过预处理的句子采纳算法2获得表示实体的关系特征序列。算法2改进后特征序列提取算法输入:经过预处理的句子输出:关系特征序列 Step1句子解析。采纳依存文法解析器对句子进行解析, 结果试验对以下3种方法做了比较。方法1是传统的基于特征向量的方法, 通过向量的内积来计算对象之间的相像度; 方法2是基于传统的最短依存路径核的方法; 方法3是本文介绍的方法。本文中采纳的分类器是上述的语义序列核的方法和HNN 学习算法联合构造的分类器, 采纳的分词器是中科院开发的ICTCL AS 分词器, 该分词器的精确率达到了98%。3. 2对比试验结果及分析

22、表1为Employment 和Located 关系的抽取结果。表中的P 表示系统抽取的精确率; R 表示系统的召回率; F 测度综合以上两个标准, 反映了系统的整体性能。表1Employment 和Located 关系抽取结果(%) 方法方法1方法2方法3 Employment P 49. 663. 874. 4 R 56. 563. 784. 1 F 52. 963. 878. 9 P 54. 56273. 2 Located R 59. 467. 380 F 56. 864. 576. 4 以依存树的形式表示; Step2特征序列提取。对出现在句子中的随意实体对, 根据前面的7个启发

23、式规则, 提取初始关系特征序列; Step3排序。对初始关系特征序列的词, 根据原句子中出现的先后依次排列, 每个词都标注相应的词性; Step4验证。为防止由于依存文法解析器解析句子错误, 对Step3提取出的关系特征序列进行验证。Step3的提取特征序列至少应包括一个出现在间隔在两个实体中的动词。若间隔在两个实体中的词没有动词, 则应包括全部间隔在两个实体中的名词。若没有动词也没出名词, 则应包括全部间隔在两个实体中的词; 210 从表1中可看出方法3有很大的优势, 这是在运用大训练集的状况下得到的结果。为了验证新方法是否具有更好的泛化实力, 进行第2阶段的试验。在本阶段试验中, 以E

24、m 2ployment 的实体关系抽取为例, 训练集合的规模每次递减, 随机抽取20%,40%,60%,80%,100%的实例来进行训练, 试验结果如图8所示。实体关系。参考文献 1234 车万翔, 刘挺, 李生. 实体关系自动抽取J .中文信息学报, 2023,19(2) :126 董静, 孙乐, 冯元勇, 等. 中文实体关系抽取中的特征选择探讨 J.中文信息学报,2023,21(4) :80285 刘克彬, 李芳, 刘磊, 等. 基于核函数中文关系自动抽取系统的实现J.计算机探讨与发展,2023,44(8) :140621411 Li Wei 2gang , Liu Ting , L

25、i Sheng . Boot strapping for extracting relations from large corpora J.Journal of Electronics (CHI 2NA ) ,2023,25(1) :89296 5Zhang Min , Zhong Guo 2dong , Aw Aiti . Exploring syntactic st 2ructured feature over parse trees for relation ext raction using kernel met hods J .Information Processing and

26、Management , 图8不同规模训练集合下的关系提取结果2023,44:68727016 Culotta A ,Sorensen J. Dependency tree kernels for relation ex 2tractionC Proceedings of t he 42nd Annual Meetings of t he Association for Computational Linguistics (ACL 204) . Barcelo 2na ,Spain J uly ,2023:42327 R C Pat h Dependency Kernel of Human L

27、anguage and Conference on Empirical Met hods in Language Processing. 2023:72427318 Huang Rui 2hong , Sun Le , Feng Yuan 2yong . Study of kernel 2based Met hods for Chinese Relation ExtractionCt he LNCS , Springer ,AIRS s 08. 2023:69826049 试验证明, 本文方法有更好的泛化实力。即使是在只有 20%训练语料的状况下, 依旧能取得比较好的效果, 而其他两种方法在训

28、练集合削减时精确率和召回率都有明显下降。图8显示, 当训练语料的规模在80%时, F 值比规模在100%时高。经分析发觉, 由于测试集中包含没有预定义关系的测试样本比较多, 在随机抽取测试集时, , 这些测试样本的精确率比较高, 则导致F 结束语, 系抽取方法。, 弥补了传统方法不能处理关系特征序列交叉、重叠的缺陷。引入了语义序列核计算关系特征序列相像度, 并引入了序列语义, 削减了词频的影响, 提高了匹配的目的性。经过试验分析, 本方法相比已有的方法, 其抽取正确率和召回率都有所提高。将来的工作包括以下两个方面:第一方面, 在实体关系抽取方法中加入模式匹配的处理; 其次方面, 实体关系推理

29、处理, 对存在多个实体的对象, 依据已知的实体关系推出未知的 (上接第192页) 魏庭新, 吕文华. 现代汉语介词结构位置的考察及影响其位置的句法、语义因素的分析D .北京:北京语言高校,2023 10李锦姬, 范晓. 现代汉语补语探讨D .上海:复旦高校,202311Che Wang 2xiang ,Jiang Jian 2min ,Su Zhong ,et al. Improved 2edit 2 distance Kernel for Chinese Relation Extraction C Proc. of t he Second International Joint Confer

30、ence on Natural Language Processing (I J CNL P 205) . 2023:13221374 Yu Tao ,Lin Kwei 2jay. A Broker 2Based Framework for QoS 2A 2ware Web Service Composition A IEEE. Proceedings of t he IEEE International Conference on e 2Technology , e 2Commerce and e 2Service ,2023C .USA :IEEE Computer Society Pre

31、ss , 2023:22229 Zeng Liangzhao ,Benatallah B , Dumas M. Quality Driven Web Services Composition A ACM. Proceedings of t he 12t h In 2ternational Conference on World Wide Web (WWW ) , Buda 2pest , Hungary ,2023C.USA :ACMPress ,2023:4112421 赵俊峰, 谢冰, 张路, 等. 一种支持领域特性的Web 服务组装方法J.计算机学报,2023,28(4) :731273

32、8 Yu T ao , Lin Kwei 2Jay . Service Selection Algorithms for Web Services with End 2to 2end QoS Constraints A IEEE. Proceedings of the IEEE International Conference on e 2Commerce T echnology C.USA :IEEEC omputer S ociety Press ,2023:1292136 从表2中可以看出同一个服务的不同操作具有不同的QoS , 本文所实现的QosCollectionFrame 有效采集

33、了Web 服务的QoS 数据并对其进行了有效处理。结束语本文以Web 服务QoS 为探讨对象, 主要探讨了QoS 数据采集及QoS 数据处理计算的方法和技术。详细包括:分析了Web 服务的调用过程与QoS 属性的关系, 探讨了几种QoS 数据的采集方法; 设计实现了以QoS 为中心的多源QoS 数据采集系统QosCollectionFrame , 对QoS 数据进行存储、处理以及计算。最终本文将系统集成在北大软件资源库中, 通过应用实例验证了QosCollectionFrame 的可行性。 5 67 参考文献 12 Menasc D A. QoS Issues in Web Services

34、 J.IEEE Internet Computing ,2023,6(6) :72275 Chen Hongan , Yu Tao , Lin Kwei 2jay. QCWS :An Implementa 2tion of QoS 2Capable Multimedia Web Services A IEEE. Pro 2ceedings of t he IEEE Fift h International Symposium on Multi 2media Software Engineering C.USA :IEEE Computer Society Press ,2023:38245 杨

35、胜文, 史美林. 一种支持QoS 约束的Web 服务发觉模型J.计算机学报,2023,28(4) :5892594 8 邵凌霜, 李田, 赵俊峰, 等. Web 服务QoS 管理框架J.计算机学报,2023 9J ava API for XML 2Based RPC (J AX 2RPC ) OL .http :java. sun. com/webservices/jaxrpc 10J ava Web Services Technologies At a G lanceOL .http :java. sun. com/webservices/technologies/index. jsp 11赵俊峰. 构件库反馈管理及运行时应用支持技术的探讨D .北 3 京:北京高校,2023 211

展开阅读全文