基于奇异值分解的专利术语层次关系解析研究-吴志祥.pdf-得力文库

资源描述

《基于奇异值分解的专利术语层次关系解析研究-吴志祥.pdf》由会员分享，可在线阅读，更多相关《基于奇异值分解的专利术语层次关系解析研究-吴志祥.pdf（11页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、情报学报2017年5月第36卷第5期JournaI of the China Society for ScientifIc and。rechnIcaI Information，May 201 7，36(5)：473-483基于奇异值分解的专利术语层次关系解析研究吴志祥1，一，王昊1，一，王雪颖1，一，祁磊3，苏新宁1，2(1南京大学信息管理学院，南京210023；2南京大学，江苏省数据工程与知识服务重点实验室，南京 210023；3南京大学计算机软件新技术国家重点实验室，南京 210023)摘要奇异值分解是矩阵分析中常用的分解技术，在高维数据的降维、去噪方面有着广泛的应用。本文将矩阵的

2、奇异值分解技术应用到领域专利术语的层次关系解析中，其核心思想是术语语义空间的深度转换，旨在用某种潜在特征代替文档作为属性来表示术语。具体研究包括，基于位置加权的原始术语一文档语义空间的构建方法、基于奇异值分解的术语特征抽取方法、基于术语一特征语义空间的术语层次关系解析方法。本文对论述的理论方法进行了实证研究，证实了该方法的可行性和有效性，并在此基础上实现较大规模的钢铁冶金领域专利术语层次关系解析，将解析结果纳入到本体学习理论体系中，实现该领域专利术语的知识本体化与可视化。关键词术语语义空间转换；矩阵奇异值分解；术语特征抽取；术语层次关系；本体学习Study on Chinese Patent

3、 Terms Hierarchy Parse Based onSingular Value DecompositionWu Zhixian91，-，Wang Ha01，_，Wang Xueyin91-，Qi Lei3 and Su Xinnin91，2(1&矗oD，Q厂坳M以ffD胛尬n口g踟eHf可形f，29fVP坶f劬形垤 2 1 0023；2历以胛伊“y L日60，以fD秒Dn施Eng砌PP砌馏口门d鼢2Dw比姆P SPwice，“巧i，zg 210023；3_s协把K秒三以6Dr口fD砂扣，ove，驴w以陀死c胛DfDgy口f以形拥giVe坶f砒以形f胛g 210023)Abstrac

4、t：Singular value decomposition(SVD)is a commonly used decomposition technique in matriX analysisIthas been widely used in the dimension reduction and denoising of high-dimensional dataIn this paper，the matrixSVD technique is applied to the hierarchy parse of domain patent terminologyThe core idea is

5、 the depth transfbrmation of term semantic space，which aims to express the term with a certain 1atent feature，instead of document，as anattributeSpecific research includes the construction of original temdocument semantic space(TPSS)，based on 10cation weighting；term feature extraction，based on SVD；an

6、d hierarchy parse，based on term。feature semantic space(TFSS)The feasibility and validity of the proposed theoretical methods are Verified by empi“cal study in this paperOn this basis，the hierarchicalrelationship of the patent tems in iron and steel metallurgy(I&SM)is parsed，and theresult is incorpor

7、ated into the ont0109y learning theory system，realizing the ont0109ical and Visualization of the pat-ent knowledge in I&SMKey words：term semantic space transformation；singular Value decomposition；tem feature extraction；tem hierarchy parse；ont0109y leaming收稿日期基金项目作者简介2016-10-19：修回日期：20170319江苏省自然科学基金

8、项目“面向专利预警的中文本体学习研究”(BK20130587)，江苏省“333”工程项目“面向知识服务的中文本体学习研究”(BRA2015401)，国家社科重大招标项目“面向突发事件应急决策的快速响应情报体系研究”(13&zDl74)等。吴志祥，男，1990年生，博士研究生，主要研究方向为自然语言处理、知识本体构建及应用、科学评价与引文分析，Email：1030624832qqcom；王吴，男，1981年生，教授、博士生导师，主要研究方向为知识本体构建及应用、数据挖掘技术应用、科学评价和引文分析等；王雪颖，女，1994年生，硕士研究生，主要研究方向为智能信息处理与检索、自然语言处理、知识本体构

9、建及应用、科学评价与引文分析；祁磊，男，1989年出生，博士研究生，主要研究方向为计算机视觉、模式识别；苏新宁，男，1955年生，教授，博士生导师，长江学者，主要研究方向为智能信息处理与检索、科学评价和引文分析等。万方数据474 情报学报第36卷1 引言专利文献由于其在科学研究中的特殊价值，长期以来是LIs领域的热点研究对象【卜21，其中专利本体化是重要的研究子领域，传统的研究路径是将专利相关检索项本体化，以构建基于本体的专利检索和发现的逻辑模型，在涉及具体的专利概念和概念间的关系时，往往采用人工的方式进行分析和抽取【351；随着本体学习理论的兴起，深入到专利文献的题名、摘要、全文，

10、从非结构化专利文本中自动或半自动抽取专利术语并构建术语之间的语义关系，形成专利本体的研究成为趋势【67】。据国家知识产权局数据显示，我国2015年共授权359万件发明专利，同比增长187，位居世界第一8。这些数量众多且快速增长的发明专利最终以非结构化文本的形式，存储、发布在国家知识产权局专利检索数据库中，并提供以元数据为基础的专利检索与统计分析服务，本文所谓的专利术语层次关系解析，正是基于此数据基础，采用自动化的方式解析从非结构化专利文本中提取的术语之间的层次性语义关系，为形成结构化的专利本体提供支持。这里的专利本体本质上就是为专利检索和开发等服务提供支持的知识库。随着专利知识库的形成，专利知

11、识地图浏览、专利语义检索和创新开发、基于专利预警的专利查重等方面的应用将大大提升专利文献的利用深度与利用价值。在本体学习理论框架下的专利术语层次关系解析的关键是术语在语义空间中的表达方式。一般术语层次关系解析以构造术语文档矩阵为基础，矩阵的行表示出现在文档集中的术语，矩阵的列表示文档，矩阵的元素表示术语与文档的关联系数。在术语文档矩阵所表示的语义空间中，术语为对象，文档是表达术语的属性。在大规模文档背景下，该语义空间呈现高维稀疏状态，不利于算法的运行【9。更为重要的是，以文档作为属性表示术语，显得非常粗糙，在挖掘术语之间的潜在语义关系上存在固有的缺陷111。本文提供一种新的研究思路，旨在使用某

12、种潜在的特征作为属性代替文档来表示术语。在人脸识别研究领域，往往使用某些特征来表示人脸，如头发的颜色、眼睛的大小、耳垂的形状等1 21。然而，在专业术语的表达上，特征则显得非常抽象。针对这一难题，笔者启发性地使用矩阵奇异值分解(singular Value Decomposition，SVD)的理论和技术，对原始术语文档语义空间进行分解，将术语转移到低维度的语义空问中，抽取出术语的特征，构建术语特征矩阵，矩阵的行依然表示术语，矩阵的列则转换为术语的特征，矩阵的元素是术语与特征的关联系数。本文尝试在矩阵SVD技术的基础上，设计完整的方法系列，在不加入外部知识源作为支持的情况下，对钢铁冶金领域(I

13、ron and steel Metallurgy，I&sM)的专利术语进行层次关系解析，验证用特征表示术语在术语层次关系解析中的可行性和有效性。本文的工作是面向中文专利文本自动构建领域知识本体一整套解决方案中的重要部分，为深入得专利文献检索、分析和开发等方面的服务提供支持。2近期相关研究术语层次关系解析在本体学习(即本体自动构建)多层次任务体系中，处在上层13。1 41，是对术语识别与抽取阶段获取的领域知识进行组织和再发现的关键阶段，为本体推理奠定基石。术语层次关系解析研究，缘起于文本中词汇的上下位关系抽取，最早的工作由Hearst”】在1992年完成，被称为Hearst模式，并在后来的研究中

14、被不断改进完善【1 61。由于基于规则模板的方法加入了领域专家的外部知识支持，因此具有较高的准确率，但同时其具有召回率低，领域依赖性高的缺点【17，在近期的研究中大多与句法分析【l 8I、分布向量【19等结合起来使用。随着统计学习方法的兴起，基于无监督的方法自动或者半自动的进行术语层次关系解析的研究成为主流，有两个主要研究路径：基于聚类的方法和基于形式概念分析(Formal concept Analvsis，FcA)的方法。采用聚类的方法，前提是构造术语文档语义空间，并在诸如kmeans算法【20211、蚁群算法22、BIRcH算法2 3等经典聚类算法的基础上设计多重聚类框架，实现术语的层层类

15、簇划分，并使用相关度计算公式抽取标签术语，从而自动完成领域术语的层次结构生成；另外，层次聚类(Hierarchical clustering，Hc)作为小而精的算法也常用在小规模领域术语的层次关系自动解析研究中241。基于FcA的方法252 71，则通过构造以术语为对象、以文档为属性的形式背景，从中派生出包括概念、外延和泛化关系等在内的概念格，而概念格形式上即包含术语之间的上下位关系。从理论上来说，采用聚类或FcA的方法进行术语层次关系解析研究，其方法基础均为术语共现理论【2引，即“若包含术语A的文档是包含术语B的文万方数据第5期吴志祥等：基于奇异值分解的专利术语层次关系解析研究 475档的

16、超集，则术语A是术语B的上位类”。两者都是将术语放置在术语文档语义空间中，前者通过计算术语之间的语义相似度，判断术语之间的远近关系；后者则是对术语共现理论的直接应用。然而，这一理论基础在本质上存在一定的缺陷。以FcA为例，在中文环境下某些具有上下位关系的术语具有形式上的相似性，如术语“高炉”和“高炉冷却壁”，后者是前者加上“冷却壁”组合而成的，因此包含“高炉冷却壁”的文档，必然包含“高炉”，使用FcA可以自然呈现术语对的上下位关系。然而在领域文本中，众多的术语对之间不存在明显的共现现象(如“金属”的下位概念为“铁”、“铜”、“铝”、“锌”等)，则无法使用FcA识别上下位关系。可见，术语共现理论

17、在一定程度上显得过于严格，领域文本中不具备共现条件的隐含关系的抽取没有优势。针对现有研究的不足，本文提供了一个新的思路：借助矩阵的sVD技术抽取术语的特征，使用术语一特征矩阵代替原始的术语文档矩阵，实现语义空间的深度转换，并在此基础上实现术语的层次关系解析。所谓的svD2引，是一种重要的矩阵分解方法。通过将原始的高维矩阵分解成三个具有不同含义的矩阵的乘积，从而凸显出原始矩阵所蕴含的特征与内涵3肌3。svD技术广泛应用在数据压缩32、文本处理3”、图像噪音识别341等领域。在自然语言处理领域，sVD常与主成分分析(P“ncipal componentAnalvsis，PcA)、潜在语义分析(La

18、tent semanticAnalvsis，LsA)一起出现，原因在于PcA与LsA的实现均借助于SVD作为底层技术。PcA的基本思想是将原始数据的多个变量转换为少数几个综合变量，即主成分，当维度降低到23维时，就可以通过可视化直观地看到数据分布的状态，这一过程可以由svD完成”。3 61。以术语文档矩阵为例，sVD可以同时完成术语的主成分以及文档的主成分抽取，这是sVD相较于单纯PcA的优势所在。LsA的含义则更为直接地体现了sVD技术对术语之间潜在关系识别的能力。最早将SVD技术应用到潜在语义关系识别的是Deerwester【37j，其基本思路是将原始稀疏矩阵转换为低阶近似矩阵，从而去掉原

19、始矩阵中的噪音，增加矩阵的稠密度，凸显潜藏在其中的语义关系，类似研究在概念检索【3 839】、文本聚类【4411领域不断拓展。此类研究给笔者带来的启发是：sVD技术不仅可以降低数据的维度，而且在挖掘数据的潜在关系方面十分有效，这正是规模化术语层次关系解析所需要的特性。然而，将sVD技术直接应用到术语层次关系解析中的研究非常有限，Bast等【42_43】在2005年和2006年发表的两篇论文，分别介绍了如何使用sVD进行术语同义关系的识别和上下位关系的识别，其核心方法是通过比较术语对的相似性曲线(similarit)，Curves)来识别术语之问的层级关系。H019er的研究主要针对术语对之间的

20、关系判别，并没有应用到规模化的领域术语层次关系构建中，而后者则需要更为复杂的方法系列作为支撑。国内只有李守丽等【441和董慧等【45分别在2002年和2005年发文论证了基于sVD技术自动提取本体的方法，但仅限于理论上的论述，缺乏实证研究。综上所述，术语层次关系解析研究依然存在可提升的空间，本文抓住sVD特征抽取这一关键作用，不仅为完善术语层次关系解析研究提供支持，也创新性地实现规模化术语集的特征识别和抽取。本文的研究语料来自于课题组成员采用基于字角色标注的机器学习方法从7597件专利文本中获取的6707个领域术语4 6|。本文着重从基于位置加权的原始术语文档语义空间的构建方法、基于sVD的术

21、语特征抽取方法、基于术语特征语义空间的层次关系解析方法三个方面深入探讨，设计实验对方法系列进行论证和分析，并在此基础上完成IsM领域专利术语的规模化层次关系解析和知识本体化，为专利知识服务提供支持。3采用的方法本文尝试将矩阵的SvD理论应用到领域专利术语层次关系解析中，探索以语义空间转换为核心的方法系列，并将术语层次关系解析的成果纳入到本体学习理论中，最终完成I&sM领域专利术语的本体化与可视化。31 基于加权的术语一文档语义空间构建方法本文的核心思想是用某种潜在的特征来表示术语，在构建术语特征语义空间(TemFeature Semantic space，TFss)的基础上，对领域术语的层次关

22、系进行解析，而TFss是在原始的术语专利文档语义空间(TermPatent Semantic space，TPss)基础上采用sVD技术实现的，因此首要任务是构建TPss。首先，TPSS的构建是以术语共现为基础的，因此需要对获取的领域术语进行筛选。其原则是：保留至少在专利Pi和专利Pi中各出现1次的术语，万方数据476 情报学报第36卷即术语至少在2篇专利文档中与其他术语存在共现关系。其次，笔者通过加人术语在文档中的位置信息来增加TPss的语义强度。本文研究的基础语料是基于专利非结构化文本的题名和摘要两部分抽取的领域术语。标题所蕴含的语义信息往往比摘要具有更高的浓缩性，因此在计算术语与

23、专利文档的关联系数时，应针对术语出现在标题或者摘要的情况对术语赋予不同的权重。本文笔者设计公式(1)确定攀。去公式(1)的含义为，取所有在标题和摘要中同时出现的术语作为统计对象，若某术语在某文档摘要中出现的频次为兀，在标题中出现的频次为矗，统计所有n个术语在对应文档摘要中出现频次和在标题中出现频次的比值的平均数，该平均数可以近似地看作领域术语在标题中和在摘要中的权重比例。设定某术语出现在摘要中和标题中的权重分别是A。和A，那么对于某个特定的术语在特定的专利文档中，其术语与专利文档的关联系数则可以由公式(2)计算而得：S=见优+见砂 (2)公式(2)的含义为，x、y分别是某术语在某专利文档的标

24、题和摘要中出现的频次，s是该术语与该专利文档的关联系数，A，A。以此类推，可以计算出所有参与解析的领域术语与对应专利文档的关联系数，从而生成三元组，并通过程序转换为术语专利矩阵，该矩阵中术语作为对象，专利文档作为其属性，是构建TFss的基础。32 基于SVD的术语特征抽取方法在以术语共现为基础构建的TPss中，用专利文档作为属性来表示术语，而在TFss中则用某种潜在的特征(简称特征)作为属性来表示术语，这一关键过程的转换由矩阵的svD技术实现。svD主要用在形式上为非方阵的矩阵分鳃。在实际的领域术语语义关系解析中，包含待解析术语的专利文档数量往往要多于术语数量，因此本文假设TPSS的表示矩阵为

25、4。，行表示术语，m为术语数量；列表示专利文档，z为专利文档数量，m三元组，并实现TPSS的构建。为了清晰地呈现整个实验过程，笔者从规模化TPSS中抽取与“高炉装置”有关的11个专利术语，万方数据478 情报学报第36卷组成小矩阵彳。由于爿矩阵是从规模化TPss中抽取出来的，因此保留了原矩阵所具有的语义背景，适当对彳矩阵作相应处理，使其满足31节所论述的语义关联：删除列元素全部为0以及只含有一个非0元素的列，如此便保证了11个术语每个术语均至少在两篇以上专利文档中共现，且每篇专利文档至少包含两个术语。处理后，爿变为111024的矩阵，其含义为分布在1024篇专利文档中的11个术语组成的

26、语义空间，在该语义空间中术语之间彼此关联。矩阵4的部分结构呈现在表1中。表1 高炉装置相关11个术语与对应文档构成的矩阵爿(局部)P装置高炉控制电动控制器控制板控制线控制探尺电动机调节器电磁线圈所抽取的11个术语具有一定的代表性，“装置”、“高炉”、“控制”为领域高频术语，在概念上也较为宽泛，而“控制线”、“控制探尺”、“电磁线圈”等术语则为领域低频术语，在概念上也较为专深，如此便使得术语在语义上具有一定的层次性。从表1中可以大致看出术语在语义空问中的分布状况，显然该语义空间具有高维稀疏的特点。42 基于SVD的特征抽取分析在TPss中，文档作为术语的属性，通过SVD可以从TPss中抽取术语所

27、具有的特征。依据32节的论述对矩阵彳中的术语进行特征抽取，本文使用matlab自带的SVD函数u，s，v卜svd口)，对矩阵彳进行svd分解，分解出来的三个矩阵分别记为“、s、l。其中s矩阵是由4的11个奇异值组成的对角矩阵，s=diag(4495，2450，2151，517，318，197，184，145，028，026，019)。从奇异值的分布来看，11个术语含有11个属性特征，特征依照奇异值从大到小，不断减弱。可以看出通过svD，术语集的属性数量被大大压缩，从1024个转变为11个，然而术语在语义空间中所隐含的特征则被凸显出来，不再是松散地分布在数量众多的专利文档中，并且特征不再是模糊的

28、，而是有具体数值清晰可度量的。在这11个特征中，有主要特征和次要特征的区别，保留主要特征即可展现术语之间的语义关系。特征舍取的重要性在大规模术语集的关系解析中显得更为突出，本例的作用在于分析这一过程。至于保留多少主要特征，则由矩阵的F一范数理论进行度量。笔者根据定义2绘制了当尼取不同值时，保留的信息量变化趋势图(图1)。121OO8O60402O图1 巩矩阵所保留的信息量随着七值增长的变化趋势从图1中可以看出，当尼取1时，保留的信息量为6456，保留的信息量随着后值的增大快速增长，当七取4时，保留的信息量达到9937，当尼值继续增大时，保留的信息量几乎接近1。笔者基于后取不同的值所呈现的解析效

29、果，取扣4作为特征筛选的阈值，即保留4矩阵中术语11个属性特征的前4个特征，作为主特征。明确了主特征的组成后，即可从sVD分锯出来的髓矩阵中，截取其前4列为“。矩阵，。矩阵是层次关系解析的过渡矩阵。43 基于TFSS的层次关系解析分析依据33节构建TFSS，并在设定规则的基础上42O00OOOOOOO022O1OOOO00OOO4211OOOOOOOOOO22OOO0OOOOOO622OOOOOOOOOOO422OOOO0OOOOOO22O1OOOOOOOOO66OOO1OOOOlOO660O0O0OO0OOO8221OOO0OOOOOO万方数据第5期吴志祥等：基于奇异值分解的专利术语层次关

30、系解析研究 479对11个术语的层次关系进行解析分析。爿矩阵经过sVD得到1111的比矩阵，行表示11个术语，列表示11个属性特征，每个元素的绝对值表示术语与特征的关联强度，符号表示术语与特征的关联方向。依据本文的论述，对矩阵进行绝对值化处理，即保留术语与特征的关联强度，而忽略其方向性。表2完整的呈现了处理后的H矩阵，并划分出由4个主特征组成的“。矩阵。表2绝对值化之后的矩阵，F1到F4组成4矩阵F1 F2 F3 F4 F5 F6 F7 F8 F9 F10 Fll装置 O7917 04208 O4427 00115 O0037 O0011 O0005 O0002 0oo叭 O 0001 000

31、01高炉控制电动控制器控制板控制线控制探尺电动机调节器电磁线圈O5547 O7988 O2328 00023 O0041 O0022 O0009 O0015 OO001 O0000 OO00302552 O4288 O864l 00172 O0615 O0002 O0140 00095 OOOl5 00008 O002300135 O0072 00065 08620 00727 O4882 O 1137 O0073 00004 00023 O 0008O0115 O0286 O0543 O0635 0995l 00346 0O叭6 00198 O0062 O叭22 O 005500015 O0

32、053 O0083 O0035 0叭92 00079 O0604 09979 O 0022 O0050 O00450O005 00007 O001l O0139 00127 00245 O0117 00054 O1546 09872 O 022000002 00006 O0012 00015 O0046 O0038 O0042 O0033 O9873 O1536 O0384O0048 00047 O0024 O5022 O0034 O8383 O2097 00041 0O002 O 0303 O 0015O003 1 O0076 O0122 O0071 O0066 O2386 O9690 O0

33、602 00023 O0059 O004400002 00009 00015 00008 O0057 00001 O0040 O0044 00346 O0277 09990分析表3中矩阵元素值的分布特性，可以发现“装置”、“高炉”、“控制”等概念较宽泛的术语较大元素值分布在矩阵的左半部分(主特征所在区域)，而“控制探尺”、“电磁线圈”等概念较专深的术语较大元素值分布在矩阵的右半部分(次特征所在区域)。因此，当保留前4个主特征时，宽泛术语与主特征的强关联，专深术语与主特征的弱关联就被凸显出来，这正是层次关系的划分所需要的。依据定义3，4矩阵是模糊矩阵，矩阵的元素值在0，1之问，且列向量是两两正交

34、的单位向量。笔者设定阈值仁04，将“。矩阵变成旯截矩阵，即大于04的元素值变为1，小与o4的元素值变为0。由此，便完成了从TPss向TFss的转换。由11个专利术语，4个主特征组成的01矩阵，便是术语层次关系解析的核心。11个术语的TFss呈现在表3中。表3 11个专利术语的术语特征语义空间(TFsS)在表3所呈现的TFss中，4个特征作为11个术语的所有属性，每个特征的重要性被等同看待。依据33节所设定的规则，可以清晰的判断出术语之间的层次关系。由规则1可知，“装置”是“高炉”和“控制”的上位术语，记为“装置一高炉”、“装置_控制”；由规则2可知，“电动”和“电动机”是同位术语，记为“电动电

35、动机”；另外，“控制器”等6个术语，只含有0元素，因此作为层次结构中的最底层节点，归属为“电动电动机”的下位类，其含义是这6个术语作为“电动电动机”的知识类簇，对“电动电动机”进行了诠释。最后，将表3所呈现出的层次关系对保存在关系表中，并添加“钢铁冶金”作为11个术语的整体上位类，使用0wL将术语关系对编辑为本体代码，其结果显示在图2中，用Prot69642读取该owl文件即可实现12个术语的可视化展示，其结果展示在图3中。以上实验完整地展现了基于本文所论述的方法对专利术语进行层次关系解析的流程，证明了该方法的可行性和有效性。因此，依据该实验流程，可以对较大规模的专利术语进行层次关系的解析，并

36、实现领域术语的本体化。5钢铁冶金专利术语层次关系解析分析本文第4节以部分I&sM领域专利术语作为实验对象，分析了基于sVD实现术语层次关系解析的万方数据480 情报学报第36卷葫F西磊丁司再面三百再丽1爵酮形i寻爵再面及五五百手1df：resouPce：”#钢铁冶金”owl：class rdf：ID盏“装置”(owl：classowl：class rdf：王D=”高炉”(oWl：classowl：class rdf：ID=”控制”owl：elass rdf：I耻”控制板”owl：class rdf：ID=”控制线”(，owl：class)owl：class rdf：ID：”控制攘尺”(

37、rdfs：subclassof rdf：resource：”#电动一电动机”(owl：classowl：class rdf：ID=调节器”owl：class rdf：ID=”电磁线圈”rdfs：subclassof rdf：堂皇垒垡e=“蔓垒塾皇麴型I!Z!Z鱼塑三；羔鱼墨苎!高炉i 饕控制渺装霉8露钢铁冶金图2 12个术语的OwL描述代码控制线控制器电磁线圈电瓤电动机控制探尺调节器控制板图3 12个术语的在Prot696中的可视化展示具体流程。本节则将术语解析的范围拓展到笔者所获取的全部6707个领域专利术语。由于篇幅限制，笔者不再赘述全部TPSS中术语的层次关系解析过程。通过大量实验，本

38、文将解析过程中两个关键阈值分别设定为：肛1200，仁001。由于本文所采用的方法没有添加任何外部知识源，缺乏可参照的平行语料以提供量化的结果评估支持。因此，本文采用定性的方式考察方法的有效性，在领域专家的辅助下，确定识别出的术语关系对，并将部分关系对列举出来，以供参考(表4，表5)。表4识别出的部分同义术语列表术语同位术语术语同位术语拉伸变形压缩变形加热控制炉管加热高温隔热真空隔热锻件尺寸模具相比电镀工位镀层合金铁水预处理容器铁水预处理装置钒还原防氧化氢氧化锌湿法冶金高炉荒煤气荒煤气管道铁水脱硫过程铁水脱硫铁损激光加工激光脉冲高压冶炼炉压力调节激光脉冲等

39、离子体爆炸冷风管道冷风环表4列举了识别出的部分同义关系术语对。需要说明的是，本文所谓的同义关系对，并非传统意义上的严格同义词对，而是在上下位关系之外又密切关联，联结起来可以更清晰的表达某一概念的术语对。如“拉伸变形”和“压缩变形”，组合成“拉伸变形压缩变形”，该概念所展现的含义是：冶炼的钢铁产品两种常用的变形方式；“真空隔热”与“高温隔热”组合成“高温隔热真空隔热”，表示采用真空的方式隔热处理；“氢氧化锌”与“湿法冶金”组合成“氢氧化锌湿法冶金”，表示在湿法冶锌过程中，氢氧化锌的生成与吸附处理。通过对识别出的同义术语进行分析，可以发掘某些潜藏在专利非结构化文本中的专业知识，为专利知识服务提

40、供支持。表5识别出的部分上下位术语列表上位术语下位术语上位术语下位术语软化工艺退火软化温度控制时效处理温度形变热处理热轧板卷透气性中心疏松冷处理冷却淬火蓄热器蓄热球熔渣熔渣气化炉蓄热式热风炉余热发电冷风冷风管道蒸发器蒸发冷却器润湿润湿剂制造工艺制造不锈钢带停炉停炉过程轴承轴承底座吸附吸附夹杂物转炉冶炼转炉炼钢技术锌氧化锌含镍海绵铁含镍海绵铁制造镍合金钢鼓风炉助燃风机热退火工艺工艺温度转炉吹炼高速钢丝风口组件热风管废气氧废气无污染煅烧无烟煤表5列举了识别出的部分具有上下位关系的术语对。所识别的术语对可以分为两个类型，第一种

41、是基本术语与组合术语的上下位关系，如“冷风一冷风管道”、“吸附一吸附夹杂物”、“锌_氧化锌”等；另一种是在概念上具有上下位关系，但是术语本身在形式上没有组合关系的术语对，如“冷处理_+冷却淬火”、“温度控制。时效处理温度”、“无污染_+煅烧无烟煤”等，类似的术语对上位术语一般是下位术语的外延，反之下位术语则拓展了上位术语的内涵，符合术语的上下位关系概念；并且这些术语往往是隐藏在专利文本中的潜在关系，以“无污染一煅烧无烟煤”为例，这一关系组合挖掘出了在钢铁冶金过程中有关环境保护的措施，而这样的术语对万方数据第5期吴志祥等：基于奇异值分解的专利术语层次关系解析研究 481很难通过简单的术语共现原

42、则获取到，这正是本文方法的必要性和有效性所在。特别需要说明的是，本文所识别的术语上下位关系和同义关系，是实际文本语料中所呈现出来的语义关系，对其合理性的判定往往需要结合实际的专利文献进行人工分析。从整体上来看，本文所识别的上下位关系术语，要璺她鬯鳖鐾蹩型医圜远远多于同义关系术语，这与语料本身的特性有关。在领域术语的本体化处理中，同义术语会进行合并，成为组合概念，纳入到术语(概念)的上下位关系中。笔者选取了I&SM领域专利本体的部分知识节点及之间的层次关系，作为可视化样本，呈现在图4中。蕊网一一一壹塑别国越殛簟麓灏酗，迸塑塑翼塞壁鬯重藏二二一，激噶黪一一一一，谶盥遵窭薹鋈望鹭麓速羹夔基型匿甲

43、蠡蓼函盍辜。运逖|I一| ，隧蘧逐函?i_i j二+、零曼剿二：-一燃矗。童翕遗奠蕊翻f。 i二。二!一。一麓蹩戆滢墅型邀室跫塞羹浏髓醚捌。。匦匿垂垂豳螨一重藏6 总结矩阵的SVD技术，作为矩阵分析的重要技术之一，在图像识别、文本聚类、信息检索等领域有着广泛的应用，其优势在于能够在保留主要信息的情况下对高维数据进行降维处理，以达到消除数据中的噪音，凸显数据的主要特征，挖掘隐藏在数据中的潜在语义关系的作用。本文的创新之处体现在两个方面：其一，将SVD技术应用到专利术语的层次关系解析中，为领域专利术语的知识本体化提供支持，在理论方法研究的基础上，进行了实证研究；其二，聚焦于sVD技术作为矩阵特

44、征分解的关键点，对术语语义空间进行深度转换，用某种潜在特征代替文档作为属性来表示术语，并探索了以TFSS为基础的专利术语层次关系解析方法体系。从实证研究的结果来看，本文所论述的方法具有可行性和有效性，能够在小规模术语集和较大规模术语集中识别术语之间的层次关系，达到了svD技术作为专利术语层次关系挖掘与解析的目的。同时，本文的工作亦有进一步研究的空间，具体体现在两个方面：其一，在整个的方法体系中，阈值露与五对最终的结果有着重要的影响，本文没有作深入分析，这一部分笔者将另行撰文讨论；其二，从现有的研究来看，领域术语层次关系的解析，并不能仅用一种方法即可完整、高效地实现，需要在多种方法协作的情况下达

45、到最优效果，因此将本文的方法与其他方法结合起来进行研究，探索I&sM的专利术语层次关系解析的强应用性方案具有重要的理论与实践价值。参考文献1】茹丽洁，张娴专利技术相关性研究方法进展评述与展望J】图书情报工作，2016，60(6)：128134，141【2 姚长青，杜永萍降维技术在专利文本聚类中的应用研究J】情报学报，2014，33(5)：4914973 缪涵琴融合本体和用户兴趣的专利信息检索系统的研究与实现D苏州：苏州大学，20074 陶然，李晓菲基于领域本体对专利情报知识挖掘的浅析J情报学报，2008，27(2)：2122175】俞春阳基于专利本体的产品创新设计技术研究D杭州：浙江大学，

46、20076】李军锋专利领域本体学习方法研究D北京：北京信息科技大学，2015【7 曾镇专利本体中术语及术语间关系抽取研究DjE京：北京信息科技大学，2015【8 2015年我国专利申请量EBOL20161007】http：www万方数据482 情报学报第36卷【910121314【15】16【17】1819202122【2324】25sipo名ovcIlxinwenfab“T哪ey P D，Pantel PFmm疳equency to meaning：Vector spacemodels of semanticsJJo啪a1 of Artmcial Intell蟾ence Resea

47、rch，2010，37(1)：141188cohen M B，Elder s，Musco C，et a1Dimensional时rcductionfor k_means clustering and low m11k approximationCPmceedings of nle For哆-Seventh AIlllual ACM SymposiuIn on Theory ofCornputingNew York：ACM Press，2015：163-172Baroni M，Lenci ADistributional memory：A general fr锄eworkfor coIpus-ba

48、sed semanticsJ】CorIlputational Linguistics，2010，36(4)：673721Kumar N，Berg A C，Belhumeur P N，et a1At缸bute and simileclassiflers for face verificationC】，Proceedings of me IEEE 1 2thIntemational Conference on Computer Vision，2009：365372Buitelaar P，Cimiano P，Mag：11ini BOnt0109y leaming f幻m text：Methods，evaluation and印plications【MAmsterdam：IOs Press，2005：569572Wong W，Liu W，Bennam0111l M0nt0109y 1e锄ing舶m text：Alook back a11d into the f

展开阅读全文