一种基于参考本体的多本体映射方法-张凌宇.pdf-得力文库

资源描述

《一种基于参考本体的多本体映射方法-张凌宇.pdf》由会员分享，可在线阅读，更多相关《一种基于参考本体的多本体映射方法-张凌宇.pdf（10页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、48卷第5期四川大学学报(工程科学版) v0148 No52016年9月 JOURNAL OF SICHUAN UNIVERSITY(ENGINEERING SCIENCE EDITION) Sept2016文章编号：10093087(2016)05国l 1410 DOI：10t5961jjsuese2016050t7一种基于参考本体的多本体映射方法张凌宇，姜廷慈，陈淑鑫(齐齐哈尔大学现代教育技术中心，黑龙江齐齐哈尔市161006)摘要：随着领域内本体数量的不断增多，很多本体映射方法已经不适用于多本体映射任务。为此，提出一种基于参考本体的多本体映射方法(multiple ontology m

2、apping based on reference ontology，MOMRO)。在多本体映射过程中，方法MOMRO从源本体集合中提取共享概念集合并建立参考本体；然后利用参考本体来构建一个统一的向量空间模型；然后，将源本体中的概念表示成该模型中的向量，从而使用向量之间的欧氏距离来计算概念之间的相似度；最后，建立源本体之间的映射关系。实验结果表明，方法MOM-RO可以有效地完成多本体映射的任务。关键词：本体映射；相似度；参考本体；向量空间模型中图分类号：TPl82 文献标志码：AA Method of Multiple Ontology Mapping Based on Reference O

3、ntologyZHANG Lingyu，JIANG Tingci，CHEN Shuxin(Modem Educational Techn01Centre，Qiqihar Univ，Qiqihar 161006，China)Abstract：A method of multiple ontology mapping based on reference ontology，called MOMRO，Was put forwardIn the process of map-ping multiple ontologies，MOMRO extracted the shared concept set

4、from sets of source ontologies，and created a reference ontologyThen，the reference ontology was used to create a uniform vector space model(VSM)Then concepts in source ontologies were repre-sented 8S vectors in the VSM。In this way，the similarity of concepts was calculated by the Euclidean distance of

5、 the corresponding vec-totsFinally，the mappings among soarce ontologies were created。Experimental results indicated that MOM-RO performs eneouraginglywell when creating mappings among multiple ontologiesKey words：ontology mapping；similarity：reference ontology；vector space model本体是一种可以表示并处理语义信息的半结构化知

6、识模型1。随着本体应用领域的不断扩展，研究者可以根据各自的需要建立大量的本体模型。但是，本体之间普遍存在异构性，这严重影响了同一领域内或相关领域内的知识共享、重用和集成，以及本体之间的语义互操作。为了解决本体异构性所产生的问题，国内外很多研究者都针对本体映射方法及技术展开了深入的研究。国际语义Web联盟(ISWC)还提供了一个统一的、开放的本体映射测试集合盟。然而，在这些研究成果中，大多数的本体映射方法都是以2个本体模型作为输入，研究如何建立它们之间的映射关系。而多本体映射方法还未受到很多本体研究者的关注与重视。但是，在现实世界中，同一领域或者相关领域内的所有本体模型之间都会存在异构性。如果采

7、用现有的本体映射方法，则需要依次建立任意2个本体模型之间的映射关系。显然，随着本体模型数量的不断增长，这些方法不能有效地建立多本体之间的映射关系。关于本体映射方法的研究一直是语义Web领域内的一个热点研究课题。方法GLUE【31通过机器收稿日期：20160127基金项目：国家自然科学基金资助项目(61204127)；黑龙江省自然科学基金资助项目(1；2015024)；齐齐哈尔市科学技术计划资助项目(GYGG一201412)；齐齐哈尔大学青年资助项目(2014kM08)作者简介：张凌宇(198l一)，男，讲师，博士研究方向：语义web、(模糊)本体映射与集成E-mail：zhangtingyu0

8、0217126toni网络出版时间：201699 11：36：02 网络出版地址：http：wwwcnkinetkcmsdetail511596T201609091136012htmlhttp：jsueseseueduca万方数据第5期张凌宇，等：一种基于参考本体的多本体映射方法 115学习的方法训练出多种学习器(名称学习器、文本块学习器和实例学习器)，然后计算概念之间的相似度并建立本体之间的映射关系。方法RiMOMM o在概念相似度计算的基础上提出了一种风险概率最小化模型，并使用决策方法解决本体映射问题。方法CIDERCL51使用概念的名称，概念的父概念和子概念集合来计算概念之间的相似度。

9、方法OMEN峥。、BAYOWL71和MSBN81将贝叶斯网络模型引入到本体映射，然后使用推理的方式解决本体映射问题。文献9提出了基于描述逻辑的本体桥接公理的表示方法，从而建立本体之间的映射关系。文献10提出了一种交叉语言的转换方法，以建立不同语言版本的本体之间的映射关系。文献11提出一种基于多Agent的本体映射方法，该方法还给出一种新的信任评估机制来完善Agent之间的协作关系，以提高映射的精确度。文献12使用本体中与概念直接相关的信息来构建虚拟文档，以消除概念之间的歧义，然后建立本体之间的映射关系。方法SMContext驯是一种可以建立本体之间语义映射的方法，它基于概念所在本体的上下文(语

10、境)将概念表示成逻辑公式，再解决概念之间的命题可满足问题(SAT)，以完成语义映射任务。上面所提到的本体映射方法都是以两个异构本体作为输入，输出它们之间的映射关系集合。显然，这些方法不能有效地解决领域内多个本体之间的异构性问题。为此，国内外的一些研究者对参考本体和多本体映射方法展开了深入的研究工作，目的在于：降低领域内本体之间异构的可能性并提高领域知识的共享性和重用性。目前，很多的参考本体都是以人工方式构建的，例如：FMA【14和KOSO【I 5|。FMA是由美国华盛顿大学根据解剖学领域内的知识结构而构建的，很多生物医学领域内的研究者都是在本体FMA的基础上提出应用本体的构建方法6。参考本体K

11、OSO是为了解决不同知识管理系统之间的异构性而设计的，KOSO包含多个知识模块，每个知识模块都是本体专家从相应知识库中抽取的，而且本体专家还为各个知识模块之间建立映射关系。基于参考本体，很多本体研究者提出了多本体映射方法。其中，文献17将参考本体和源本体转换成全局模式和局部模式，然后使用模式匹配方法来建立这些模式之间的映射关系。文献18使用参考本体将源本体中的所有概念表示成模糊集合，然后根据模糊集合的相似性建立多个源本体之间的映射关系。然而，为一个领域构建参考本体模型是一项非常复杂的任务，而且很多领域没有可供使用的参考本体，本体构建者只能根据各自所掌握的知识基础来构建满足应用需要的源本体。因此

12、，从源本体中抽取共享知识结构来构建领域的参考本体已经成为一项重要的研究课题。但是，很少的研究者从事这方面的研究工作。另外，现有的多本体映射方法只能根据参考本体与源本体之间的映射关系，建立源本体之间的映射关系。如果不同的源本体中存在相似的概念，但是这些概念不属于领域的共享知识结构，即它们没有与参考本体之间没有建立映射关系，那么现有的多本体映射方法很难为它们建立映射关系。为此，基于参考本体提出一种可以建立多个本体之间映射关系的方法MOM-RO(multiple ontology mapping based on reference ontology)o该方法适用于解决一个领域或者相似领域内的多个本

13、体之间映射问题。首先，方法MOMRO使用参考本体中的元素(属性集合和实例集合)构建一个统一的向量空间模型VSM(vector space model)；然后，方法MOMRO根据参考本体和源本体之间元素集合的相似性，将源本体中的所有概念表示成该向量空间模型中的向量，这样每个源本体则被表示成相应的向量组；最后，利用欧式距离计算出任意两个本体之间概念的相似度矩阵，并根据预先设定好的的阈值找出本体之间的映射关系。在方法MOM-RO中，参考本体在建立多个本体之间映射关系的过程中发挥着极其重要的作用。一般来说，参考本体是由本体专家在深入了解领域知识的内涵以及知识结构的基础上构建得到的。但是，构建参考本体一

14、项非常复杂而又艰巨的工程，很多领域内的源本体并不是基于参考本体而构建的。为此，方法MOMR0在映射多本体的过程中提出了一种构建参考本体的方法，该方法还可以使用源本体之间共享的知识来不断地完善参考本体内部的知识体系结构。1 基础知识11本体模型为了解决概念之间相似度的计算问题，本文给出的本体模型形式化定义如下所示：定义1本体模型的形式化定义为：O=C，R，P，A，其中：1)C：概念集合。C中的元素也可称为类，每个概念都是由它的属性集合和实例集合组成。万方数据116 四川大学学报(工程科学版) 第48卷2)R：关系集合。兄中的每个关系都是本体模型中父类概念与子类概念之间的上下位关系。3)P：属性集

15、合。集合P可分为2类：(a)数据类型属性(op)表示概念所具有的特征，如：年龄、性别等；(b)对象类型属性(OP)表示概念与其他概念之间的非上下位关系，如上课、连接等。4)，：实例集合。，中的每个实例都是本体模型中具体的、唯一的个体，它与概念之间是隶属关系，它是概念的具体表现。5)A：公理集合。A中的每条公理代表领域知识中的永真断言，它可用于描述属性对概念的约束形式、实例隶属于概念的表示形式以及概念与概念之间非上下位关系的表示形式。在本体模型中，父类概念(P)与子类概念(e)之间的上下位关系也被称为继承关系，C继承了P的所有属性，同时P继承了C的所有实例。因此，P的属性集合(P Set，)包含

16、于c的属性集合(P_Setc)，P_SetPP_Setc，P的实例集合(I_SetP)包含C的实例集合(I_Set。)，I_SetP21 Setc。12本体的向量化表示向量空间模型(vector space model，VSM)最早是由Salton等于20世纪70年代提出。它是一种基于词频和文频的文本表示模型，可被广泛地用于信息检索领域。后来，很多研究者将该模型引入到本体映射方法中。这些方法将本体文件OWL视为文档，本体所包含的实体(概念、属性和实例)视为单词。然后使用VSM来比较本体之间的相似性。为了将VSM应用于多本体映射，本文给出向量空间模型的定义如下所示：定义2向量空间模型的定义为V=

17、E。，露：，E。，其中：噩(1 s in)是从具体的OWL文档集合中抽取出来的实体(Entity)，它们组成了y的维集合(特征集合)，n为所有实体的数量，也是y的维数。在VSM中，本体中的每个概念将被转换成空间内的一个n维向量，即C=，其中，伽i(1 s i s n)为第i维的权重。为本体模型构建向量空间模型以及权重计算是本文的重要研究内容，具体方法详见第22节。13 概念相似度计算概念相似度计算方法可分为2大类：基于编辑距离的计算方法和基于信息量的计算方法。以概念C，和c：为计算对象，基于编辑距离的计算方法需要将概念C，和C：的名称视为字符串String(C。)和String(c2)，然后

18、使用编辑距离来计算概念之间的相似度。计算公式如式(1)所示，其中，函数ed()可以计算2个字符串之间的编辑距离，即将一个字符串转换能另一个字符串所需要的最小操作数，每次操作只能是增加、删除或者换一个字符。SimED(Cl，c2)=， ed(String(C1)，String(C2) 1 max(I String(C1)I，I String(C2)I)7基于信息量的计算方法需要将概念C，和c2放在同一个分类词典中，例如：WordNet，然后利用概念之间的上下位关系找到它们之间最小公共父概念C，最后使用这3个概念的信息量来计算概念c，和C2之间的相似度。计算公式如式(2)所示，其中Syn表示概念的

19、分类(同义词集合)，函数IC()可以根据概念在分类词典中的出现概率计算概念的信息量，例如：IC(C)=一ln(P(C)。如果概念C，和C：隶属于同一个分类集合，它们之间语义等价并且相似度为1；否则需要使用概念C。、G和c的信息量来计算相似度。m陀(cl，c2)=1，ClSynl A C2Syn2 ASynl=Syn2；j黑，clSrnt。AIC(C1)+IC(c2)一1 1c2Syn：A跏，Syn：(2)在现实世界中，很多概念包含多种语义，而且很多概念的名称非常相似但它们之间的含义却相差很大，例如：概念“map”的含义有：地图、计划和映射；而概念“bad”和“bed”之间虽然编辑距离为1，但是

20、它们表示2个相似性极小的实体。因此，方法MOMRO需要结合这2种计算方法来计算概念之间的相似度。2基于参考本体的多本体映射方法提出一种可以有效建立多个本体之间映射关系的方法：MOMRO。该方法使用参考本体中的元素为一个领域内的所有源本体建立统一的向量空间模型，然后将源本体中的概念表示成该模型中的向量，最后通过向量计算的方法来建立任意2个源本体之间的映射关系。方法MOMRO主要由2个模块构成：1)参考本体构建模块，负责从一个领域内的所有源本体中获取共享的知识以及知识结构并为该领域建立参考本万方数据第5期张凌宇，等：一种基于参考本体的多本体映射方法 117体模型，如果领域内已经存在参考本体，则该

21、模块还可以根据源本体集合之间的交集来发现领域内的共享知识，从而不断完善参考本体；2)多本体映射模块，负责向量空间模型的构建、概念的向量化表示、基于向量计算的相似度计算和映射发现。图1给出参考本体以及源本体集合与这2个模块之间的关系。图1模块之间的关系图Fig1 Relation graph between modules21参考本体构建模块参考本体也被称为领域本体(domain ontolo一韶)，它提供了领域的共享知识结构，并与领域内其他源本体保持语义映射关系。参考本体是实现领域内源本体之间知识共享、重用以及查询等语义互操作的核心知识模型。由于构建本体是一项非常复杂的工程，本体构建者可以使用

22、领域内的参考本体作为模板来构建新的源本体。这样做不仅可以降低源本体之间出现语义异构的可能性，而且还可以减小本体的开发周期。但是，关于参考本体的研究尚处于开始阶段，很多本体研究者在创建源本体时没有可供使用的参考本体。为此，方法MOM-RO系一种基于共享概念集合的参考本体构建方法。该方法首先从源本体集合中找出并删除“孤立本体”，从而建立候选参考本体集合，该集合内所有源本体的交集正是共享概念集合(shared conceptset)；然后，从候选参考本体集合中选择包含概念数量最少的源本体作为参考本体模板；最后，使用共享概念集合中的概念到参考本体模板中定位，并利用参考本体模板的关系集合来构建领域的参考

23、本体。2I1建立共享概念集合通常情况下，参考本体中的知识信息不一定会被该领域内的所有源本体共享。这是因为任何领域都可能存在一些“孤立本体”，这类源本体数量极少(据统计这类本体仅占总源本体数量的5一10)，它们与其他源本体之间关联很少，而且它们所包含的共享信息也非常少。如果在构建参考本体的过程中将它们考虑进来，领域内的很多共享信息不能被包含到参考本体。因此，在构建参考本体之前，不仅要明确共享概念集合，而且还要将“孤立本体”从源本体集合中删除，以获取候选参考本体集合。为了实现这一目的，方法MOMRO采取以下步骤：1)计算源本体之间的相似度。每个源本体都是由一个源概念集合组成，因此方法MOM-RO使

24、用Jaccard相似性系数(J系数)，计算任意2个源本体的相似度。接下来，方法MOMRO为每个源本体计算它与之其他源本体的相似度之和，并统计出与该本体相交的源本体个数。如果相似度不为O，则源本体之间有交集，否则源本体之间不相交。式(3)给出了J系数的计算公式，其中，函数C()返回源本体的概念集合。Sim(SO。，SO：)=J(C(SO。)，C(S0：)=鬻C SO勰U C SO (3)( ，) ( ：) ”72)排序。方法MOMRO根据相交的源本体个数对所有源本体按升序排列，并将排序结果放入一个队列(Queue)。如果有多个源本体的相交源本体个数相同，则比较它们的相似度的和，并按升序排列。这样

25、，排在前面的源本体包含较多的共享信息，它们成为“孤立本体”的可能性较小，反之亦然。3)查找“孤立本体”。方法MOMRO从Queue中依次取出源本体，并计算它们的交集。如果取出的源本体的交集不为空集，则将该本体放入候选参考本体集合；否则将停止出队列操作。那么，正在处理的源本体以及它后面的源本体都被视为“孤立本体”，而候选参考本体集合中所有源本体的交集正是领域的共享概念集合。例l：使用文献19中所使用的实验数据来构建5个源本体(S01S05)，集合Accommodation，Event，Hotel，Musical，Vacation中的概念被2个或者更多的源本体所包含。表1给出源本体集合与概念集合之

26、间的包含关系，其中，符号“”表示源本体与概念之间存在包含关系。需要说明的是，除了这5个概念之外，每个源本体都包含自己特有的概念集合，但是这些概念没有被其他源本体所包含，它们不可能成万方数据118 四川大学学报(工程科学版) 第48卷为组成共享概念集合的元素，因此表1没有给出。表1源本体集合Tab1 Set of source ontologies本体 Accomon Event Hotel Musical VacationS01 S02 xS03 x S04 S05 为了发现源本体集合中的“孤立本体”，方法MOMRO使用源本体SO。一SO，建立一个相似度矩阵(表2)，矩阵中的每个元素都是相应源

27、本体概念集合之间的J系数。需要注意的是，相同源本体之间的J系数等于1，即J(SOi，SOi)=I，I s i5。但是，接下来的步骤不需要考虑相同源本体之间的相似度，所以方法MOMRO使用符号“”来表示相同源本体之间的相似度，即J(SO；，SOi)=。接下来，为每个源本体统计相似度不为0的源本体个数，同时将同一行的相似度进行累加(详见表2的第8列)。由于任意2个源本体的概念集合之间的交集都不为空，表2的第7列数据全都为4。接下来，根据相似度之和对所有源本体进行排序并生成队列Q=sD。，SD3，S02，JsD5，sD。最后，方法MOM-RO从Q中依次取出源本体S0i，1 s i s 5，计算它们之

28、间的交集(SO，nn soi)。只要交集不为空，取出的源本体将被放入候选参考本体集合中，同时更新源本体之间的交集。不难发现，当候选参考本体集合中源本体交集为：SOl n s03 n s02 n s05=Event，Hotel时，如果再取出源本体SO。=Accommodation，Musical，会导致交集为空。因此，方法MOMRO停止出队列操作，并将SO。以及它后面的所有源本体都标识成“孤立本体”。这样，方法MOMRO可以得到候选参考本体集合：SO，SO，s02，Js05，共享概念集合为：Event，Hotel。表2本体之间的相似度矩阵Tab2 ShniImty matrix among o

29、ntologies212选择参考本体模板为了从候选参考本体集合中选择最合适的参考本体模板，方法MOM-RO计算共享概念集合与每个源本体概念集合之间的比例，详见式(4)，其中，函数hum()返回集合元素的个数。比值P(SOi)，1i曼m，表示共享概念数量占SOi中概念数量的比例。P(soi)=竺竺堕璺堕j!nu鱼m型昌掣，1is m【JUi J(4)显然，比值P(SOi)与源本体SOi概念集合的大小成反比。如果num(SO；)越大，源本体SO；包含了更多未被其他源本体所共享的概念，那么SOi作为参考本体模板的可能性就越小。以表1中的数据为例，候选参考本体集合中所有源本体的交集为Event，Hot

30、el，每个源本体成为参考本体模板的可能性分别为：P(SO。)=40，P(S03)=50，P(SO：)=50，P(SO，)=667。因此，方法MOM-RO选择源本体SO，作为模板来构建该领域的参考本体。213 生成参考本体方法MOMRO从参考本体模板中找出源本体集合的共享知识结构，并为之建立参考本体模型。首先，方法MOMRO找出所有共享概念在参考本体模板中的位置，这些位置被称为“锚点”(Anchor)。以共享概念集合Event，Hotel和参考本体模板s0，为例，可以从SO；中找出包含概念Event和Hotel的片段，如图2所示，其中灰色背景的椭圆形正是“锚点”。图2模板中的锚点Fig2 Anc

31、hors in the template接下来，根据概念之间的上下位关系，可以从模板中找出所有“锚点”的最小公共祖先(CA)。从图2中可以发现，概念City正是所有“锚点”的LCA。最后，方法MOMRO找出LCA与所有“锚点”之间的路径，即City-Architecture-Hotel，City-Event。那么，一，英面王要。一。蓄万方数据第5期张凌宇，等：一种基于参考本体的多本体映射方法 119锚点和它们之间路径所构成的知识模型正是该领域的参考本体，详见图2矩形框中的模型。22多本体映射模块在方法MOMRO中，多本体映射模块首先使用参考本体中的属性集合和实例集合，建立一个统一的向量空间模

32、型；然后将源本体中的概念表示成该模型中的向量，这样源本体被表示成向量组；然后为任意2个向量组建立相似度矩阵，向量之间的相似度是由“欧式距离”计算得出；最后根据预先设定好的阈值来筛选出相似的概念对，并建立源本体之间的映射关系。方法MOMRO的映射过程如图3所示。源本体集合：S01，S02，s仇输入图3 MOM-RO的映射过程Fig3 Mapping process of MOM-RO221构建向量空间模型VSM从本体模型的定义中(定义2)不难发现，概念是由属性和实例组成的，属性和实例分别是概念的内涵定义与外延定义。另外，领域内的大多数源本体都是基于参考本体构建的。为此，方法MOMRO使用参考本体

33、中的属性集合P_Set和实例集合I_Set作为特征集合(向量空间模型的维)来构建一个统一的向量空间模型。这样，领域内源本体模型中的大多数概念都可以表示成该模型中的点。在本体模型中，关系is-Propertyof和isInstanceof用于表示属性和实例与概念之间的隶属关系。为了建立参考本体的P-set和I_Set，关系isPropertyof和isInstanceof可作为关键词来查找出参考本体中所有属性和实例。但是，父概念和子概念之间存在着上下位关系(继承关系)，它们的属性集合和实例集合之间也存在着包含关系。因此，方法MOMRO可以使用参考本体模型中的关系集合R一set来实现P_Set和l

34、_Set的构建过程。例2：图4给出部分本体片段的结构示意图。概念为根节点，概念A和B为的子概念(非叶子节点)，概念C、D、E和F分别为A和B的子概念(叶子节点)，它们之间的连线表示上下位关系。图4本体结构示意图Fig4 Structure graph of ontology根据父子概念之间的继承关系，可以得出以下结论：参考本体的属性集合是所有叶子节点属性集合的并集(P_Set=脚etc uUetD uPjet。UPet，)；而参考本体的实例集合正是根节点的实例集合，即(I Set=l_Set)。因此，建立P_Set和I Set的过程可分为以下步骤：1)找出所有叶子节点，即概念中不包含关系sub

35、classof，使用关系isProperty-of建立每个叶子节点的属性集合，将所有叶子节点的属性集合进行并集操作后放到属性集合中，即P_Set=P。，尸2，P。；2)根据关系isInstanceof找出本体中所有的实例，并将这些实例放入实例集合(I_Set=J。，Jr2，J。)。这样，在获得参考本体的Pset和I_Set之后，方法MOMRO以集合中所有元素作为特征项，建立一个统一的向量空间模型Vsm=P，P2，P。，。，J2，Jn。222 源概念的向量化表示为了与参考本体中的概念进行区别，可以将源本体中的概念命名为源概念(SC：source concept)。在计算多个(n2)源本体之间相似

36、性的过程中，方法MOMRO需要将源概念转换成向量空间模型Vsm=Pl，P2，P。，J。，：，l。中的向量，然后通过计算向量之间的欧式距离来获得源概念之间的相似度。对于任意一个源概念C来说，方法MOM-RO使用VSM的每个维与C的属性集合或实例集合中的每个元素进行相似性比较，然后选择最大值作为向量的项(权重)。当Vsm的所有维(P。一P。，J。一L)万方数据120 四川大学学报(工程科学版) 第48卷都参与相似性计算之后，可以得到概念C的向量表示：Vc=，其中，m为参考本体属性的个数，1,为实例个数，|si表示源概念的属性或实例与Vsm中所有维之间相似度的最大值。因此，源本体中的概念都可以表示成

37、同一个向量空间模型中的向量。这样，概念之间的相似性计算问题就被转换成向量之间的相似性计算问题。下面，给出概念向量化表示的算法。算法CV(m，C)Input：向量空间模型Vsm=P1一P。，J。一j。，概念COutput：向量Vc=ForEach dlPI，只，匕，JJ，J2，LMax=0ForEach ei eCIf Sim(di，e)MaxMax=Sim(di，勺)End ifSf=MaxEndForEachEndForEach算法cy()由一个2重循环构成，这个程序结构的外循环由Vsm的维控制，内循环可以对概念C的属性或者实例与相应的维进行匹配，然后使用函数Sim()来计算它们之间的相似度

38、(相似度计算公式详见第33节)，最后选出计算结果中的最大值作为向量的项。当C中所有属性和实例都参与相似度计算之后，可以得到C的向量化表示K。223 计算源本体之间的相似度矩阵从本体模型的定义来看，1个源本体SO由源概念集合C。，e：，Cx组成，其中，x表示概念的个数，Ci eSO(1 s iX)。如果根据上下位关系对向量化的概念进行有序的排列，可以得到源本体的向量化表示：So=。不难发现，是1个向量组，每个元素都是由1个向量所构成。为了比较2个源本体之间的相似性，先给出计算2个向量之间相似度的方法。本节采用“欧氏距离”来计算向量之间的相似度。以向量化的源本体So=和So=(C。，C2，Cy中的

39、概念Ci和C，为例(1 s is X，1 s_s Y)，计算它们之间相似度的公式如下所示，其中：Ci和cj都可以表示成一个VSM中的向量，即崛=，嵋=，OP是欧式距离函数的名称。通过欧式距离函数(OP)，可以将2个向量映射成它们之间的相似度。那么，对于2个本体模型(SO和SO)来说，可以使用欧式距离函数来计算它们之间任意概念对之间的相似度，从而为SO和SO计算出它们之间的相似度矩阵，计算公式如式(6)所示，相似度矩阵如表3所示。最后，方法MOMRO从相似度矩阵中找出相似度大于给定阈值(艿)的概念对，然后再建立它们的映射关系。Sim(Ci，e)=OP(VCi，晖)=(e。飞)2)“(5)式中，l

40、 s km+佗。OP(So，So)=oP(7，) (6)表3源本体O和O的相似度矩阵Tab3 Similarity matrix for O and O综上，方法MOMRO使用参考本体模型中的属性集合和实例集合来构建一个统一的向量空间模型，领域内所有源本体中的概念则被表示成该向量空间模型中的向量。这样，方法MOMRO可以使用欧式距离将任意两个本体之间的相似性关系转换成相似度矩阵，然后再根据给定的阈值来建立本体之间的映射关系。另外，隶属于同一个源本体的概念被表示成一个向量组中的向量，而映射过程又避免了同一向量组内元素之间的相似性比较，从而提高方法计算效率。3实验分析采用OAEI(ontology

41、 alignment evaluation initiative)所提供数据集benchmarks为实验数据。该数据集已经被广泛地应用于本体映射方法稳定性和健壮性的测试任务。Benchmarks共包含74个本体：1个参考本体#101和73个扩展本体(源本体)。大多数的源本体都是在参考本体#101的基础上，修改部分数据信息得到的，它们都包含33个概念、72个属性和55个实例。注意：源本体#102是一个描述食物信息的本体模型，它与参考本体#101没有任何关系；源本体#301钙04是书目本体库中的真实本体模型，它们与参考本体#101之间也没有太多的相万方数据第5期张凌宇，等：一种基于参考本体的多本

42、体映射方法 121关，因此它们不在研究范围之内。设计了2项实验任务。在第一个实验任务中，方法MOMRO可以直接使用参考本体#101，以建立源本体之间的映射关系。这项实验任务主要是验证：在参考本体为已：知条件时，方法MOMRO完成多本体映射任务的有效性。在第2个实验任务中，#101被设定为未知的知识模型，方法MOM-RO只能根据源本体中的共享信息来建立一个新的#101 7，然后再完成多本体映射的任务。这项实验任务的目的是：1)检测方法MOMRO在构建参考本体任务时的表现；2)将实验所生成的参考本体#101似及映射结果与第一项实验的结果进行对比。31 实验1方法MOMRO直接使用参考本体#101中

43、的属性集合和实例集合来建立向量空间模型VSM#埘，该模型共有127维(72+55)；然后，源本体中的概念被表示成VSM，中的向量；这样，概念之间的相似度可以表示成相应向量之间的欧式距离；最后，方法MOMRO找出相似的概念对并建立它们之间的映射关系。以人工方式所产生的映射结果集合作为标准，可以统计出方法MOM-RO的查准率(Preci-sion)、查全率(Recall)和F系数(Fmeasure)，统计结果见表4。表4基于#101的映射结果Tab4 Mapping result based on#101从实验结果来看，方法MOMRO在建立任意两个源本体之间映射关系时的查准率、查全率和F系数均达到

44、85。与参考本体#101相比，源本体#103和#104的概念描述内容(Comment)加入了更多的约束说明和语言版本说明，也就是说这3个本体模型拥有完全相同的实例集合和属性集合。因此，方法MOM-RO在建立#103和#104之间映射关系时的3个参数都是100，而且这2个源本体与其他源本体之间的映射集合基本相同。至于源本体#201一#266，一些概念的名称、属性或者实例信息被修改甚至删除。这使得一些本该建立映射关系的概念对之间的欧式距离过小，方法MOMRO无法为它们建立映射关系。从整体来看，方法MOMRO在测试数据集上的查准率、查全率和F系数分别为：09、091和09。为了给出MOM-RO的对比

45、实验分析，从OAEI的网站上找到使用Benchmark数据集进行测试的本体映射方法(YAM+、CroMatcher、CIDERCL、IAMA和ODGOMS)的性能测试结果。这些方法在本体映射竞赛中表现都非常突出。对比分析结果如图5所示。、N十一 L lI)rK-L 1 OD(iOMS(、roMatchcr IAMA 1()NR()图5对比实验rig5 Contrast test32实验2在这项实验任务中，先将Benchmark数据集中的#101设为未知的知识模型。然后，方法MOMRO利用源本体(#103一#104，#201一#266)之间的共享信息，找出领域内的共享概念集合。然后，根据共享概念

46、集合中概念之间的上下位关系，建立一个新的参考本体#101I O然后，利用#101 7来构建向量空间模型并建立源本体之间的映射关系。最后，对#101和#101的结构进行对比，并对比两次实验的Precision、Recall和F系数。实验结果表明，新构建的参考本体#101所包含万方数据122 四川大学学报(工程科学版) 第48卷的信息量要小于原参考本体#101。#101 7由21个概念、47个属性和43个实例组成。与参考本体#101相比，大约有三分之一的概念没能被#101所包含。接下来，方法MOM-RO使用#101建立向量空间模型VSM#。lr，90维(47+43)，并建立源本体之间的映射关系。每

47、对源本体之间映射的查准率、查全率和F系数详见表5。从实验数据来看，方法MOMRO的查准率很高，大约在094左右；而查全率并不令人满意，大约在070左右。这主要是因为：源本体之间的异构性使得一些对映射有价值的管方法MOMRO在本项实验中的查全率不高，该方法的映射性能还是很好的，因为它的查准率比上一项实验高出了大约003。也就是说，方法MOMRO使用自己构建的参考本体时，降低了建立错误映射的可能性。而且，数据集Benchmarks的设计并不完全适用于多本体映射方法的测试，它主要是用于测试本体映射方法建立#101与其他源本体之间映射时的3个参数。如果不使用#101中的信息，很多本体映射方法是无法正常

48、工作的。而方法MOMRO的参考本体构建模块可以从源本体集合中提取领域概念、属性和实例没能被包含于参考本体#101。尽的参考本体，并完成接下来的映射任务。表5基于#101的映射结果Tab5 Mapping result based On#1014结论与未来工作提出了一种基于参考本体的多本体映射方法(MOMRO)。针对不同情况，该方法主要有2种工作模式。如果领域内提供了参考本体，方法MOMRO可以直接利用参考本体来构建一个统一的向量空间模型；然后，将源本体中的概念表示成该模型中的向量，并计算概念之间的相似度，即相应向量之间的欧式距离；然后，为任意2个源本体之间生成一个相似度矩阵；最后，根据给定的相似度阈值建立源本体之间的映射关系。如果领域内没有可用的参考本体，方法MOMRO可以先从源本体集合中找出共享概念集合；然后，利用概念之间的上下位关系建立一个参考本体；最后，基于这个参考本体，建立源本体之间的映射关系。实验结果表明：方法MOM-RO可

展开阅读全文