情报检索系统模型发展研究.docx-得力文库

资源描述

《情报检索系统模型发展研究.docx》由会员分享，可在线阅读，更多相关《情报检索系统模型发展研究.docx（5页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、情报检索系统模型发展研究摘要信息检索模型主要是对查询和文档进行相像度表示和计算的框架和方法。传统检索模型有布尔模型、概率模型、向量空间模型和模糊集模型等，现在已经发展到了新的阶段，具有坚实理论基础和明显优势的检索模型是探讨的热点。关键词信息检索检索模型中图分类号：G354 文献标识码：A 信息检索模型是运用数学或其它的语言和工具，对信息检索的主要要素查询和文档，及其之间的匹配程度相像度进行表示和计算的框架和方法。它基于以下观点：文档和查询共有的词项越多，则认为这篇文档和该查询越相关。 1布尔检索模型加权布尔检索模型扩展布尔检索模型布尔模型是信息检索中第一个被提出的模型，其表达

2、提问的方式与人们的思维方式相近，人们习惯于采纳此种模式进行检索查询。它侧重于结构化查询表达式，即通过AND、OR 和NOT 构造查询表达式，反映用户需求，并通过精确匹配来返回文档。布尔检索实际是通过对若干个文献集合的并、交、补运算回答用户提问的。布尔模型最显著的特点是将用户查询与文献标引进行逻辑的、而非数值的比较而获得检索结果。这种模型把困难的检索过程简洁化，将困难的情报提问按其概念组面的逻辑关系描述出来，使机器依据事先确定的程序进行自动匹配，简化了运算。但是，布尔逻辑式的构造不易全面反映用户的需求，匹配标准存在某些不合理的地方，检索结果不能根据用户定义的重要性排序输出。针对这些缺陷，提出加

3、权布尔模型，通过对标引词进行加权，解决了传统布尔检索的一些缺点，比如传统布尔模型的运算符在加权布尔模型中无法运用，为解决此问题，提出了扩展布尔模型，该模型通过对标引词加权值，同时将向量检索模型与布尔检索模型融为一体，克服了传统与加权布尔逻辑模型的缺陷。其扩展规模是传统布尔检索模型完全匹配的严格性和向量模型提问的无结构性的折中，在保持布尔逻辑检索的结构式提问的同时，吸纳了模糊检索和向量检索模型的特长。 2概率模型贝叶斯网络检索模型概率论可以用来计算查询和文档的相关性，概率模型通过计算文档与查询相关的概率作为相像度。这就使相关性排序问题降为概率论应用问题。概率模型基于以下论点：基于一个词项分别

4、在相关文档和不相关文档中出现的频率来估计该词项的权重。概率模型完全基于概率论，采纳严格的数学理论为依据和基础来进行检索决策，具有坚实的理论基础。它的主要缺点是增加存贮和计算资源的开销、参数估计难度较大、系统的检爽性能提高不明显。贝叶斯网络检索模型是从传统的概率理论中分别出来的，以概率理论为基础，是概率检索模型的扩展。贝叶斯网络是一个带有概率注释的有向无环图，图中的点表示所要解决的问题中的变量。这种概率图模型能表示变量之间的联合概率分布，分析变量之间的相互关系，因而贝叶斯网络模型可以用来表示术语间的条件概率和概念语义，并对查询与文档间的相像度进行预料，从而实现基于语义概念的查询。尽管关于贝叶斯

5、网的理论探讨还很不完善，应用探讨还处于起步阶段，但已通过不同的方式应用到了信息检索领域，随着技术的进步，贝叶斯网模型将发挥越来越重要的作用。 3向量空间模型隐性语义检索模型本体向量空间模型向量空间模型是目前最为流行的信息检索模型之一。其通过运用空间的相像性来解决语义上的相像性，把文档和查询在高维空间中用向量表示出来，每一个维对应着文档集合中的一个词。向量空间模型最显著的缺陷是基于关键词的向量空间模型无法反应术语间的语义关系，为使处理水平从离散的关键词匹配深化到概念匹配的层次上，提出了隐性语义检索。 LSI 可以看作是扩展的向量空间模型，其简化了计算的困难性，但语义空间不够完整。本体为向量空

6、间模型供应了更为丰富、具体的概念空间，涵盖了领域内的全部学问及关系。在本体的支持下，文档中语义相关的术语彼此间有了丰富的语义联系，如上下位关系，同义、近义、成员、属性等内在联系，每种关系的关联程度也不同。在获得丰富而具体的本体的前提下，对基于本体的向量空间模型定义如下：全部的文檔组成信息对象集合D = di | 1iM ，M 为信息对象的总数。依据向量空间模型，每条信息di都可以用一个特征向量v =s1，s2，sN来表示。si对应于本体中的实体ei，表示某个信息对象中术语ei的权重。本体向量空间模型有着良好的前景，但由于构建完善的本体难度太大，因而基于本体的向量空间模型仅在小范围有试用，如

7、Gene Ontology。 4模糊集检索模型粗糙集检索模型模糊集合理论探讨的是边界不明确的集合表示，其中心思想是把隶属函数和集中的元素结合在一起。该函数的取值在区间0，1上，0表示不隶属于该集合，1表示完全隶属于该集合，隶属值在0 和1 之间表示集合中的边际元素。模糊集合模型被用来定义查询语词和文献之间的模糊关系。每一个查询语词定义了一个模糊集合，每个文献在相应的语词集合中有一个隶属度，取值通常小于1。模糊检索主要是建立隶属函数，即为查询条件运用的模糊语言定制适当的函数，用于计算数据库中各记录相应字段的匹配度。合适的隶属函数则能精确把握用户的意愿，满意用户的检索需求。传统的模糊集合模型只

8、考虑利用语词共现关系来进行模糊检索，给出了文献隶属度的计算。由于它没有考虑语词与整个查询概念的相像性，模糊程度有限。粗糙集理论由波兰数学家Z.Pawlak 于11012 年提出，建立在分类的基础上。它将分类理解为在特定空间上的等价关系，而等价关系则构成对该空间的分类，且每个分类后的集合称为概念。模糊集和粗糙集虽然都是集合理论，但模糊集侧重集合中的元素，而粗糙集侧重于集合与集合之间。粗糙集理论应用于信息检索是利用粗糙集的上下近似函数设置相等、粗糙相等、粗糙包含于、粗糙包含和粗糙相交几种匹配等级标准，提出一种扩充和优化用户查询的新方法，此方法可依据用户查询和等级匹配标准实现检索，从而得到检索结果的排序输出。基于粗糙集的检索模型目前还在探讨阶段尚无大范围应用。参考文献 1 孙坦，周静怡.近几年来国外信息检索模型探讨进展J.图书馆建设，2022：82-85. 2 王娟琴.三种检索模型的比较分析探讨J.情报科学，19101：225-230，260. 第5页共5页第 5 页共 5 页第 5 页共 5 页第 5 页共 5 页第 5 页共 5 页第 5 页共 5 页第 5 页共 5 页第 5 页共 5 页第 5 页共 5 页第 5 页共 5 页第 5 页共 5 页

展开阅读全文