第二章信息检索基础.ppt

上传人:s****8 文档编号:69239347 上传时间:2022-12-31 格式:PPT 页数:51 大小:909.50KB
返回 下载 相关 举报
第二章信息检索基础.ppt_第1页
第1页 / 共51页
第二章信息检索基础.ppt_第2页
第2页 / 共51页
点击查看更多>>
资源描述

《第二章信息检索基础.ppt》由会员分享,可在线阅读,更多相关《第二章信息检索基础.ppt(51页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、第一节第一节 信息检索及其类型信息检索及其类型第二节第二节 信息检索语言、途径信息检索语言、途径第三节第三节 信息检索技术信息检索技术第四节第四节 检索工具检索工具第二章第二章 信息检索基础知识信息检索基础知识第一节第一节 信息检索及其类型信息检索及其类型一、一、信息检索的概念信息检索的概念二、二、信息检索的类型信息检索的类型三、三、信息检索的意义信息检索的意义一、信息检索一、信息检索 信息检索:是指将信息信息检索:是指将信息(主要指文献信息)按一定(主要指文献信息)按一定的方式组织和存储起来,并的方式组织和存储起来,并根据用户的需要找出相关信根据用户的需要找出相关信息的过程。息的过程。信息检

2、索信息检索存储存储检索检索存储:是对信息进行著录、存储:是对信息进行著录、标引、整序,编制检索工标引、整序,编制检索工具和建立检索系统的过程。具和建立检索系统的过程。检索:是指面向信息需求检索:是指面向信息需求而进行高度选择性的查找而进行高度选择性的查找过程。过程。原始文献原始文献加工整理加工整理数据库数据库提提 问问检检 索索输输 出出存存 储储检检 索索(信息机构信息机构)(用户用户)信息检索简图系统系统检索检索语言语言信息源信息源选择信息选择信息概念分析概念分析词汇替换词汇替换信息数据库信息数据库检索词与标引检索词与标引词匹配运算词匹配运算构造检索式构造检索式词汇替换词汇替换概念分析概念

3、分析检索提问检索提问初步检索结果集初步检索结果集相关性判断与反馈相关性判断与反馈获取所需信息获取所需信息信息需求信息需求信息用户信息用户系统系统检索检索语言语言信息存储信息存储信息检索信息检索信息检索流程图二、信息检索的类型二、信息检索的类型(一)按检索内容划分(一)按检索内容划分2、数值检索数值检索 是以特定的数值为检索内容的信息检索,要求从检索是以特定的数值为检索内容的信息检索,要求从检索系统存储的大量原始调查数据和其它统计数据中查出所需系统存储的大量原始调查数据和其它统计数据中查出所需的数字资料的数字资料。如如电话号码、银行账号、电话号码、银行账号、某一统计数据、某一数学公式、某一统计数

4、据、某一数学公式、某一材料的成分、性能、某种元件的型号、参数等。某一材料的成分、性能、某种元件的型号、参数等。例如检索例如检索“20082008年中国年中国国民生产总值是多少?国民生产总值是多少?”(30.067万亿万亿)1 1、书目检索、书目检索 是以文献线索为检索内容的信息检索。主要检索图书、是以文献线索为检索内容的信息检索。主要检索图书、期刊论文,比如图书馆目录检索系统。期刊论文,比如图书馆目录检索系统。3 3、事实检索、事实检索 是以具体事项为检索内容的信息检索,要求从检索系统存储的是以具体事项为检索内容的信息检索,要求从检索系统存储的各种原始信息资源中查出专门的事实材料。如查找名词术

5、语的解释,各种原始信息资源中查出专门的事实材料。如查找名词术语的解释,了解某人或某机构的简况,或考证某一事件发生的前因后果等。了解某人或某机构的简况,或考证某一事件发生的前因后果等。例如例如查找查找“20052005年世界军费支出最高的国家年世界军费支出最高的国家”。4 4、全文检索、全文检索 即检索系统存储的是整篇文章或整本图书,即检索系统存储的是整篇文章或整本图书,快捷查找文档中的任快捷查找文档中的任何文字内容何文字内容。5 5、图像检索、图像检索 即以图形、图像或图文信息为检索内容的信息检索。即以图形、图像或图文信息为检索内容的信息检索。6 6、多媒体检索、多媒体检索 是以文字、图像、声

6、音等多媒体信息为检索内容的信息检索。是以文字、图像、声音等多媒体信息为检索内容的信息检索。(二)按是否使用检索工具划分(二)按是否使用检索工具划分 1 1、直接检索、直接检索 就是指利用一次文献进行检索,这是以前比较常用的就是指利用一次文献进行检索,这是以前比较常用的一种查找方法。所花时间多和精力大,检出文献少。一种查找方法。所花时间多和精力大,检出文献少。2 2、间接检索、间接检索 就是指利用各种检索工具获得文献线索,再根据线索就是指利用各种检索工具获得文献线索,再根据线索去查找原始文献线索的方法。去查找原始文献线索的方法。(三)按信息检索手段划分(三)按信息检索手段划分 1 1、传统信息检

7、索、传统信息检索 就是手工信息检索,是利用各种印刷型检索工具来就是手工信息检索,是利用各种印刷型检索工具来查找文献的一种方法。查找文献的一种方法。2 2、现代信息检索、现代信息检索 现代信息检索即计算机信息检索,是指利用计算机现代信息检索即计算机信息检索,是指利用计算机和网络来处理和查找文献信息的检索方式。和网络来处理和查找文献信息的检索方式。(四)按用户使用信息的目的不同划分(四)按用户使用信息的目的不同划分1、撰写论文的信息检索2、学科建设与科学研究的信息检索3、生产开发的信息检索4、回答或解决单一问题的信息检索5、对已知文献的查找1、信息检索是现代人才的基本生存技能、信息检索是现代人才的

8、基本生存技能2、信息检索是现代人才信息素质的重要方面、信息检索是现代人才信息素质的重要方面3、信息检索是科学交流的重要途径、信息检索是科学交流的重要途径4、信息检索是开发信息资源的工具、信息检索是开发信息资源的工具5、信息检索是管理决策的基础、信息检索是管理决策的基础6、信息检索是继承和借鉴前人成果,避免重、信息检索是继承和借鉴前人成果,避免重 复研究的必由之路复研究的必由之路7、信息检索是治学之道、信息检索是治学之道三、信息检索的意义三、信息检索的意义第二节第二节 信息检索语言、途径信息检索语言、途径一、一、检索语言的含义及作用检索语言的含义及作用二、二、检索语言的类型检索语言的类型三、三、

9、检索途径检索途径一、检索语言的含义及作用一、检索语言的含义及作用检索语言:检索语言:用于用于描述描述信息系统中信息系统中信息的内容特征及外部特征信息的内容特征及外部特征和和表达表达用户用户信息提问信息提问的一种专门语言。它要求文献的标引者和检索者共同遵守。的一种专门语言。它要求文献的标引者和检索者共同遵守。按其使用的场合不同,检索语言常使用不同的名称,在存储的过程中用按其使用的场合不同,检索语言常使用不同的名称,在存储的过程中用来标引文献,称为来标引文献,称为标引语言标引语言,用以编制索引就称为,用以编制索引就称为索引语言索引语言,用来检索,用来检索文献则称为文献则称为检索语言检索语言。是根据

10、检索需要而创造的一种人工语言。是根据检索需要而创造的一种人工语言。作用:作用:1、保证不同标引人员表征文献信息的一致性。、保证不同标引人员表征文献信息的一致性。2、使内容相同及相关的文献集中化。、使内容相同及相关的文献集中化。3、保证检索提问与文献信息标引的一致性。、保证检索提问与文献信息标引的一致性。4、保证检索者按不同需求检索文献信息时,、保证检索者按不同需求检索文献信息时,都能获得最高的查全率和查准率。都能获得最高的查全率和查准率。二、检索语言的类型二、检索语言的类型检检索索语语言言的的类类型型表述文献外表表述文献外表特征的语言特征的语言表述文献内容表述文献内容特征的语言特征的语言题名题

11、名责任者责任者机构机构号码号码分类法分类法主题法主题法单元词语言单元词语言 标题词语言标题词语言叙词语言叙词语言关键词语言关键词语言纯自然语言纯自然语言分类语言分类语言 按知识门类的逻辑次序将信息系统地组织和按知识门类的逻辑次序将信息系统地组织和划分的语言,具体体现为用划分的语言,具体体现为用分类号和类名分类号和类名来表达来表达信息的主题概念。如信息的主题概念。如U2 铁路工程铁路工程 *中国图书馆图书分类法(中国图书馆图书分类法(5 5部类,部类,2222大类)大类)*美国国会图书馆分类法美国国会图书馆分类法 *杜威十进位分类法杜威十进位分类法 *IPCIPC国际专利分类法国际专利分类法 中

12、图法大类表中图法大类表 中图法体系细分如下所示:T工业技术TP 自动化技术、计算技术 3 计算技术、计算机 31 计算机软件 316 操作系统 .1 分时操作系统 .2 实时操作系统 .7 Windows操作系统 39 计算机的应用 391 信息处理(信息加工)391.7 机器辅助技术 391.72 CAD 391.73 CAM T 工业技术TB 一般工业技术TB1 工程基础科学TB11 工程数学TB12 工程力学TB2 工程设计与测绘TB21 工程设计TB22 工程测量TB23 工程制图TB3 工程材料学U 交通运输U2 铁路运输U21 铁路线路工程U4 公路运输U41 道路工程U416 路

13、基、路面工程U44 桥涵工程U45 隧道工程主主题语题语言言 是直接以代表信息内容特征和科学概念的是直接以代表信息内容特征和科学概念的概念概念词词作作为检为检索索标识标识,并按字,并按字顺组顺组织织起来的一种起来的一种检检索索语语言,如言,如”铁铁路路”、“铁铁路路轨轨道道”。主。主题语题语言分言分为规为规范主范主题语题语言与言与非非规规范主范主题语题语言。言。规规范主范主题语题语言言:规规范主范主题语题语言是以自然言是以自然语语言言为为基基础础,经过标经过标准化、准化、规规范化范化处处理的理的词语词语,具有概念性、,具有概念性、规规范性、范性、组组配性、配性、语义语义性和性和动态动态性。性。

14、规规范主范主题语题语言包括言包括单单元元词语词语言、言、标题词语标题词语言和叙言和叙词语词语言。言。*单元词语言单元词语言 是一种最基本的、不能再分的单位词语,亦称元词,它从文献内容中抽出,是一种最基本的、不能再分的单位词语,亦称元词,它从文献内容中抽出,再经规范,能表达一个独立的概念。比如再经规范,能表达一个独立的概念。比如“天气雷达天气雷达”不是单元词,只有不是单元词,只有“天气天气”和和“雷达雷达”才是单元词,在英语中,单元词经常是一个单词。如才是单元词,在英语中,单元词经常是一个单词。如WPI-WPI-规范规范化主题词表化主题词表 *标题词语言标题词语言 是从文献的题目和内容中抽出来,

15、经过规范化处理的主题语言。是从文献的题目和内容中抽出来,经过规范化处理的主题语言。美国工程信息美国工程信息公司出版的公司出版的工程标题词表工程标题词表(简称简称SHE)SHE)是典型的标题词语言,但该公司是典型的标题词语言,但该公司19931993年以年以后改用后改用工程索引叙词表工程索引叙词表(EiEi ThesaurnsThesaurns)。*叙词语言叙词语言 是以表达文献主题内容的概念单元为基础,经过规范化处理,可以进行逻辑是以表达文献主题内容的概念单元为基础,经过规范化处理,可以进行逻辑组配的一种主语语言。如组配的一种主语语言。如汉语主题词表汉语主题词表、INSPECINSPEC叙词表

16、叙词表(科学文科学文摘摘)、)、工程索引叙词表工程索引叙词表等。等。非非规规范主范主题语题语言言:它是相对于规范主题语言而言的,以自然语言的语词作检它是相对于规范主题语言而言的,以自然语言的语词作检索标识,其所用词汇未经过规范化处理。非规范主题语言包括关键词语言和索标识,其所用词汇未经过规范化处理。非规范主题语言包括关键词语言和纯自然语言纯自然语言。关键词语言关键词语言 直接从文献信息的标题、摘要或内容本身抽取出来的用于揭示信息主题内直接从文献信息的标题、摘要或内容本身抽取出来的用于揭示信息主题内容的自由词。容的自由词。纯自然语言纯自然语言 指完全使用自然语言,即对一条完整的信息中任何词汇都可

17、以进行检索。它指完全使用自然语言,即对一条完整的信息中任何词汇都可以进行检索。它采用全文匹配法检索,主要运用于计算机全文数据库和网络信息检索中。使采用全文匹配法检索,主要运用于计算机全文数据库和网络信息检索中。使用纯自然语言中检索中最大的问题是误检率极高。用纯自然语言中检索中最大的问题是误检率极高。关键词语言的提炼关键词语言的提炼1、反映信息概念的准确性(作为、反映信息概念的准确性(作为检索词应当科学,表达的意思要准确,普遍使用,同时应该简明、精练,尽可能简短明了,易输易检,词汇不宜过长)古代语言演变=古代语言*语言演变 =古代语言*演变2、反映信息内容的全面性、反映信息内容的全面性 协同设计

18、+协同工作3、注意检索词的多样性、注意检索词的多样性 轨道 铁轨 过程和规律 微型计算机 微机 电脑 “加热设备”可抽象化为“温度控制设备”“温度计”即“温度测量仪器”4、少用或不用副词、助词、指示代词等不反映检索内容的词或词组、少用或不用副词、助词、指示代词等不反映检索内容的词或词组。如a,the,is,http,com5 5、删删除具有包含关系的其中一个除具有包含关系的其中一个 教学用的信息检索课多媒体课件信息检索*多媒体*课件6 6、补补充充 A、补充还原词组:WTO世贸组织世界贸易组织 B、补充同义词或相关词:计算机病毒(计算机+电脑)*病毒 C、增加限定词(解决一词多义现象):杜鹃杜

19、鹃(动物)、杜鹃(植物)7、注意输入错别字、滥用多义词、注意输入错别字、滥用多义词。如JAVA,既可只太平洋上的一个岛,也可是一种著名的咖啡,还是一种计算机语言。8、切忌想要什么就输什么、切忌想要什么就输什么。另外:首次利用关键词检索时,不要把条件限制得过于严格,最 好是检索出一些结果再使用其他限定条件,进行二次检索。三、检索途径三、检索途径 检索途径又称检索入口,指信息用户在检索时,把所需信息的某种特征标识转换为检索标识,以此为入口进行检索 信息检索途径及其选择内容特征检索途径内容特征检索途径主题途径主题途径指通过能表达文献内容的主题词来检索文献的一种途径。是信息检索的一种主要途径。【如何提

20、取如何提取检检索索词词】:1 1、切分、切分 切分就是以切分就是以词为单词为单位划分句子和位划分句子和词组词组。例:有关|铁路|轨道|不平顺|方面的论文要点:A.词是语义切分的最小单元,也是检索的最小单元。切分必须彻底,必须“到词为止”。如:“信息检索”可切分为:“信息|检索”。B.切分也要适度,不能因切分而改变语义。如:不能将“操作系统”切分为“操作|系统”2 2、删删除除 将将课题转换课题转换成关成关键词键词的集合的集合A.删除不具有检索意义的虚词(a,the,is等)和关键词(因使用太宽泛而不具有检索意义,如:http,com等)B.删除过分宽泛和过份具体的限定词无损检测技术在材料性能评

21、价中的应用无损检测(太宽泛)C.删除具有包含关系的其中一个教学用的信息检索课多媒体课件信息检索*多媒体*课件3 3、替、替换换 用更本用更本质质的概念替的概念替换换表达欠佳的概念表达欠佳的概念西部地区社会发展状况(社会发展状况=文化教育+医疗卫生+工业水平+农业水平+)水果营养(水果fruit=梨pear+橙orange+苹果apple+)4 4、补补充充A、补充还原词组:WTO世贸组织世界贸易组织B、补充同义词或相关词:计算机病毒(计算机+电脑)*病毒C、增加限定词(解决一词多义现象):杜鹃杜鹃(动物)、杜鹃(植物)【获得主题词的技巧】:在图书的版权页可以找到该书的主题词和分类号,或者通过图

22、书馆的馆藏数据来查找主题词。分类途径分类途径 指根据文献所属的类别,利用特定的分类号来检索文献的途径。优点:能够从学科或专业角度广泛地获得较系统的文献,能够达到较高的查全率。当所需要的信息范围比较宽泛或涉及内容复杂,仅用几个词语已无法涵盖检索需求时多采用分类途径。例:检索“铁路线路构造”的信息,该用何种途径?分析:A、如果明确知道“铁路线路构造”有哪些,而且知道具体名称,就用主题途径;(如路基、轨道、轨枕、钢轨、钢轨联接及扣件、道岔、道床、道口及线路附属设备等)B、如果课题所指内容不是特定的几种,而是多种,也不知道具体的名称,就用分类途径。(U213 铁路线路构造)著者途径著者途径 即根据已知

23、文献著者来查找文献的途径。【排列规则】1、统一采用姓+名的顺序。英文的人名需实行倒置!如:Arrow BSmith(阿罗B史密斯)Smith,Arrow.B.2、复姓作者,将复姓作整体看待 例:Margaret Martin-SmithMartin-Smith,Margaret【中文翻译成英文的处理】3、音译:直接用汉语拼音。西南交通大学Xi nan(southwest)jiaotong university4、意译:通常有多种写法,检索式必须列举各种写法,才能保证查全率。例:原西南师范大学在欧洲专利数据库中就有三种写法:Southwest China Normal Uniwersity/So

24、uthwest University/Xinan Teachers,University【拼写形式】如:张建国Zhang JG或Zhang JianGuo(通常),Zhang J(有时),Jianguo Z(偶尔)其他途径其他途径题名途径 即直接利用图书的书名、期刊的刊名、标准文献的标准名来查找所需停息的方法途径。机构名称途径主要包括作者所在的单位,以及图书期刊的出版发行单位等。代码途径如专利号、标准书号(ISBN)、标准刊号(ISSN)、馆藏号等。在已知文献特定代码的前提下,利用代码途径检索文献是最为快捷的方法之一。引文途径从被引论文去检索引用论文的一种途径。第三节第三节 检索技术检索技术一

25、、一、概念检索概念检索二、二、布尔逻辑运算符组配检索布尔逻辑运算符组配检索三、三、截词检索截词检索四、四、字段限制检索字段限制检索五、五、位置运算符位置运算符六、六、检索技巧和方法检索技巧和方法一、概念检索一、概念检索 检索标识是具体的检索词或词组,每检索标识是具体的检索词或词组,每个检索词表达一个概念,具体检索时,将个检索词表达一个概念,具体检索时,将检索词与数据库中的文献特征标识进行类检索词与数据库中的文献特征标识进行类比,两者相同,则该记录为命中文献。如比,两者相同,则该记录为命中文献。如:“铁路铁路”、“桥涵桥涵”二、二、布尔逻辑算符组配检索布尔逻辑算符组配检索 布尔逻辑组配运算是采用

26、布尔代数中的布尔逻辑组配运算是采用布尔代数中的逻辑逻辑“与与”逻辑逻辑“或或”、逻辑、逻辑“非非”等算符,等算符,将检索提问式转换成逻辑表达式,限定检索将检索提问式转换成逻辑表达式,限定检索词在记录中必须存在的条件或不能出现的条词在记录中必须存在的条件或不能出现的条件。凡符合布尔逻辑所规定的条件的文献,件。凡符合布尔逻辑所规定的条件的文献,既为命中文献。既为命中文献。布尔逻辑运算符布尔逻辑运算符1、逻辑、逻辑“或或”2、逻辑、逻辑“与与”3、逻辑、逻辑“非非”1、逻辑逻辑“或或”(和)(和)AB用符号用符号“or”或或“+”表示,其逻辑表达式为:表示,其逻辑表达式为:A or B 或或 A+B

27、 其意义为检索记录中凡含有检索词其意义为检索记录中凡含有检索词A或检索词或检索词B,或同时含有检索词或同时含有检索词A和和B的,均为命中文献。的,均为命中文献。如:铁路如:铁路 or 公路公路 2、逻辑、逻辑“与与”AB用符号用符号“and”或或“*”表示,其逻辑表达式为:表示,其逻辑表达式为:A*B 或或 A and B 其意义为检索记录中必须同时含有检索词其意义为检索记录中必须同时含有检索词A和和B的文献,才算命中文献。如:的文献,才算命中文献。如:铁路铁路 and and 轨道轨道 3、逻辑逻辑“非非”AB用符号用符号“not”或或“-”,其逻辑表达式为:,其逻辑表达式为:A not B

28、 或或 A-B 其意义为:检索记录中含有检索词其意义为:检索记录中含有检索词A,但不能但不能含有检索词含有检索词B的文献,才算命中文献。的文献,才算命中文献。如如:铁路铁路 and 桥涵桥涵 not 公路公路三、截词检索三、截词检索 截词检索主要是利用检索词的词干或不完整的词形进截词检索主要是利用检索词的词干或不完整的词形进行检索。行检索。不同的系统截词符也不同不同的系统截词符也不同:一般用一般用“?”“*”表示表示.1、后方截词、后方截词:用于前方一致的派生词检索。:用于前方一致的派生词检索。如:信息如:信息?则表示在数据库中含有信息、信息技术、信息检索等则表示在数据库中含有信息、信息技术、

29、信息检索等方面的文献记录均为命中文献。方面的文献记录均为命中文献。2、前方截词、前方截词:用于后方一致的派生词检索。:用于后方一致的派生词检索。如:?经济如:?经济 则数据库中含有经济、工业经济、农业经济等方面的则数据库中含有经济、工业经济、农业经济等方面的文献均为命中文献。文献均为命中文献。3、有限截词、有限截词 在检索词后面加上一个或一个以上(最多在检索词后面加上一个或一个以上(最多4个)的个)的“?”,空一格,再加一个,空一格,再加一个“?”。如:。如:Comput?可检索出:可检索出:Computer,Computers,Computing 截词检索在不同的计算机检索系统中规截词检索在

30、不同的计算机检索系统中规定不同,请使用时注意。定不同,请使用时注意。四、字段限制检索四、字段限制检索 为了缩小检索范围,可利用字段代码来限制检索词出现的字段,为了缩小检索范围,可利用字段代码来限制检索词出现的字段,以提高检索速度和命中率。在数据库中以提高检索速度和命中率。在数据库中,一般用一般用“in”或者或者“/”加上加上字段名称来限制检索的范围字段名称来限制检索的范围,用用“=”来连接语种、文摘号和出版社时来连接语种、文摘号和出版社时间间 如:如:subgrade engineering in ti(表示只在题目字段中查找表示只在题目字段中查找文献)文献)subgrade engineer

31、ing in kw(只在主题词中查找)只在主题词中查找)subgrade engineering in ab(只在文摘中查找)只在文摘中查找)au=Smith,J.C(查作者为查作者为Smith,J.C 的的 文章文章)py=1998(只查只查1998年的文章年的文章)la=Chinese(只查语种为中文的文献只查语种为中文的文献)五、位置运算符五、位置运算符With(W)With(W):设设定定需需检检索索的的两两个个词词或或词词组组必必须须按按吮吮吸吸出出现现在在记记录录中中,且且两两词词之之间间不不允允许许插插入入其其他他词词,只只能能有有空空格格或或一一个个标标点点符符号号.其其扩扩展

32、展为为(nWnW)。如如:Computer(W)virus;Microwave(nW)radarNear(N)Near(N):设定需检索的两个词或词组位置可以颠倒设定需检索的两个词或词组位置可以颠倒,在两词之间不能插入其他词,其扩展为在两词之间不能插入其他词,其扩展为(nNnN)。如如“near3”near3”设定需检索的两个词或词组在同一句子中设定需检索的两个词或词组在同一句子中且相隔不超过且相隔不超过3 3个单词。如:个单词。如:Computer(N)virus;Microwave(nN)radarA A、扩大检索范围扩大检索范围提高查全率提高查全率*概念的扩大。概念的扩大。*范围的扩大。

33、范围的扩大。*增加同义词、近义词、相关词和缩略词。增加同义词、近义词、相关词和缩略词。*用用“or”or”、”?”?”、叙词表叙词表*年代的扩大。年代的扩大。*去掉连字符可扩大检索范围。去掉连字符可扩大检索范围。*换另外的数据库或是另外的光盘继续进行检索。换另外的数据库或是另外的光盘继续进行检索。B B、缩小检索范围的方法缩小检索范围的方法提高查准率提高查准率*核心概念的限定。核心概念的限定。*核心期刊的限定。核心期刊的限定。*语种的限定。语种的限定。*用布尔逻辑算符用布尔逻辑算符“and”and”或者或者“not”not”组配组配检检 索词。索词。*使用位置算符使用位置算符“near”nea

34、r”和字段算符和字段算符“in”in”提提 高查准率。高查准率。*使用使用“Index”Index”和叙词表和叙词表,选择确切的检索选择确切的检索 词缩小检索范围词缩小检索范围六、检索的技巧和方法六、检索的技巧和方法第四节第四节 检索工具检索工具 检索工具:检索工具:是存储、报道和检索信是存储、报道和检索信息的工具。是在不同学科范围内对某阶息的工具。是在不同学科范围内对某阶段出版的有关文献进行收集、整理或对段出版的有关文献进行收集、整理或对新文献加以及时报道的二次文献。新文献加以及时报道的二次文献。一、检索工具的作用一、检索工具的作用二、检索工具的特点二、检索工具的特点三、检索工具的类型三、检

35、索工具的类型一、检索工具的作用一、检索工具的作用1 1、报道作用、报道作用2 2、存储作用、存储作用3 3、检索作用、检索作用二、检索工具的特点二、检索工具的特点1 1、详细而又完整地记录了文献的外部特征和内部特征。、详细而又完整地记录了文献的外部特征和内部特征。2 2、对所著录的文献,标引了可供检索的检索标示。、对所著录的文献,标引了可供检索的检索标示。3 3、提供必要的检索手段,配备各种体系的索引。、提供必要的检索手段,配备各种体系的索引。三、检索工具的类型三、检索工具的类型1 1、目录、目录 是标示图书或其他出版物外部特征的系是标示图书或其他出版物外部特征的系统化的检索工具,常用的有统化

36、的检索工具,常用的有全国新书目全国新书目和专门介绍各类期刊报纸的和专门介绍各类期刊报纸的全国中文期刊全国中文期刊联合联合目录目录,以及介绍外文图书的,以及介绍外文图书的外文图外文图书总书总目录目录等。等。特点:特点:1、一般只记录外部特征,如书名、一般只记录外部特征,如书名、著者、出版项和载体形态等。著者、出版项和载体形态等。2、以完整的出版单位或收藏单位、以完整的出版单位或收藏单位为基本的著录单位,以为基本的著录单位,以“本本”、“种种”、“件件”为报道单位。为报道单位。又称索引,一般是以内容又称索引,一般是以内容上独立的文献单元,如一篇文上独立的文献单元,如一篇文章或书中某一部分及至整本出

37、章或书中某一部分及至整本出版物。同时揭示信息的外部特版物。同时揭示信息的外部特征和内容特征。征和内容特征。题录的特点是题录的特点是“快快”和和“全全”,通常著录篇,通常著录篇名、作者、名、作者、来源出处来源出处等。常用等。常用的有的有全国报刊索引数据库全国报刊索引数据库和和中文社会科学引文索引中文社会科学引文索引。2 2、题录、题录 是一种著录文献题录和内是一种著录文献题录和内容摘要的检索工具。容摘要的检索工具。不仅描述不仅描述文献的外部特征,而且还提示文献的外部特征,而且还提示文献的内容特征,是带有文献的内容特征,是带有“内内容提要容提要”的题录,与题录相比,的题录,与题录相比,文摘多出了摘

38、要(即内容提要)文摘多出了摘要(即内容提要)部分。较常用的有中国人民大部分。较常用的有中国人民大学书报资料社出版发行的学书报资料社出版发行的复复印报刊资料印报刊资料。3 3、文摘、文摘4、参考型检索工具(通常总称为工具书)这类检索工具收录了大量常用的名词术语、事实、数据及非文字性资料(图谱、图象、图形等)。例如辞海、中国大百科全书、年鉴等。5、数据库6、搜索引擎 例如:某一老师就课题“铁路|轨道|不平顺|研究”查找文献?分析课题(信息提问):包括主题内容、信息类型、时间范围 提炼检索词即关键词:铁路 AND 轨道 AND 不平顺选择适当的检索工具:CNKI确定检索途径和检索方法:检索途径:主要

39、采用主题检索与分类检索相结合 检索方法:简单检索方法与二次检索相结合调整检索策略:根据检索结果与信息需求不断调整检索途径与方法。获取原文:利用CNKI全文库获取(视频)检索效果评价第五节第五节 信息检索步骤信息检索步骤检索效果评价检索效果评价v信息检索的最终结果是否满足用户需求或满足程度如何,就存在对检索质量和效率进行评价的问题。在检索实践中,主要包括收录范围、查全率、查准率、响应时间、用户负担及输出形式,评价检索效率的基本指标具体有以下几种:v查全率(Recall ratio)用R表示查准率(Precision ratio)用P表示漏检率(Omission ratio)用O表示误检率(Fal

40、l-out ratio)用F表示新颖率(Novelty ratio)用N表示有效率(Availability ratio)用A表示检索速度(Time ratio)用T表示(一)查全率(R)和漏检率(O)在对特定检索系统进行检索的过程中,我们设定:检中的相关信息量为a,系统中的相关信息总量为b,检索出的信息总量(包括非相关信息)为c,被用户实际利用的信息量为d,检索过程所花费时间为t。R=a/b*100%=检中的相关信息量/系统中的相关信息总量*100%O=(1-a/b)*100%查全率等于检索出的相关信息量与系统中的相关信息总量的百分比,而漏检率指检索系统中的相关信息未被检中而造成的遗漏现象。

41、查全率和漏检率是互补关系。实际上由于现代检索系统的数据更新迅速,并大量采用关键词进行特征标引,作为用户不可能清楚系统中相关信息的实际数量,因此,查全率和漏检率实际上均为模糊的指标。(二)查准率(P)和误检率(F)P=a/c*100%=检中的相关信息量/检索出的信息总量*100%F=(1-a/c)*100%查准率等于检中的相关信息量与检索出的信息总量的百分比,误检率等于检索出的无关信息量与检索出的信息总量的百分比。查准率和误检率也是互补的关系。(三)检索速度(T)、新颖率(N)与有效率(A)T=a/t*100%=检索出的相关信息量/检索所花费时间*100%N=检中的在单位时间内发布的最新相关信息

42、量/单位时间内发布的最新相关信息总量*100%A=d/a*100%=用户实际利用的相关信息量/检索出的相关信息总量*100%检索速度是衡量检索效率的一个重要指标,影响检索速度的因素主要是检索系统本身的运行速度、用户的检索技能水平和网络通信传输速度等方面。新颖率指获得最近一年或半年或一个月等单位时间内的最新信息量的比重。有效率指被检中的相关信息中与用户需求密切相关并被利用的信息量的比重。从以上几个指标可以清楚地看到,我们对所需信息的满足程度是相对的,几个评价指标都同时达到百分之百是不可能的,比如查全率越高,查准率就越低,反之,查准率越高,则查全率就越低。本课重点本课重点1、名词解释:信息检索、检索语言?、名词解释:信息检索、检索语言?2、信息检索有哪些途径?、信息检索有哪些途径?3、信息检索的一般步骤有哪些?、信息检索的一般步骤有哪些?4、举例说明常用检索运算符的使用方法?、举例说明常用检索运算符的使用方法?5、评价检索效率的基本指标评价检索效率的基本指标?6、如何提高查全率和查准率?、如何提高查全率和查准率?

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 生活常识

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com