(7)--中国生物医学文献服务系统(SinoMed)截词检索功能分析.pdf

上传人:奉*** 文档编号:91003724 上传时间:2023-05-19 格式:PDF 页数:5 大小:185.03KB
返回 下载 相关 举报
(7)--中国生物医学文献服务系统(SinoMed)截词检索功能分析.pdf_第1页
第1页 / 共5页
(7)--中国生物医学文献服务系统(SinoMed)截词检索功能分析.pdf_第2页
第2页 / 共5页
点击查看更多>>
资源描述

《(7)--中国生物医学文献服务系统(SinoMed)截词检索功能分析.pdf》由会员分享,可在线阅读,更多相关《(7)--中国生物医学文献服务系统(SinoMed)截词检索功能分析.pdf(5页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、DOI:103969/j issn16713982 2016 06 004研究与探讨中国生物医学文献服务系统(SinoMed)截词检索功能分析李栎,曹洪欣 摘要 通过大量的文献检索试验,探讨了网络版 SinoMed 平台的中国生物医学文献数据库在截词检索方面存在的主要问题,包括省略通配符检索存在的问题及任意通配符“%”和单字通配符“?”用于截词检索的主要问题,并就检索效率及数据库功能的进一步完善提出了建议。关键词 中国生物医学文献服务系统;中国生物医学文献数据库;截词检索;通配符检索 中图分类号 G254 9;TP3913 文献标志码 A 文章编号 16713982(2016)06001905

2、Truncate searching functions of SinoMedLI Li,CAO Hongxin(Library of Scond Military Medical University,Shanghai 200433,China)Corresponding author:CAO Hongxin Abstract Pointed out in this paper are the major defects in truncate searching of CBM on the SinoMed platformfound in a large number of literat

3、ure retrieval trials when omiting wildcards,wildcards%and?were used,with suggestions put forward for further improvement of retrieval efficiency and database functions Key words SinoMed;CBM;Truncate searching;Wildcard searching 作者单位第二军医大学图书馆,上海200433 作者简介李栎(1982),女,山东威海人,硕士,馆员,已发表论文 9 篇。通讯作者曹洪欣(1969

4、),男,吉林长春人,硕士,副教授,馆长,Email:chx_chx smmu edu cn。SinoMed 由中国医学科学院医学信息研究所/图书馆开发的生物医学领域重要的检索工具,也是医学信息检索教学和医药卫生查新中最常用的中文数据库。它整合了包括中国生物医学文献数据库(CBM)、西文生物医学文献数据库(WBM)、北京协和医学院博硕士学位论文数据库等 8 种资源,学科范围广泛、年代跨度大,更新及时。其中使用最广泛的 CBM 收录了 1978 年至今 1 800 余种中国生物医学期刊以及汇编、会议论文,目前文献题录达 820 余万篇1。1SinoMed 的截词检索功能SinoMed 平台上的中国

5、生物医学文献数据库是该平台使用范围最广的二次检索数据库,其检索功能比较强大,除了常见的快速检索、高级检索和主题词检索外,还具有智能检索、分类检索和截词检索等功能。截词检索,也称词干检索或字符屏蔽检索,是指用给定的词干做检索词,查找含有该词干的全部检索词的记录,可以起到扩大检索范围、提高查全率、减少检索词的输入量、节省检索时间等作用2。简单来讲,截词检索是在检索标识中保留相同的部分,用截词符代替可变化的部分,即通配符检索3。检索时,系统会将所有含有相同部分标识的记录全部检索出来。通配符可以置于检索词首、中间或词尾,分别对应后方一致检索、前后方一致检索和前方一致检索。SinoMed 支持单字通配符

6、(?)和任意通配符(%)检索,即“?”替代一个字符,“%”替代任意个字符。“?”在检索中文单词或短语时常置于检索词中间,用于前后方一致检索,如输入“血?动力”可检索出含有血液动力、血流动力等的文献。“?”置91中华医学图书情报杂志 2016 年6 月 第25 卷第6 期Chin J Med Libr Inf Sci,Vol 25 No 6June,2016于中文检索词的词首或词尾进行检索,使用意义不大。不加“?”而直接用目标词的局部进行检索,如输入“主动脉”、“?主动脉”或“主动脉?”检索结果完全相同。在 SinoMed 中,“?”用于检索包含英文字母或阿拉伯数字的目标词时,除了置于检索词中间

7、,前置或后置也能较准确地检索出所需文献。例如,输入“”能够检索出包含“TPC”的检索结果,输入“CCL?”能够准确地检索出该趋化因子家族成员 CCL1CCL9,如果输入“CCL?”则可以检索出 CCL17、CCL20、CCL22 等结果。与单字通配符“?”类似,任意通配符“%”在检索中文单词或短语时也常用于前后方一致检索,如输入“肝炎%疫苗”可以检索出含有肝炎疫苗、肝炎病毒基因疫苗、肝炎减毒活疫苗、肝炎灭活疫苗等的文献1。“%”置于中文检索词的词首或词尾进行检索,使用价值不大。“%”在检索包含英文字母或阿拉伯数字的目标词时,除了置于检索词中间,前置或后置可以扩大检索范围。如输入“CCL%”可以

8、检索出“CCL”后有任意多个英文字母、阿拉伯数字等的结果。2SinoMed“包含检索”的功能与缺陷2 1“包含检索”的功能“包含检索”,即直接用目标词的一部分作为检索词进行检索,是 SinoMed 支持的一种与截词检索类似的检索功能。与截词检索相同的是在检索标识中保留相同的部分,唯一的区别是不使用通配符。理论上认为,从数据库里检索到一条与检索提问式相匹配的记录即为命中2,这也是数据库检索最基本的原理。以前的 CBM 检索中,对不加通配符的“任意字符串”(包括汉字单字或词组、英文单词或缩略语、西文字母加阿拉伯数字的组合形式等)检索都采取了全字段全文本匹配检索技术4。在 SinoMed 中进行中文

9、字符串检索时,SinoMed默认采用了任意通配符,只要出现中文检索词的文献都会出现在检索结果中。如输入“噬细胞”,可以检索出“噬细胞”、“巨噬细胞”、“吞噬细胞”、“自噬细胞”等检索结果。当需要检索中文字符串后连接英文字母、阿拉伯数字或特殊符号的目标词时,省略通配符直接用相应的中文字符串进行检索,亦不会造成漏检。如输入“白细胞介素”时,“白细胞介素 1”、“白细胞介素 IL1”、“白细胞介素1”、“白细胞介素(IL)1”等都会在检索结果中出现(表 1)。表 1中文字符串后省略通配符的检索结果检索词命中文献数白细胞介素85173白细胞介素 O 白细胞介素 185173白细胞介素 O 白细胞介素

10、IL185173白细胞介素 O 白细胞介素1851732 2“包含检索”的主要缺陷“包含检索”功能用来检索中文字符串时,能够出色地完成检索要求,但对 ASCII 字符组成的字符串(英文字符串或由英文字母、阿拉伯数字、特殊符号组成的字符串)进行检索时,经常会出现漏检的情况。在 SinoMed 镜像版中,省略通配符仅以英文字符串作为检索词进行检索,会漏检英文字符串后连接数字的目标词5,但不会漏检英文字符串后连接“”、“/”、“”、“)”等特殊符号的目标词。例如,在SinoMed 中输入“MD”,会漏检“MD1”,但可以检索出“MD1”、“MDTB”、“MDPTB”、“MD/Pgp”、“MD/XDA

11、B”等英文字符串后连接特殊字符的检索结果。网络版 SinoMed 经过升级,已对这一问题进行了完善。即在省略通配符的情况下,仅以英文字符串作为检索词进行检索,不会漏检英文字符串前或后连接数字的目标词。目前在 SinoMed 中,对英文字符串(英文单词、英文缩略语等)进行“包含”检索,仍然会出现漏检情况。若仅以英文字符串的一部分作为检索词,会漏检检索词前或检索词后连接英文字符的目标词,但不会漏检检索词前或检索词后连接特殊符号的目标词(表 2)。表 2英文字符串前或后省略通配符的检索结果检索词命中文献数检索词命中文献数PC202224NA92464PC O TPC202224NA O iNA924

12、64PC O TPC202783NA O NAi9276902中华医学图书情报杂志 2016 年6 月 第25 卷第6 期Chin J Med Libr Inf Sci,Vol 25 No 6June,2016总之,在 SinoMed 中,检索中文字符串后连接英文字母、阿拉伯数字或特殊符号的目标词时,省略通配符而仅用中文字符串进行检索,均不会造成漏检;检索英文字符串前或后连接特殊符号再连接字母或数字的目标词时,亦不会造成漏检。但对于由英文单词或英文缩略语等组成的英文字符串目标词,直接用英文字符串的一部分作为检索词进行检索时,则会造成漏检。可见,SinoMed 系统对英文字符采取了精确匹配的索引

13、技术,省略通配符而直接用目标词的局部进行检索,会造成漏检。但对于“”等特殊符号,SinoMed 系统采取模糊匹配原则,省略通配符而直接用目标词的局部进行检索,不容易造成漏检。3SinoMed 截词检索功能的缺陷3 1任意通配符“%”的检索缺陷3 1 1百分数“数字+%+汉字”的检索CBM 中使用“*”作为任意通配符,而 SinoMed中用“%”取代“*”作为任意通配符。众所周知,在检索时作为通配符的符号无法直接被检索出,而“%”在医学文献中经常出现,遇到特殊的情况需要检索“数字+%”时,SinoMed 系统就可能会存在一定的不足。例如,笔者在查新中遇到过检索百分数的情况,需要检索“50%有效剂

14、量”。如果直接用“50%有效剂量”进行检索,仅可以检索出 1 篇包含“50 有效剂量”的文献(表 3),而并非“50%有效剂量”。表 3百分数“数字+%+汉字”的检索结果检索词命中文献数50%有效剂量150%有效剂量81850%有效剂量63750 有效剂量637从表 3 可见,“%”直接置于阿拉伯数字与汉字之间进行“前后方一致”检索,无法按正常步骤检索出同时包含“%”前后内容的文献。如果在“%”后加一个空格,用“50%有效剂量”进行检索,系统则会按“50%AND 有效剂量”进行检索。其中的“%”默认为通配符,检索结果为同时包含“50”和“有效剂量”,且二者之间间隔任意个(0)字符的文献,包括了

15、“50”后直接连接“%”、“”、“”等特殊符号、英文字母、阿拉伯数字或汉字等各种字符的文献。如果在“%”前面加一个空格,用“50%有效剂量”进行检索,系统会按“50 AND%有效剂量”进行检索,可以检索出同时含有“50”和“有效剂量”的文献。如前所述,通配符“%”置于汉字之前与省略通配符的检索结果相同,因此这种检索方法与使用“50 有效剂量”的检索结果完全相同。“50 有效剂量”与“50%有效剂量”相比,前者50 后面缺少了通配符“%”导致检索结果较少,减少的结果主要是 50后面连接小数点、英文字母和数字的文献,但“50 有效剂量”却可以检索出 50 后面连接其他特殊符号(如“%”、“”、“)

16、”、“、”“:”等)、空格、希腊字母和汉字等的结果。因此针对“50%有效剂量”的检索要求,用“50 有效剂量”检索最为简洁和准确。以上结果说明,“%”作为通配符无法准确地被系统检索出,这直接导致系统对百分数检索的重大缺陷。“%”可以置于阿拉伯数字之后进行“前方一致”检索,但用于检索百分数时检索结果噪声较大,检索结果包括检索词后连接特殊符号、英文字母、阿拉伯数字以及汉字等各种情况的文献。3 1 2“数字+特殊符号+汉字”的检索由上述百分数的检索结果来看,通配符“%”无法准确检索出数字与汉字之间有百分号的检索结果,那么“%”是否可以检索出数字与汉字之间有特殊符号的检索结果呢?举例来讲,如果需要检索

17、 2 型糖尿病的各种表达方式,根据任意通配符“%”的检索功能,理论上可以用“2%糖尿病”进行检索,但使用“2%糖尿病”的检索结果为 0,无法检索出“2 型糖尿病”、“2糖尿病”、“2型糖尿病”等目标词。检索白介素 12 时,使用“白介素%12”作为检索词,可以检索出“白介素 12”,却无法检索出“白介素12”等目标词;使用“钴%60”检索钴 60 的相关文献时,可以检索出“钴 60”、“钴 DT60”等结果,但无法检索出“钴60”(表 4)。从以上检索试验可以看出,通配符“%”用于数字和汉字之间,无法检索出数字和汉字之间有特殊符号的目标词,这是通配符“%”存在的一个缺陷。12中华医学图书情报杂

18、志 2016 年6 月 第25 卷第6 期Chin J Med Libr Inf Sci,Vol 25 No 6June,2016表 4“数字+特殊符号+汉字”的检索结果检索词命中文献数检索词命中文献数白介素%12248钴%60286白介素%12 O 白介素 12248钴%60 O 钴 60286白介素%12 O 白介素 IL12248钴%60 O 钴 DT60286白介素%12 O 白介素12546钴%60 O 钴605293 1 3“英文字母+特殊符号+汉字”的检索由上述 3 1 2 的检索情况,笔者不禁联想到同属于 ASCII 字符的英文字母与汉字中间有特殊符号的目标词。当笔者使用通配符

19、“%”检索“英文字母+特殊符号+汉字”或“汉字+特殊符号+英文字母”形式的目标词时,同样出现了漏检情况。例如,当检索 K+通道的各种形式(检索试验并未对“钾离子通道”等中文表达方式进行检索)时,用“K%通道”进行检索,可以检索出 KAPT 通道、KV 通道、KCa 通道、K 通道等结果,却检索不出 K+通道和 K 离子通道(表 5)。表 5“英文字母+特殊符号+汉字”的检索结果检索词命中文献数K%通道740K+通道348K 离子通道10K%通道 O K+通道1060K%通道 O K 离子通道748同样,检索“汉字+特殊符号+英文字母”形式的目标词时,将通配符“%”置于检索词中间进行检索,如使用

20、“血管内皮生长因子%A”进行检索时,可以检索出“血管内皮生长因子 A”,但却无法检索出血管内皮生长因子A等目标词。从以上的检索情况可以看出,在 Sinomed 中,通配符“%”用于英文字母与汉字之间,无法检索出英文字母与汉字之间有特殊符号的目标词,这是通配符“%”检索存在的又一缺陷。3 1 4“英文字母+特殊符号+数字”的检索与上述特殊符号连接数字/英文和汉字形式的目标词的检索结果情况类似,通配符“%”对英文字母与数字之间有特殊符号的目标词也存在漏检情况。例如,用“Co%60”作为检索词,可检索出“Co+英文字 母/阿 拉 伯 数 字+60”形 式 的 结 果 以 及“Co60”,却无法检索出

21、 Co60 和 Co60 这类英文字母和阿拉伯数字中间有特殊符号的目标词。同样的,“60%Co”可检索出“60Co”,却无法检索出 60Co 和 60Co(表 6)。表 6“英文字母+特殊符号+汉字”的检索结果检索词命中文献数检索词命中文献数Co%6015260%Co2658Co%60 O Co6015260%Co O 60Co2658Co60 O Co605560Co O 60Co89Co%60 O Co60 O Co6020660%Co O 60Co O 60Co2722通过以上的检索试验可以看出,英文字母与阿拉伯数字组成的字符串,用通配符“%”进行检索时,不会出现漏检情况;但英文字母与阿

22、拉伯数字之间有特殊符号的目标词,用通配符“%”进行检索,则会出现漏检。3 1 5“英文字母+特殊符号+英文字母”的检索还有一种比较常见的组合是“英文字母+特殊符号+英文字母”的形式,通配符“%”对特殊符号前后连接英文字母的目标词进行检索时,也常会出现漏检。以“T%PC”为例进行检索,可检索出“T+英文字母+PC”以及“TPC”的结果,但却检索不出“TPC”等英文字母之间有特殊符号的结果,情况与上述 ASCII 字符之间有特殊符号的检索情况类似。综上所述,通配符“%”用于同类字符中间进行前后方一致检索,一般不会造成漏检。例如,汉字与汉字之间、英文字母与英文字母之间及英文字母与阿拉伯数字之间。但通

23、配符“%”在检索百分数时具有先天的缺陷,并且用于不同类型字符中间进行前后方一致检索时,会造成漏检,如“数字、特殊符号、汉字”的组合、“英文字母、特殊符号、汉字”的组合、“英文字母、特殊符号、数字”的组合以及“英文字母、特殊符号、英文字母”的组合等。3 2单字通配符检索的缺陷SinoMed 数据库中,单字通配符“?”在检索中可22中华医学图书情报杂志 2016 年6 月 第25 卷第6 期Chin J Med Libr Inf Sci,Vol 25 No 6June,2016替代任意一个字符。但笔者在检索时发现,单字通配符“?”在检索包含特殊符号的目标词时,也常常出现漏检,情况与任意通配符“%”

24、的漏检情况类似。在检索“数字+%+汉字”的目标词时,如 3 1 1中的例子,使用“50有效剂量”进行检索,结果为0,无法检索出目标词“50%有效剂量”;使用“50?有效剂量”进行检索,仅可以检索出 50 后有一个数字或者一个字母的结果。可见系统将数字与字母视为同类字符,“?”用于此类字符后进行检索,只能检索出“?”替代同类字符的文献,而系统将“%”等特殊符号视为与数字不同类的字符,用“?”无法检索出。针对“数字+特殊符号+汉字”或“汉字+特殊符号+数字”形式目标词的检索,使用单字通配符“?”也常会造成漏检。如使用“2 糖尿病”进行试验,可以检索出“28 糖尿病”等“2+数字+糖尿病”的结果,却

25、会漏检“2 型糖尿病”、“2糖尿病”等“2”后直接连接非数字的结果,甚至也无法检索出“2N 糖尿病”、“2D 糖尿病”、“2h 糖尿病”等“2”后连接字母的结果;使用“白介素 1”可以检索出“白介素 11”、“白介素21”、“白介素31”,却检索不出“白介素1”。“英文字母+特殊符号+汉字”或“汉字+特殊符号+英文字母”形式的目标词,使用单字通配符“?”也常会造成漏检。例如,同样检索目标词“K+通道”,如果使用“K 通道”进行检索,无法检索出“K+通道”。而针对英文字母与数字之间有特殊符号的目标词,如果使用单字通配符“?”替代特殊符号也会造成漏检。例如使用“Co60”进行检索无法检索出“Co6

26、0”、“Co60”等。使用“?”替代英文字母之间的特殊符号也会造成漏检,如使用“TPC”无法检索出“TPC”。由此可见,单字通配符“?”通常替代一个同类字符,因此与任意通配符“%”相比,在检索中出现漏检的情况更多,用于检索目标词为英文字母(或数字)、特殊符号和汉字等非同类字符的组合字符串时,均会造成漏检。4结语SinoMed 是生物医学领域非常重要的检索工具,其收录资源丰富,检索功能强大。对于专业检索人员而言,截词检索不仅可以简化检索策略式,又可以提高检索效率。SinoMed 提供的截词检索功能比较全面,对于常规的检索任务表现出色,但依然存在很多有待完善之处。例如,使用通配符“%”和“?”检索

27、由英文字符(数字)、特殊符号及汉字组成的混合字符串时,经常出现漏检情况,这是 SinoMed 检索系统亟待完善的重要问题。截词检索并不是万能的,专业检索人员在检索 SinoMed 时,应根据检索目的和 SinoMed 的具体功能合理制定检索策略,不可仅根据基本的检索理论一概而论。【参考文献】1中国生物医学文献服务系统(SinoMed)DB/OL 20160216 http:/www sinomed ac cn/help/index html?crossurl=4 2丘东江 图书馆学情报学大辞典M 北京:海洋出版社,2013:444 3曾永松,邓为民 截词符在医学文献检索中的应用技巧探讨J 医学信息,2007,20(11):19391940 4常傲冰中国生物医学文献数据库 中主题词和关键词的配合使用J 中华医学图书情报杂志,2001,10(4):3435 5周潇洒 新版 中国生物医学文献服务系统(SinoMed)的特点及存在的问题J 现代情报,2010,30(6):123124收稿日期:20160314 本文编辑:王天津32中华医学图书情报杂志 2016 年6 月 第25 卷第6 期Chin J Med Libr Inf Sci,Vol 25 No 6June,2016

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com