专题网络检索工具.ppt

上传人:wuy****n92 文档编号:65711082 上传时间:2022-12-06 格式:PPT 页数:87 大小:2.67MB
返回 下载 相关 举报
专题网络检索工具.ppt_第1页
第1页 / 共87页
专题网络检索工具.ppt_第2页
第2页 / 共87页
点击查看更多>>
资源描述

《专题网络检索工具.ppt》由会员分享,可在线阅读,更多相关《专题网络检索工具.ppt(87页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、南京工业大学朱晓峰网络检索工具12/6/20221南京工业大学朱晓峰网络检索工具1.因特网基础知识2.网络检索工具基础3.通用搜索引擎实例:Google4.医学搜索引擎12/6/20222南京工业大学朱晓峰1.因特网基础知识12/6/20223南京工业大学朱晓峰nCNNIC最新统计:(2006/6/30)5450万台上网计算机12,300万网民(每周平均上网1小时的网民)1.1 我国因特网的发展12/6/20224南京工业大学朱晓峰CNNIC历次调查我国网民总数12/6/20225南京工业大学朱晓峰nTCP/IP协议通信的保证机制nIP地址地址的标识技术n客户机/服务器系统运作的基本模式1.2

2、 因特网的互联原理12/6/20226南京工业大学朱晓峰TCP/IP协议n是通信的保证机制n全称:Transmission Control Protocol/Internet Protocol 传输控制/交互网络协议n由“因特网之父”文顿瑟夫确立n因特网的基础和核心,是基本协议。n保证各种不同类型的计算机网络实现相互通信一套规则或协议。nTCP:传输控制协议。规定传输信息怎样分层、分组和在线路上传输。nIP:Internet协议。定义Internet上计算机之间的路由选择,把不同网络的物理地址转换为Internet地址。12/6/20227南京工业大学朱晓峰地址的标识技术IP地址n识别主机的身

3、份证,唯一性n形式:四组小于256的十进制表示。如:北京邮电大学图书馆技术部一台主机。n字符型的IP地址,即域名(DN)域名的地址格式为:主机名 机构名 网络类型 最高域名注 需申请注册12/6/20228南京工业大学朱晓峰 常用网络类型代码com 商业机构 org 非营利组织edu 教育机构 gov 政府部门 net 网管组织 int 国际组织mil 军事部门 info 信息机构其他:.museum.coop.aero.pro12/6/20229南京工业大学朱晓峰客户机/服务器系统客户机/服务器系统(Client/Server System)因特网运作的基本模式n服务器:提供资源和服务的计算

4、机n客户机:使用资源和服务的计算机12/6/202210南京工业大学朱晓峰1.3 因特网提供的主要服务n环球网(WWW/Web)n电子邮件(E-Mail)n远程登录(Telnet)n文件传输(FTP)等n网格网格12/6/202211南京工业大学朱晓峰n1990年诞生于瑞士全欧原子物理研究室。n是通过超文本(Hypertext)方式来进行互联网上信息查询的网络工具。超级链接:通过网页上的关键字、图片等元素在网页、多媒体信息间建立起网状链接超文本:一种文件格式,将分散于各机器上的文本、图像、声音等文件通过超级链接链接起来。n基于超文本传输协议:http(Hypertext Transfer Pr

5、otocol)环球网(World Wide Web)12/6/202212南京工业大学朱晓峰n统一资源定位器(URL,网址)是信息在网上的地址,用来定位和检索WWW上的文档。由三部分组成web服务器域名、文件路径、文件名例如:http:/ Wide Web)12/6/202213南京工业大学朱晓峰nHTML超文本标记语言用于编辑Web网页文件,需用Web浏览器显示,可用记事本等编辑。环球网(World Wide Web)12/6/202214南京工业大学朱晓峰Web 2.0n让互联网找回Internet的真正含义:平等、交互、去中心化。n可以读写的互联网。Web1.0我们网上冲浪,Web2.0

6、我们是波浪制造者n个人媒体崛起:Blog(网志、博客)走进大众传媒,是以时间为顺序更新的个人主页。12/6/202215南京工业大学朱晓峰Web 2.0nBlog与BBS的区别Blog集原创文章、评价、链接、网友跟进于一体BBS没有上下文概念,反复围绕一个问题,但人们经常忘了以前说过什么。12/6/202216南京工业大学朱晓峰网志你的网络日记12/6/202217南京工业大学朱晓峰网格:Girdn是把整个互联网整合成一台巨大的超级计算机,实现计算资源、存储资源、数据资源、信息资源、知识资源、专家资源的全面共享。n地区性的网格:如中关村科技园区网格、企事业内部网格、局域网网格、甚至家庭网格和个

7、人网格。网格的根本特征并不一定是它的规模,而是资源共享,消除了资源孤岛12/6/202218南京工业大学朱晓峰2.网络检索工具基础12/6/202219南京工业大学朱晓峰且慢,让我先Google一下我们若能更妥善地搜寻资料,实在已经改变世界我们若能更妥善地搜寻资料,实在已经改变世界 12/6/202220南京工业大学朱晓峰一一.网络检索工具的原理及类型网络检索工具的原理及类型网络检索工具泛指因特网上提供网页网络检索工具泛指因特网上提供网页信息资源检索和网站导航服务的站点,主信息资源检索和网站导航服务的站点,主要面向互联网信息检索,并通过要面向互联网信息检索,并通过Internet来来提供服务,

8、通常又称搜索引擎。提供服务,通常又称搜索引擎。12/6/202221南京工业大学朱晓峰网络检索工具的原理主要由五部分构成:数据采集(robot/spider):负责按照一定的方式和要求对网络资源进行搜集,并将搜集到的网页信息经网络传输,存储到搜索引擎的临时数据库中数据分析与标引(indexer):负责对收集到的网页信息进行分析,从中提取有检索或查询价值的内容网页关键词、网页的分类类别等,并对关键词进行权值计算;12/6/202222南京工业大学朱晓峰网络检索工具的原理n数据组织:负责形成规范的索引数据库或便于浏览的层次型分类目录结构n数据检索:负责帮助用户用一定的方式检索索引数据库,获取符合用

9、户需要WWW信息n信息挖掘:负责提取用户相关信息,利用这些信息来提高检索服务的质量。根据用户以前检索行为的学习统计及其登记的信息,信息挖掘模块在个性化服务中起到关键作用12/6/202223南京工业大学朱晓峰按工作原理划分n独立检索工具主题指南/目录/网站查询(Directory)由人工采集网站并进行分类,建成树状等级目录.保证了查准率,但查全率降低。如:ODP(Open Directory Project)、Yahoo!搜索引擎/网页搜索通过Robot自动跟踪标引软件搜寻网页,自动进行关键词标引,它不需要人工干涉,查全率较高。如:Google,All the Web12/6/202224南京

10、工业大学朱晓峰独立检索工具搜索引擎工作原理12/6/202225南京工业大学朱晓峰按工作原理划分n元搜索引擎(集成搜索引擎)自身不采集信息,没有信息库,同时检索多个独立搜索引擎,以统一格式输出结果。信息量大,用时短。Vivisimo、Ixquick、MetaCrawler、搜星、万纬搜索等。12/6/202226南京工业大学朱晓峰元搜索引擎工作原理12/6/202227南京工业大学朱晓峰按检索内容划分n通用检索工具 是综合性的信息检索系统,它往往基于检索词去匹配相关的内容。时常也会因检出内容太泛而无法一一过目。如:Google、Altavista、ODP、Yahoo!、百度n专业检索工具 是专

11、业信息机构根据专业需求,将Internet上资源进行筛选整理、重新组织而形成专业信息检索系统,专业针对性较强。如:Medical Matrix、HealthWeb、BIOMED12/6/202228南京工业大学朱晓峰CNNIC中国搜索引擎市场调查报告(2006)n北京、上海和广州三地搜索引擎总体市场份额:百度 64.5%(+13%);Google 20.6%(-12.3%)雅虎 5.4%(+1.7%);新浪 3.5%(-0.5%)搜狐 3.4%(-1.2%)nGoogle用户具备比百度更早的上网经历、更多的搜索引擎使用经验、对搜索引擎的依赖度更强、对首选搜索引擎的满意度更高、更多地搜索与工作或

12、职业相关的内容。n百度在学生用户中的市场份额远远高于其在非学生用户中的市场份额。百度用户搜索音乐(Mp3)等娱乐内容的使用率相对较高;Google用户搜索网站(网页)、企业产品、商情、交通旅游等内容的使用率相对较高。12/6/202229南京工业大学朱晓峰3.通用搜索引擎实例12/6/202230南京工业大学朱晓峰3.通用搜索引擎实例:Googlen3.1 Google的概况n3.2 Google的特色n3.3 Google的搜索模块n3.4 Google的关键词检索规则n3.5 Google的网页目录查询n3.6 Google学者Scholarn3.7 Google使用偏好设置n3.8 其他

13、检索引擎12/6/202231南京工业大学朱晓峰Google主页(http:/)12/6/202232南京工业大学朱晓峰Google与数字图书馆nGoogle源自DLI1(Digital Library Initiative 1)美国数字图书馆先导研究计划的一个项目。n1994年在读研究生Larry Page和Sergey Brin参与了斯坦福大学主持的Infobus项目,这个项目以解决异构系统互操作为主要目标,他们开发了一项名为“BackRub”的搜索技术,其核心就是Pagerank技术,这就是Google的前身。n1997年他们发表了论文并建立了试验性搜索网站,次年Google公司宣告正式

14、成立。n当年Altavista,Infoseek,Exite甚至包括Yahoo!(当时Yahoo!搜索引擎还用的是Inktomi)风靡互联网的时候,曾有人宣告搜索引擎技术不可能有什么发展了,已经到头了。n没有DLI1计划,就不会有Google。112/6/202233南京工业大学朱晓峰3.1 Google的概况n搜索的网页:80 亿+;图片:10 亿+;Usenet 信息:10 亿+n拥有100多种界面语言和国际域名n员工数超过3400人,大部分是技术人员和工程师n在搜索引擎市场占有56%的份额n广告客户数量达数千家n在世界各地拥有20个办事机构n股票面值近300美元,总市值超800亿美元!n

15、2006年4月12日Google将中文名“科高”改为谷歌,意为山谷之歌。(截止2006年4月)212/6/202234南京工业大学朱晓峰3.2 Google的特色n检索响应速度极快,0.5秒内应答nPageRank专利网页级别技术与超文本匹配分析,客观评价网页的重要性,以提供相关性较高的搜索结果n智能化的“手气不错”功能,直接连接到可能最符合要求的网页n“网页快照”从服务器里直接取出缓存的网页。用不同颜色标记检索词,很醒目。百度n最好用的图像搜索工具。n主页检索框右侧可设定“Preference(使用偏好)”,将检索界面设为中文12/6/202235南京工业大学朱晓峰3.3 Google的搜索

16、模块12/6/202236南京工业大学朱晓峰3.3 Google的搜索模块nGoogle 服务:网页搜索新闻搜索:阅读搜索新闻新闻快讯:定制实时新闻,直接发至邮箱论坛搜索网页目录:按主题学科分类浏览网站图片搜索网页搜索特色:计算器、股票查询、英汉互译等小窍门12/6/202237南京工业大学朱晓峰nGoogle 服务:本地搜索:查找本地公司与服务大学搜索:搜索特定大学的网站学术搜索:搜索学术文献Google实验室nGoogle 工具:工具栏翻译桌面搜索3.3 Google的搜索模块12/6/202238南京工业大学朱晓峰3.4 Google关键词检索规则n必须检索:无需and,两词间空格默认a

17、nd匹配。例:aspirin stroke;白血病 骨髓移植n或者检索:OR必须大写。例:mri OR magnetic resonance imagingn排除检索:用-表示,但减号之前必须留一空格。例:hepatitis-animal(不能用NOT)n短语检索:“penicillin was invented by”n对大小写不敏感12/6/202239南京工业大学朱晓峰n检索词出现位置限定:标题:allintitle;网址:allinurl;内文:allintext链接:allinanchor例:allinurl:ncbi搜索网址内含单词ncbi的网页n文件类型限定:filetype:文

18、件名后缀支持13种非HTML文件的搜索:pdf,doc,rtf,ppt,xls,swf,ps等例:chronic low back pain filetype:pdf3.4 Google关键词检索规则12/6/202240南京工业大学朱晓峰n禁用词(Stop Words):最常用的字符以及数字和单个字母等高频词,在检索时系统自动忽略不作检索。如果必须检索禁用词时可用+,或“”如:of,is,by,i,的,为,“http”,“.com”,3 等例:“diabetes i”3.4 Google关键词检索规则12/6/202241南京工业大学朱晓峰Google关键词检索实例:n例:查找有关“2型糖尿

19、病眼部并发症研究的网页”diabetes 2 OR type 2 diabetes OR diabetes ii OR type ii diabetes eye complications信息需求类型:广泛了解课题研究的动向12/6/202242南京工业大学朱晓峰Google关键词检索结果检出网页总数检出网页总数检索式检索式网页标题网页标题文件类型文件类型网页摘录网页摘录网页网址网页网址12/6/202243南京工业大学朱晓峰Google 高级检索12/6/202244南京工业大学朱晓峰n例:高级检索查找我国百白破疫苗接种率包含全部字词:我国 百白破疫苗包含以下完整字句:接种率为搜索网页语言:

20、中文简体网页更新日期:过去一年网域:仅(仅在卫生部网站中搜索)信息需求类型:直接查找具体数值,并需求权威发布源Google 高级检索实例12/6/202245南京工业大学朱晓峰Google 网页高级搜索界面12/6/202246南京工业大学朱晓峰Google网页高级检索结果12/6/202247南京工业大学朱晓峰例:查找与美国国立卫生研究院类似的网站(http:/www.nih.gov)。在Search by URL区域,Find web pages similar to 后输入www.nih.gov。点击右侧search by URL 按钮。例:查找网页中含有美国国立卫生研究院链接的网页。在

21、Search by URL区域,Find web pages that link to 后输入www.nih.gov。点击右侧search by URL 按钮。信息需求:查找相关专业的重要网站信息需求:查找相关专业的重要网站Google 高级检索实例12/6/202248南京工业大学朱晓峰Google网页高级检索结果翻译网页翻译网页网页字节数网页字节数12/6/202249南京工业大学朱晓峰Google 网上论坛检索n信息需求:查找零次文献12/6/202250南京工业大学朱晓峰与与Open Directory ProjectOpen Directory Project链接,采用其分类目录链接

22、,采用其分类目录3.5 Google的网页目录查询12/6/202251南京工业大学朱晓峰3.5 网页目录查询n网站:一个机构/个人在网上提供浏览或服务的站点,一个网站包括多个页面/网页nOpen Directory Project可按学科主题浏览相关网站n例:查找免疫学研究中心的网站依次点击类目:Medicine、Basic Science、immunology、Institute、Research Center,可得相关网站12/6/202252南京工业大学朱晓峰3.5 网页目录查询12/6/202253南京工业大学朱晓峰3.5 网页目录查询n链接至网页目录查询12/6/202254南京工

23、业大学朱晓峰3.5 网页目录查询12/6/202255南京工业大学朱晓峰3.5 网页目录查询12/6/202256南京工业大学朱晓峰3.5 网页目录查询12/6/202257南京工业大学朱晓峰3.5 网页目录查询12/6/202258南京工业大学朱晓峰12/6/202259南京工业大学朱晓峰3.5 网页目录查询n用目录与关键词结合检索方法,查找有关癌症免疫学的网站。依次点击类目:Health、Medicine、Basic Science、Immunology输入:cancer,选 just this category12/6/202260南京工业大学朱晓峰3.5 Google的网页目录查询12

24、/6/202261南京工业大学朱晓峰3.5 Google的网页目录查询12/6/202262南京工业大学朱晓峰n关键词检索:目标明确、主题较狭窄、知识点、事实数据、文献等网页查找。n目录检索:目标模糊、主题较宽泛、查某专业重要网站。关键词检索、目录比较12/6/202263南京工业大学朱晓峰3.6 Google Scholar 学术搜索n含期刊论文、学位论文、图书、预印本、文摘、技术报告等学术文献,文献源自学术出版物、专业学会、预印本库、大学及网上学术论文。n按相关度排序,考虑全文、作者、出版物及被引情况。采取自动分析与抽取引文的方法 n了解有关某一领域的学术文献;某一作者的著述,并提供书目信

25、息 12/6/202264南京工业大学朱晓峰n例:检索有关腰脊柱(lumbar spine)的MRI介入(interventional)研究的文献包含全部字词:mri 包含确切词语:lumbar spine包含任何一个字:intervention interventional3.6 Google Scholar 学术搜索12/6/202265南京工业大学朱晓峰3.6 Google Scholar 学术高级搜索12/6/202266南京工业大学朱晓峰中文版搜索结果相关网页检索相关网页检索该文献多个原文该文献多个原文链接网址链接网址被引用被引用次数次数复旦复旦SFX链链接查找全文接查找全文仅显示近

26、期仅显示近期发表的文章发表的文章文献出处及全文网址文献出处及全文网址12/6/202267南京工业大学朱晓峰全文其它网址全文其它网址获取全文获取全文12/6/202268南京工业大学朱晓峰链出OVID数据库中的全文12/6/202269南京工业大学朱晓峰相关网页检索相关网页检索英国图书馆原文英国图书馆原文获取服务链接获取服务链接全文链接网址全文链接网址英文版英文版Scholar搜搜索结果索结果相关论文检索相关论文检索文献被引次数文献被引次数命中文献按作者聚类命中文献按作者聚类12/6/202270南京工业大学朱晓峰12/6/202271南京工业大学朱晓峰12/6/202272南京工业大学朱晓峰

27、PDF全文下载12/6/202273南京工业大学朱晓峰3.7 Google 使用偏好设置12/6/202274南京工业大学朱晓峰3.8 其他搜索引擎亚马逊书店的“杀手锏”,图书、网页、黄页和地图服务 检索、对搜索结果自动进行分类功能http:/ iASK 12/6/202276南京工业大学朱晓峰其他搜索引擎nYahoo!nAltavista http:/n新浪 http:/n搜狐 http:/n雅虎中文 12/6/202277南京工业大学朱晓峰4.医学搜索引擎12/6/202278南京工业大学朱晓峰n 1994年美国中西部地区医学图书馆合作开发n目录型检索工具,信息准确性较高。n曾被美国医学图

28、书馆协会评为健康消费者十大最有价值网站。HealthWeb 12/6/202279南京工业大学朱晓峰12/6/202280南京工业大学朱晓峰HealthWebn关键词检索运算符:AND OR NOT截词符:*,自动单复数截词 精确匹配:“”如:“computer”检索结果按相关性排列例:biotechnology AND pharmac*12/6/202281南京工业大学朱晓峰12/6/202282南京工业大学朱晓峰HealthWebn分类目录68个学科大类每个大类下有资源类型分类、为不同对象设立的特色主题在每个资源类型或特色主题下可选择下级分类关键词结合检索12/6/202283南京工业大学朱晓峰12/6/202284南京工业大学朱晓峰12/6/202285南京工业大学朱晓峰其它医学检索工具nBIOME http:/biome.ac.uknHON http:/www.hon.chnHealthlinks http:/nHealthfinder http:/www.healthfinder.gov n37医学网医搜 12/6/202286南京工业大学朱晓峰参考文献n1刘炜.Google与数字图书馆 n2n3毛军.中国科学院国家科学数字图书馆建设进展(PPT),2005.512/6/202287

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com