搜索引擎.ppt

上传人:得****1 文档编号:79210489 上传时间:2023-03-20 格式:PPT 页数:80 大小:5.47MB
返回 下载 相关 举报
搜索引擎.ppt_第1页
第1页 / 共80页
搜索引擎.ppt_第2页
第2页 / 共80页
点击查看更多>>
资源描述

《搜索引擎.ppt》由会员分享,可在线阅读,更多相关《搜索引擎.ppt(80页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、 一、搜索引擎 二、百度搜索引擎 三、Google搜索引擎搜索引擎一、搜索引擎 定义:是基于WWW的信息处理系统,是对网络资源进行标引和检索的工具。实质上是用来对网络信息资源管理和检索的一系列软件。组成部分组成部分负责工作负责工作搜索器搜索器负责定期地自动到各个网站上,把网页抓下来,并顺着上面的负责定期地自动到各个网站上,把网页抓下来,并顺着上面的链接,持续不断地抓取网页链接,持续不断地抓取网页索引器索引器把搜索器抓来的网页进行分析,按照关键词句进行索引,并存把搜索器抓来的网页进行分析,按照关键词句进行索引,并存入服务器的数据库中入服务器的数据库中检索器检索器面向用户,接收用户提交的查询字串,

2、在索引数据库中查询,面向用户,接收用户提交的查询字串,在索引数据库中查询,并将结果反馈给用户并将结果反馈给用户类型:按工作方式区分:主题、目录和多元。(1)主题引擎主题引擎工作原理收集处理查询根据结果由用户访问主题引擎:依靠一个叫“网络机器人(Spider)”或叫“网络蜘蛛(Crawlers)”的软件,以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户输入的“检索词”在索引库中查询,并将查询结果返回给用户。服务方式:面向网页的全文检索服务 程序自动完成,处理信息的层次是网页。优点:信息量大、更新及时 缺点:返回信息中常有很多无关信息,甚至有一定比例的死链

3、接,用户必须从结果中进行筛选。国内代表:百度(http:/)等 国外代表:Google(http:/)等 它们的首页都只有一个检索文本框。主题引擎(2)目录引擎搜索引擎搜索引擎主主题题引擎引擎目目录录引擎引擎是否人工参与是否人工参与无无程序自动完成程序自动完成是是提供的提供的结结果果网页网页网站网站适合适合专指、具体专指、具体某一专题某一专题 以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。国内代表:搜狐、新浪、网易、雅虎中国的分类目录。以及网上的一些导航站点、网址之家。国外代表:Yah

4、oo Directory(网站数量约200万个)等。目录引擎(3)多元引擎提供各个主题引擎的统一检索平台。一般没有自己网络机器人及数据库,而是将用户的查询请求通过调用、控制和优化其它多个独立搜索引擎的搜索结果(网页)并以统一的格式在同一界面集中显示。优点:返回结果的信息量更大、更全。缺点:不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。国内代表:万维搜索(http:/)等。国外代表:元搜索metacrawler(http:/)等多元引擎同时提交多个独立的搜索引擎,分别检索多个数据库,并将检索结果进行二次加工,最后将整理好的检索结果输出给用户。支持调用12个独立搜索引擎,提供涵盖近20

5、个主题的目录检索服务。目前,主题引擎与目录引擎有相互融合渗透的趋势。原来一些纯粹的主题搜索引擎现在也提供目录搜索,如Google就借用Open Directory目录提供分类查询。而 Yahoo目录索引则通过与Google等搜索引擎合作扩大搜索范围。在默认搜索模式下,一些目录类搜索引擎首先返回的是自己目录中匹配的网站,如搜狐、新浪、网易等;而另外一些则默认的是网页搜索,如Yahoo。二、百度搜索引擎百度:1999年底,李彦宏和徐勇在美国硅谷创建了百度。2000年百度公司回国发展,之后成为全球最大的中文搜寻引擎技术公司。起名:来自于“众里寻他千百度,蓦然回首,那人却在灯火阑珊处”辛弃疾 青玉案。

6、象征着百度对中文信息检索技术执著的追求,寄托着百度对自身技术的信心。2005年8月5日,百度在美国上市,当天股票飙涨350%,其身价已经超过9亿美元。中国所有提供搜索引擎的门户网站中,超过80%以上都由百度提供搜索引擎技术支持,现有客户包括新浪、腾讯、263、21cn、上海热线、广州视窗、新华网可检索新闻、网页、图片、百科、知道、MP3、视频等。默认查找网页。2.1 网页搜索(1)使用两个以上检索词的检索逻辑逻辑与。表示为:A B(AB之间为空格)含义:空格前后的两个检索词在同一个网页中出现。如:搜索“石家庄铁道大学2014年就业情况”的网页 检索策略:石家庄铁道大学 2014年 就业 逻辑或

7、。表示为:A|B 含义:A、B两个检索词中至少有一个在网页中出现。如:要查询“信息检索”或“文献检索”的相关网页 检索策略:信息检索|文献检索逻辑非。表示为:A-B。但减号之前必须留一空格 含义:网页中出现检索词A而不出现检索词B。如:要搜寻琅琊榜,但不含剧情介绍的相关网页 检索策略琅琊-剧情介绍(2)字段检索在标题搜索:intitle:检索词 如:intitle:(石家庄铁道大学 2015年 寒假 放假)表示搜索标题及其说明语中同时含有检索词“石家庄铁道大学”、“2015年”、“寒假”、“放假”的网页。网页标题网页说明语:系统自动产生在链接中搜索:inurl:关键词。搜索url中含有的关键词

8、的网页。如:photoshop inurl:soft这个查询串中的“photoshop”,是可以出现在网页的任何位置,而“soft”则必须出现在网页url中。URL地址中含有soft在网站中搜索:site:网站或域名。搜索某网站或每类网站包含检索内容的网页。如:教学名师 site:,查找石家庄铁道大学网站含有教学名师的网页 教学名师 site:,查找中国教育网站含有教学名师的网页。查找文件:filetype:后跟以下文件格式:doc、xls、ppt、pdf、rtf、all。其中,all表示搜索所有这些文件类型。如:搜索网页标题中含有信息检索的ppt文件精确匹配双引号“”和书名号 如果输入的查询

9、词很长,百度搜索时可能是拆分的。给查询词加上双引号,就可以达到这种效果。例如:石家庄铁道大学图书馆和“石家庄铁道大学图书馆”精确匹配书名号 在其他搜索引擎中,书名号会被忽略,而在百度,中文书名号是可被查询的。有两层特殊功能:一是书名号会出现在搜索结果中;二是被书名号扩起来的内容,不会被拆分。在某些情况下特别有效果,例如,查名字很通俗和常用的电影或者小说。比如,查电影“手机”,如果不加书名号,很多情况下出来的是通讯工具手机,而加上 后,手机结果就都是关于电影方面的了。2.2 百度百科 百度百科是一部内容开放、自由的网络百科全书,旨在创造一个涵盖所有领域知识、服务所有互联网用户的中文知识性百科全书

10、。由网友共同编写,任何一个符合法律的词条,都可以由网友自由添加,具有无限、即时和动态的特征。百度百科百度百科传统百科全书传统百科全书词条编写词条编写网友网友固定专家固定专家数量数量无限,自由添加无限,自由添加有限,出版后无法修改有限,出版后无法修改内容内容即时、动态即时、动态固定,有些词条无法反映固定,有些词条无法反映2.3 百度知道 基于搜索的互动式知识问答分享平台。并非直接查询那些已经存在于互联网上的内容,而是用户自己根据具体需求有针对性地提出问题,通过积分奖励机制发动其他用户来给出该问题的答案。主要是针对问题的答案。(1)网页搜索中直接提问(2)“百度知道”中检索答案百度百科与百度知道的

11、区别百度知道百度知道百度百科百度百科表现形式表现形式问答形式问答形式非问答形式非问答形式应用结果或信息利应用结果或信息利用用针对问题的答案针对问题的答案偏概念形式的词条解释偏概念形式的词条解释产品实质产品实质互动问答平台,并非严互动问答平台,并非严格意义的知识库体系格意义的知识库体系协同合作平台,知识的协同合作平台,知识的集合库集合库2.4 百度文库是百度发布的供网友在线分享文档的平台。文档由百度用户上传,需要经过百度的审核才能发布,百度自身不编辑或修改用户上传的文档内容。网友可以在线阅读和下载这些文档。文档包括教学资料、考试题库、专业资料、公文写作、法律文件等多个领域的资料。百度用户上传文档

12、可以得到一定的积分,下载有标价的文档则需要消耗积分。例如:查找图书馆有关RFID的文档2.5 高级搜索多个词,“与”,空格精确词,“”多个词,“或”,“|”多个词,“去除”,“-”选择文档格式关键词位置:intitle、inurl指定网站或域名:site高级搜索页面例如:查找历年来各高校工程硕士招生简章文本2.6 百度搜索特色功能 百度快照 相关搜索 拼音提示 错别字提示 英汉互译词典 股票、列车时刻表和航班查询 天气查询 货币换算 百度快照当某个搜索无法打开或打开速度太慢,可通过“百度快照”快速浏览该页面内除部分图片、音乐(非文本信息)外的主要内容。点击百度快照 相关搜索 搜索结果不佳,可通

13、过参考别人是怎么搜的。“相关搜索”提示相似的一系列查询词,按搜索热门度排序。拼音提示只需输入查询词的汉语拼音,百度就能把最符合要求的对应汉字提示出来。错别字提示由于汉字输入法的局限性,搜索时经常会输入一些错别字,导致搜索结果不佳。这时,百度会给出错别字纠正提示。3.百度搜索特色功能 英汉互译词典英汉:“英文单词或词组”+“是什么意思”汉英:“汉字或词语”+“的英文怎么写”股票、列车时刻表和飞机航班查询3.百度搜索特色功能 天气查询城市名称+天气3.百度搜索特色功能 货币换算等于、=、换成货币3.百度搜索特色功能 百度翻译2.7 百度的产品大全可以直接打开产品大全,在专题内检索 视频 学术搜索

14、搜索服务 社区服务中国搜索引擎百度:,百度一下,你就知道。搜搜:,搜搜更懂你。搜狗:,上网从搜狗开始好搜:,好搜,不干坏事。原360搜搜伍佰亿:,一个免费推广网站的搜索引擎。有道搜索:中国搜索:,国家权威搜索。原即刻搜索引擎中搜:,中搜第三代搜索引擎开放平台3.1 介绍Google的创立 Google是由2位斯坦福大学的博士生Larry Page(拉里佩奇)和 Sergey Brin(塞吉布林)在1998年创立的。三、Google搜索引擎Google的释义:由英文单词“googol”变化而来。googol表示一个1后面跟着100个零。Google的特点 目前世界上最大的搜索引擎,支持多达132

15、种语言,包括简体中文和繁体中文;提供最便捷的网上信息查询方法。通过对20多亿网页进行整理,为世界各地的用户提供适需的搜索结果,而且搜索时间通常不到半秒,现在每天需要提供1.5亿次查询服务。Google的检索规则And规则:默认And规则,即输入多个检索词之后,Google默认为要检索所有的包含所有检索词的网页,它们之间为And连接。排除常用词规则:Google的检索规则中,有些常用词如“的”、“the”、“of”、“www”、“an”、“how”、“where”等将被忽略掉不区分大小写规则:Google对于检索词中的大小写是完全不做区分的。排除标点符号规则:Google会忽略检索之间绝大多数的

16、标点符号。但是对于单引号和连字符而言,它们是不被省略的。检索词的词序和邻近规则:在Google中,检索词的排序方式对于整个检索式具有重要的影响,它将首先匹配按照检索式给出的次序进行搜索。同时它也将优先匹配检索词相互邻接的网页。双引号“”双引号界定多个检索词,可以查到各个单词按相同顺序在一起出现的网页,又叫精确检索。检索结果数量明显减少通配符*:在Google中,使用星号作为通配符,表示用它代表任何词。Google的检索运算符注意:*操作符只能代表整个单词,不能代表单词的一部分。“OR”、“+”、“-”、“”OR运算符查找包含其中任何一个词的网页。OR必须大写,否则会把它看成是普通的检索词。“+

17、”表示包含运算符后面的词。如:+the、+www,则the和www将不会被忽略。“-”表示不包含该运算符后面的词。“”让Google检索该词及其同义词。注意、“+”、“-”、“”与前面单词有空格,与后面单词紧挨着。例如:“computer+www”、“apple-computer”“elderly”,结果还会包括“senior”、“older”、“aged”等词的页面。Google的检索运算符Intitle:将搜索范围限制在网页的标题内。即检索词出现在在网页标题中。Google的语法结构检索结果数量明显减少Intext:只在网页的正文中检索关键词,即忽略超链接文本、URL以及题目等。标题中没有

18、“文献检索”,但正文中有。Site:将检索局限在特定网站或者网域内,即将搜索限制在某个特定站点或者顶级域名内。Inurl:将搜索结果限制在URL或者网站页面上,他可以查询网站的子目录。一般通过这个语法,我们可以查找某些特定的内容页,如帮助页,也可以查找特定的文件,如音乐或者视频文件。Filetype:检索特定类型的文件,即搜索后缀或者文件的扩展名。在我们寻找特定格式的内容的时候,这项语法是必不可少的。例如,仅搜索关于经济的pdf文件,结果如下:Related:检索与某特定网页类似的网页。这在搜寻相关内容或者具有类似功能的网页的时候,非常有帮助。Google的高级检索页面 由于质量较数量更为重要

19、,就可以绕过主要的Google搜索引擎而使用Google Directory来代替。Google Directory是一个网页清单相对较小的数据库,它们都是通过一个人工编辑团队手动精心挑选的。Google Directory是有被注释和组织到相关的话题类目下的。你可以通过类目来浏览网页目录,或是搜索指定的项目。地址:http:/ 进入Google Directory,点击Google主页上的“更多”链接,在接下来的页面中选择类别。Google Directory国外知名搜索引擎网站 1、谷歌 Google 2、必应 Bing,微软的一个搜索引擎网站 外文网址:http:/ 中文网址:http:

20、/ 3、雅虎搜索,雅虎公司旗下搜索引擎网站 外文网址:http:/ 网址:http:/ Search,美国在线旗下搜索引擎网站 网址:http:/ 网址:http:/ 网址:http:/ 网址:http:/ 单词英文解释 网页翻译 单词纠错 繁简转换 搜索结果过滤Google的其他杰出功能 网页快照在访问网站时,会将看过的网页复制一份网页快照,以备在找不到原来的网页时使用。单击“网页快照”时,将看到Google 将该网页编入索引时的页面。Google 依据这些快照来分析网页是否符合用户的需求。在显示网页快照时,其顶部有一个标题,用来提醒这不是实际的网页。符合搜索条件的词语在网页快照上突出显示,

21、便于快速查找所需的相关资料。尚未编入索引的网站没有“网页快照”,另外,如果网站的所有者要求Google 删除其快照,这些网站也没有“网页快照”。单击“类似网页”时,Google 侦察兵便开始寻找与这一网页相关的网页。Google 侦察兵可以“一兵多用”。如果您对某一网站的内容很感兴趣,但又嫌资料不够,Google 侦察兵会帮您找到其他有类似资料的网站;如果您在寻找产品信息,Google 侦察兵会为您提供相关信息,供您比较;如果在某一领域做学问,Google 侦察兵会成为您的助手,帮您快速找到大量资料。Google 侦察兵已为成千上万的网页找到了类似网页,但网页越有个性,能找到的类似网页就越少。

22、类似网页按下“手气不错”按钮将自动进入Google 查询到的第一个网页。您将完全看不到其它的搜索结果。使用“手气不错”进行搜索表示用于搜索网页的时间较少而用于检查网页的时间较多。例如,要查找石家庄铁道大学的主页,只需在搜索字段中输入“石家庄铁道大学”,然后单击“手气不错”按钮。Google 将直接带您进入安徽工业大学的官方主页 手气不错1、输入检索词“安徽工业大学”2、点“手气不错”按钮直接显示“安徽工业大学”官方主页根据自己的需要定制检索方式下周实习:(5月4日周四)19:00-20:30图书馆电子阅览室实习题目:利用百度搜索引擎,请做以下两题:(1)你要报考某所心仪大学的硕士研究生,请你通过网络找到这所大学的“2017年硕士研究生招生简章”,写出拟报考专业、本专业招生人数、考试科目、复试科目。并写出你的检索式。(2)通过CNKI中国知网数据库,查找一篇本专业的学位论文,要求写出这篇论文的篇名、作者、导师、学位单位、分类号,并简要写出检索步骤。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 工作报告

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com