搜索引擎工作原理计算机搜索引擎优化_计算机-搜索引擎优化.pdf

上传人:C****o 文档编号:95678430 上传时间:2023-08-29 格式:PDF 页数:4 大小:244.69KB
返回 下载 相关 举报
搜索引擎工作原理计算机搜索引擎优化_计算机-搜索引擎优化.pdf_第1页
第1页 / 共4页
搜索引擎工作原理计算机搜索引擎优化_计算机-搜索引擎优化.pdf_第2页
第2页 / 共4页
点击查看更多>>
资源描述

《搜索引擎工作原理计算机搜索引擎优化_计算机-搜索引擎优化.pdf》由会员分享,可在线阅读,更多相关《搜索引擎工作原理计算机搜索引擎优化_计算机-搜索引擎优化.pdf(4页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、搜索引擎:所谓搜索引擎,就是根据用户需求与一定算法,运用特定策略从 互联网检索出制定信息反馈给用户的一门检索技术。搜索弓摩依托于 多种技术,如网络爬虫技术、检索排序技术、网页处理技术、大数据 处理技术、自然语言处理技术等”为信息检索用户提供快速、高相关 性的信息服务。搜索引擎技术的核心模块一般包括爬虫、索引、检索 和排序等,同时可添加其他一系列辅助模块,以为用户创造更好的网 络使用环境。搜索引擎基本工作原理:搜索引擎的基本工作原理包括如下三个过程:首先在互联网中发 现、搜集网页信息;同时对信息进行提取和组织建立索引库;再由检 索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文 档与查

2、询的相关度评价,对将要输出的结果进行排序,并将查询结果 返回给用户。工作原理:搜索弓摩为了以最快的速度得到搜索结果,它搜索的内容通常是 预先整理好的网页索引数据库。普通搜索,不能真正理解网页上的内 容,它只能机械地匹配网页上的文字。真正意义上的搜索引擎,通常 指的是收集了互联网上几千万到几十亿个网页并对网页中的每一个 文字(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用 户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页 都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结 果将按照与搜索关键词的相关度高低,依次排列。典型的搜索引擎三 大模块组成:()信息采集模块 信

3、息采集器是一个可以浏览网页的程序,被形容为网络爬虫。它首先打开一个网页,然后把该网页的链接作为浏览的起始地址,把 被链接的网页获取过来,抽取网页中出现的链接,并通过一定算法决 定下一步要访问哪些链接。同时,信息采集器将已经访问过的URL 存储至怕己的网页列表并打上已搜索的标记。自动标引程序检查该网 页并为他创建一条索引记录,然后将该记录加入到整个查询表中。信 息收集器再以该网页到超链接为起点继续重复这一访问过程直至结 束。一般搜索引擎的采集器在搜索过程中只取链长比(超链接数目与 文档长度的比值)小于某一阈值的页面,数据采集于内容页面,不涉 及目录页面。在采集文档的同时记录各文档的地址信息、修改

4、时间、文档长度等状态信息,用于站点资源的监视和资料库的更新。在采集 过程中还可以构造适当的启发策略,指导采集器的搜索路径和采集范 围,减少文档采集的盲目性。(二)查询表模块 查询表模块是一个全文索引数据库,他通过分析网页,排除 HTML等语言的标记符号,将出现的所有字或词抽取出来,并记录每 个字词出现的网址及相应位置(比如是出现在网页标题中,还是出现 在简介或正文中),最后将这些数据存入查询表,成为直接提供给用 户搜索的数据库。(三)检索模块 检索模块是实现检索功能的程序,其作用是将用户输入的检索表 达式拆分成具有检索意义的字或词,再访问查询表,通过一定的匹配 算法获得相应的检索结果。返回的结

5、果一般根据词频和网页链接中反 映的信息建立统计模型,按相关度由高到低的顺序输出。工作机制:搜索引擎的工作机制就是采用高效的蜘蛛程序,从指定URL开 始顺着网页上的超链接,采用深度优先算法或广度优先算法对整个 Internet索技术搜索弓摩依托于多种技术如网络爬虫技术检索排序技术网页处理技术大数据处理技术自然语言处理技术等为信息检索用户提供快速高相关性的信息服务搜索引擎技术的核心模块一般包括爬虫索引检索和排序等同时可添加其他过程首先在互联网中发现搜集网页信息同时对信息进行提取和组建立索引库再由检索器根据用户输入的查询关键字在索引库中快速检出文档进行文档与查询的相关度评价对将要输出的结果进行排序并

6、将查询结果返回给用户工作原理解网页上的内容它只能机械地匹配网页上的文字真正意义上的搜索引擎通常指的是收集了互联网上几千万到几十亿个网页并对网页中的每一个文字即关键词进行索引建立索引数据库的全文搜索引擎当用户查找某个关键词的时候所有进行遍历,将网页信息抓取到本地数据库。然后使用索引器 对数据库中的重要信息单元,如标题,关键字及摘要等或者全文进行 索引,以供查询导航。最后,检索器将用户通过浏览器提交的查询请 求与索引数据库中的信息以某种检索技术进行匹配,再将检索结果按 某种排序方法返回给用户。工作擁:(1)在互联中发现、搜集网页信息 搜索弓摩首先负责数据采集,即按照一定的方式要求对网络上 的WWW

7、站点进行搜集,并把所获得的信息保存下来以备建立索引 库和用户检索。但是收集网页只是搜索引擎的一部分工作,他们的其 他服务器要做的还有进行计算/分配/储存用户习惯等等。(2)对信息进行提取和组织建立索引库 首先是数据分析与标引,搜索引擎对已经收集到的资料给与按照 网页中的字符特性予以分类,建立搜索原则,举例来说,对于”软件”这个词,它必须建立一个索引,当用户查找的时候,他知道到这里来 调取资料。当然,对于网页语言,该字符的处理(大小写/中文的断 字方式等等)等方面,各个搜索引擎都有自己的存档归类方式,这些 方式往往影响着未来搜索结果。接下来是数据组织,搜索引擎负责形 成规范的索引数据库或便于浏览

8、的层次型分类目录结构,也就是计算 网页等级,这个原则特别是在Google非常重要,一个接受很多链接 的网页,搜索弓摩必然在所有的网页当中将这些连接多的网页提升上 来。(3)在索引数据库中搜索排序 索技术搜索弓摩依托于多种技术如网络爬虫技术检索排序技术网页处理技术大数据处理技术自然语言处理技术等为信息检索用户提供快速高相关性的信息服务搜索引擎技术的核心模块一般包括爬虫索引检索和排序等同时可添加其他过程首先在互联网中发现搜集网页信息同时对信息进行提取和组建立索引库再由检索器根据用户输入的查询关键字在索引库中快速检出文档进行文档与查询的相关度评价对将要输出的结果进行排序并将查询结果返回给用户工作原理

9、解网页上的内容它只能机械地匹配网页上的文字真正意义上的搜索引擎通常指的是收集了互联网上几千万到几十亿个网页并对网页中的每一个文字即关键词进行索引建立索引数据库的全文搜索引擎当用户查找某个关键词的时候所有由检索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查 询结果返回给用户。搜索引擎负责帮助用户用一定的方式检索索引数 据库,获取符合用户需要的WWW信息。搜索引擎还负责提取用户 相关信息,利用这些信息来提高检索服务的质量,信息挖掘在个性化 服务中起到关键作用。用户检索的过程是对前两个过程的检验,检验 该搜索引擎能否给出最准确、最广泛

10、的信息,检验该搜索引擎能否迅 速地给出用户最想得到的信息。索技术搜索弓摩依托于多种技术如网络爬虫技术检索排序技术网页处理技术大数据处理技术自然语言处理技术等为信息检索用户提供快速高相关性的信息服务搜索引擎技术的核心模块一般包括爬虫索引检索和排序等同时可添加其他过程首先在互联网中发现搜集网页信息同时对信息进行提取和组建立索引库再由检索器根据用户输入的查询关键字在索引库中快速检出文档进行文档与查询的相关度评价对将要输出的结果进行排序并将查询结果返回给用户工作原理解网页上的内容它只能机械地匹配网页上的文字真正意义上的搜索引擎通常指的是收集了互联网上几千万到几十亿个网页并对网页中的每一个文字即关键词进行索引建立索引数据库的全文搜索引擎当用户查找某个关键词的时候所有

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > PPT文档

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com