google的秘密军团 吴军 Google:瞬间搜索的秘密.docx

上传人:w**** 文档编号:9826370 上传时间:2022-04-06 格式:DOCX 页数:5 大小:31.60KB
返回 下载 相关 举报
google的秘密军团 吴军 Google:瞬间搜索的秘密.docx_第1页
第1页 / 共5页
google的秘密军团 吴军 Google:瞬间搜索的秘密.docx_第2页
第2页 / 共5页
点击查看更多>>
资源描述

《google的秘密军团 吴军 Google:瞬间搜索的秘密.docx》由会员分享,可在线阅读,更多相关《google的秘密军团 吴军 Google:瞬间搜索的秘密.docx(5页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、google的秘密军团 吴军 Google:瞬间搜索的秘密 其实,早在用户向Google输入搜寻恳求之前,搜寻的过程就已经起先了。名为Googlebot(译为搜寻爬虫或网络蜘蛛)的浩大计算机群在算法的限制下始终不停地工作,它可以阅读并抓取网络中的几十亿个网页,为其编写索引。当用户输入关键词之后,Googlebot便会在索引中查找匹配的网页,然后将关联度最高的搜寻结果呈现给用户。形象地说,互联网就是一座有数十亿藏书的图书馆,这个图书馆中有上千亿的图书书页。当我们提交一次搜寻恳求时,Google从全部书页中找到我们刚好想看的那几页。Googlebot不但抓取网页,还会抓取视频、图像等多媒体信息。作

2、为搜寻过程的第一步,Google须要将互联网这座巨大的、动态的图书馆索引数据整合到它遍布全球的数据中心里。迄今为止,Google声称它在构建索引方面已经花费了101万小时的计算时间,索引量远远超过101 000TB。毫无疑问,把不断改变中的整个互联网都“搬到自己的家里”是一项特别浩大的工作。排名算法是核心从2003年到现在,Google已经响应了近4 500亿个搜寻恳求,覆盖的语言多达146种,在用户每天的搜寻恳求中,有16%20%是新的、从未被搜寻过的。据称,搜寻恳求从用户的电脑到Google的数据中心平均须要经过2 400km的路程,但是Google通常只需0.25s便可对搜寻恳求做出回应

3、。但是Google认为还不够快,它们推出的搜寻建议和Google Instant(即搜即得)技术在用户输入第一个字或者字母时就起先动态地预料可能的关键词,并且在输入搜寻内容的同时显示搜寻结果,运用户不用输入完整的关键词就可以获得搜寻结果。Google希望在最短的时间内为用户供应关联度最高的搜寻结果。虽然速度至关重要,但是最核心的竞争力还是仍在不断改进中的搜寻算法。仅2022年一年内Google就为改善搜寻质量进行了超过50 000个试验,并最终做出了超过500处改进。目前的算法运用200种指标,包括网站内容的刚好性、权威性、网页的网址和标题等。最近的一次比较大的搜寻算法更新是2022年4月推出

4、的“企鹅”更新,旨在惩处过度运用搜寻引擎优化(SEO)技术的网站,影响了近3%的中文网站。算法确定了网页在搜寻结果中的排名和网站从搜寻引擎获得的流量。Google会在升级算法之前说明目的以及将会产生的影响,但是Google搜寻算法的细微环节却是顶级的商业机密,是保证Google在搜寻领域称王的核心。从某种程度上说,Google在扮演法官的角色,能否坚守“不作恶”的承诺备受关注。搜寻的将来谁都在用搜寻引擎,但并非谁都能用好搜寻引擎。这是因为运用搜寻引擎时须要输入关键字,而不是人类的自然语言。许多时候,我们须要在大脑中进行一次转换。目前,Google已经在跨越“关键词”的桎梏,通过用户的搜寻恳求找

5、到“基本语境”,然后通过语义试图去“理解”用户想要的最终结果。例如当用户在搜寻了几种水果之后再搜寻“苹果”,Google就会“理解”我们想找的是苹果这种水果而非苹果手机或者苹果公司。从数据到信息,再到学问,Google希望自己“整合全球信息”的使命能够更进一步:从搜寻引擎变成学问引擎,最终变成人工智能引擎。干脆给出问题的答案,而不仅仅是网页链接。Knowledge Graph(学问图谱)是Google迈向学问引擎的第一步,截至2022年5月已拥有5亿个词条(目前还不包含中文)。另外,随着Android 4.1系统推出的Google Now正在让手机上的搜寻变得智能,其实际表现令人期盼。Goog

6、le是搜寻的代名词、用户接触信息的第一入口,但是以人工智能的标准看,Google还只是一个雏形。更不用说在搜寻内容与人的关系相结合以及搜寻信息的实时性上,Google还面临着来自社交网站的巨大挑战。信息产业瞬息万变,Google搜寻的使命任重而道远。搜寻的旅程搜寻前搜寻查询的过程早在我们向Google输入搜寻关键字之前就已经起先了。Google运用名为Googlebot的“搜寻爬虫”在各个链接之间查找网页,并将网页上的数据“搬到”Google的服务器。网络就像是一本厚达数一百零一万页的书,搜寻的第一步就是为这本书编写索引。? Google目前的索引量远远大于101 000 000GB;? 迄今

7、为止,Google花费了1一百零一万小时的计算时间来构建索引。搜寻时当我们点击搜寻按钮或者按下回车键时,Google的算法会起先搜寻我们要查找的内容。? 搜寻查询历经平均2 400km的路程,以每小时几亿公里的速度为我们返回答案(在此过程中还可能访问世界各地的不同数据中心),其速度接近光速;? Google通常只需0.25s便可对搜寻恳求做出回应,而人平均每眨一次眼睛须要0.1s。排名该算法着眼于我们输入的关键词,并运用200多种指标从数一百零一万网页和内容中确定与该查询相关程度最高的答案。Google每年进行500多次改进,以完善其排名算法。指标示例如下:? 网站内容的刚好性:? 链接到某个

8、特定网站的其他网站的数量以及这些网站的权威性:? 网页上的文字:? 搜寻关键字的同义词:? 拼法检查:? 网站内容的质量:? 网页的网址和标题:? 最佳结果是网页、图片、视频、新闻报道还是特性化搜寻结果等:? 由与我们关联的人员举荐的结果。结果搜寻结果依据这些指标按相关程度从高到低排名并显示在网页上。除了能即时看到结果外,将鼠标悬停在结果右侧的箭头上,我们还可以看到这些网页的预览,因此我们可以快速确定是否要访问该网站。? 这些即时预览的平均加载时间为1/10s:? 每天在Google上进行的搜寻有几十亿次:? 从2003年起先至今,Google已解决了4 500亿个新查询恳求:? Google每天处理的搜寻中有16%20%是新的。 第5页 共5页第 5 页 共 5 页第 5 页 共 5 页第 5 页 共 5 页第 5 页 共 5 页第 5 页 共 5 页第 5 页 共 5 页第 5 页 共 5 页第 5 页 共 5 页第 5 页 共 5 页第 5 页 共 5 页

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 工作计划

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com