网络数据采集技术概述.pptx

上传人:wuy****n92 文档编号:69434325 上传时间:2023-01-04 格式:PPTX 页数:12 大小:839.56KB
返回 下载 相关 举报
网络数据采集技术概述.pptx_第1页
第1页 / 共12页
网络数据采集技术概述.pptx_第2页
第2页 / 共12页
点击查看更多>>
资源描述

《网络数据采集技术概述.pptx》由会员分享,可在线阅读,更多相关《网络数据采集技术概述.pptx(12页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、网络爬虫简介网络爬虫简介爬虫与反爬技术目录目录爬虫技术数据采集流程网页分析动态页面抓取可视化爬虫爬虫框架案例反爬技术反爬技术及解决方案前言前言robots.txt:Robots协议被称为爬虫协议,或机器人协议。是国际互联网界通行的道德规范。User-agent:用于描述搜索引擎robot的名字;Disallow:禁止robot访问该网站的目录或文件;Allow:允许robot访问该网站的目录或文件;sitemap.xml/txt/html/.:Sitemaps协议使网站能够告知搜索引擎网站中可供抓取的网址。自动生成:更方便地了解一个网站的内容、布局、架构。主动提交:向百度、Google、雅虎、

2、和微软等提交,被搜索引擎收录。数据采集流程数据采集流程需求分析:业务类型/方向决定抓取策略和抓取频率。(干什么用)抓取内容:具体需要什么数据/字段。(怎么用)数据来源:数据来源于具体网站或其他。抓取方式:获取数据的方式、网页结构分析、API等。代码实现:自定义或开源爬虫框架。数据清洗:根据业务具体情况转换数据格式、类型,进行数据计算等。数据清洗分为入库前点清洗和入库后点清洗。数据存储:写文件或入库方式,远程数据入库,数据加密等。爬虫任务分发:分布式爬虫、多线程爬虫。反爬策略、日志管理、监控报警等。网页分析网页分析数据抓取方式网页移动网页移动客户端API网页解析正则XpathBeautiful

3、SoupJson格式解析网页编码动态页面抓取动态页面抓取JS渲染页面Web kitRender类Ajax请求IframeSelenium库重定向Status_codeHtml meta 的refreshjs可视化爬虫可视化爬虫Import.ioPortia八爪鱼集搜客造数BBD爬虫框架爬虫框架Scrapy框架:案例案例1:58同城同城-简历中心简历中心url:E7%AE%80%E5%8E%86%E4%B8%AD%E5%BF%83案例案例2:阿里巴巴:阿里巴巴-搜索搜索url:httpcee4baeec7f8.htmlSet-Cookie_csrf反爬技术反爬技术User_agent判断来源根据IP访问频率判断,封锁IP或者账号验证码识别Pillow库Tesseract库Numpy机器学习根据实际成本制定策略频繁变更网页结构非正常请求提供虚假信息(隐含输入字段或缺失参数)谢谢谢谢!

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com