Python网络爬虫基础教程 教案全套 第1--4章 认识网络爬虫---解析网页数据.docx

上传人:太** 文档编号:62306187 上传时间:2022-11-22 格式:DOCX 页数:34 大小:473.99KB
返回 下载 相关 举报
Python网络爬虫基础教程 教案全套 第1--4章 认识网络爬虫---解析网页数据.docx_第1页
第1页 / 共34页
Python网络爬虫基础教程 教案全套 第1--4章 认识网络爬虫---解析网页数据.docx_第2页
第2页 / 共34页
点击查看更多>>
资源描述

《Python网络爬虫基础教程 教案全套 第1--4章 认识网络爬虫---解析网页数据.docx》由会员分享,可在线阅读,更多相关《Python网络爬虫基础教程 教案全套 第1--4章 认识网络爬虫---解析网页数据.docx(34页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、样的教育,不一样的品质黑马程序员传智教育旗下 高端IT教育品牌黑马程序员Python网络爬虫基础教程教学设计课程名称: 授课年级:授课学期:教师发名:黑马程序员传智教育旗下 I高端IT教育品牌一样的教育,不一样的品质其余局部进行分隔。查询字符串没有通用格式,它通常会以&多个参数,每个 参数的名称与值使用二进行连接。(9) frag:表示片段,用于指定访问资源时某一局部资源的名称。知识点3- 和 S教师通过PPT的方式讲解 和 S协议。(1)熟悉 协议的概念。(2)熟悉 S协议的概念。教师通过PPT的方式讲解 协议的概念。 协议全称为超文本传输协议(Hypertext Transfer Prot

2、ocol),它用于将Web服务器的超文本资源传送到浏览器中。 协议能够高效准确的传送超文 本资源,但浏览器与Web服务器的连接是一种一次性连接,它限制每次连接只 处理一个请求,这意味着每个请求都是独立的,当服务器返回本次请求的应答 后便立即关闭连接,下次请求再重新建立连接。教师通过PPT的方式讲解 S协议的概念。 S协议全称为超文本传输平安协议(Hypertext Transfer ProtocolSecure),该协议是基于 协议基础上添加了 SSL (Secure Sockets Layer平安 套接字协议),数据在传输过程中主要通过数字证书、加密算法、非对称密钥等 技术完成互联网数据传输

3、加密,实现互联网传输平安保护。知识点4- 请求格式教师通过PPT的方式讲解 请求格式。(1)熟悉 请求格式的组成。(2)熟悉请求行数据。(3)熟悉请求头数据。教师通过PPT的方式讲解 请求格式的组成。一次 通信的过程包括 请求和 响应,其中 请求是指从 浏览器 到服务器端的请求信息,它由请求行、请求头部、空行、以及请求数据 (有的也称为请求体)这四个局部组成,如下列图所示。教师通过PPT的方式讲解请求行。请求行的格式如下所示。GET /item/Python/407313 /1.1在请求行中,GET表示向服务器请求网络资源时所使用的请求方法, /item/Python/407313表示请求的U

4、RL地址, /1.1表示使用的 协议版 本。教师通过PPT的方式讲解请求头。(1) HostHost用于指定被请求资源的服务器主机名和端口号。黑马程序员传智教育旗下 高端IT教育品牌样的教育,不一样的品质User-AgentUser-Agent用于标识客户端身份,通常页面会根据不同的User-Agent信息 自动做出适配,甚至返回不同的响应内容。(2) AcceptAccept用于指定浏览器或其他客户端可以接受的MIME (Multipurpose Internet Mail Extensions,多用途互联网邮件扩展)文件类型,服务器可以根据 该字段判断并返回适当的文件格式。(3) Refe

5、rerReferer用于标识当前请求页面的来源页面地址,即表示当前页面是通过此 来源页面里的链接进入的。(4) Accept-CharsetAccept-Charset用于指定浏览器可以接受的字符集类型,在早期版本的 /1.1协议中,规定了一个默认的字符集(ISO-8859-1),但目前每一种内容类 型都有自己的默认字符集。(5) CookieCookie是在浏览器中寄存的小型数据体,它可以记载和服务器相关的用户 信息,也可以用来实现模拟登录。(6) Content-TypeContent-Type也叫互联网媒体类型(Internet Media Type)或者MIME类型, 用于告知服务器P

6、OST请求或PUT请求中的数据类型信息。知识点5- 响应格式教师通过PPT的方式讲解 响应格式。(1)熟悉 响应格式基本格式。(2)熟悉状态行的组成。(3)熟悉响应头信息。(4)熟悉响应正文。教师通过PPT的方式讲解 响应格式基本格式。服务器端发送给客户端的响应信息,由4个局部组成,分别是状态行、响 应头、空行、以及响应正文。如下列图所示。教师通过PPT的方式讲解状态行的组成。状态行的格式如下所示。 /1.1 200 0K在状态行中, /1.1表示 协议的版本号,200表示响应状态码,0K 表示响应状态码的简短描述。教师通过PPT的方式讲解响应头信息。(7) Cache-Control: mu

7、st-revalidate, no-cache, privateCache-Control表示服务端告知客户端(浏览器)当前的 响应是否可黑马程序员传智教育旗下 I高端IT教育品牌一样的教育,不一样的品质以缓存,当取值为must-revalidate表示在一个缓存过期之后,不能直接使用这 个过期的缓存,必须检验之后才能使用;当取值为no-cache表示客户端可以缓 存资源,每次使用缓存资源前都必须重新验证其有效性;当取值为private表示 响应只能被单个用户缓存,不能作为共享缓存。(8) Connection: keep-alive, closedConnection表示客户端是否使用持久

8、连接,当取值为keep-alive表示 使用持久连接;当取值为closed表示不使用持久连接。(9) Content-Encoding:gzip, compress, identityContent-Encoding表示服务端对特定媒体类型的数据进行压缩,当取值为 gzip表示采用Lempel-Ziv压缩算法;当取值为compress表示采用 Lempel-Ziv-Welch算法;当取值为identity表示数据未经压缩或修改。(10) Content-Type: text/html;charset=UTF-8Content-Type表示服务端告知客户端实际返回的内容的内容类型,当取值 为te

9、xt/html;charset=UTF-8表示服务端返回资源文件的类型为text/html,字符 编码格式为UTF-8o教师通过PPT的方式讲解响应正文。响应正文是服务器返回的具体数据,常见的数据是HTML文档。浏览器在 接收到 响应后,会根据响应正文的不同类型进行不同的处理。对于IE浏 览器来说,如果响应正文是DOC文档,这时浏览器会借助安装在本机的Word 程序翻开这份文档;如果响应正文是RAR压缩文档,这时浏览器会弹出一个下 载窗口让用户下载;如果响应正文是HTML文档,这时浏览器会在自身的窗口 中展示该文档。三、归纳总结教师回顾本节课所讲的内容,并通过测试题的方式引导学生解答问题并给

10、予指导。四、布置作业教师通过高校教辅平台(. ityxb. com)布置本节课作业以及下 节课的预习作业。第二课时(网页开发技术、网页的结构、网页的分类、网页数据的格式) 一、复习巩固教师通过上节课作业的完成情况,对学生吸收不好的知识点进行再次巩固 讲解。二、教师通过直接导入的方式导入新课上节课主要讲解了浏览器加载网页的过程、URL简介、 和 S、 请求格式和 响应格式,接下来,本节课将讲解网页开发技术、网页的结 构、网页的分类和网页数据的格式。四、新课讲解知识点1-网页开发技术教师通过PPT的方式讲解网页开发技术。(1)熟悉什么是HTMLo(2)熟悉什么是CSS。(3)熟悉什么是JavaSc

11、ript。教师通过PPT的方式讲解什么是HTMLo黑马程序员黑马程序员黑马程序员传智教育旗下 高端IT教育品牌样的教育,不一样的品质HTML的英文全称HyperText Markup Language,即超文本标记语言,是一 种用于创立网页的标准标记语言。一个HTML文档由一系列的HTML元素组成, HTML元素的组成如下列图所示。开始点结束能i内容网今天天气真而疯;元素教师通过PPT的方式讲解什么是CSSoCSS (Cascading Style Sheets)全称为层叠样式表,它用于更改HTML页面中 内容的字体、颜色、大小、间距或者添加动画及其他的效果。教师通过PPT的方式讲解什么是Ja

12、vaScriptoJavaScript是一门独立的网页脚本编程语言,它主要用于向HTML网页中添 加交互行为。知识点2.网页的结构教师通过PPT的方式讲解网页结构。(1)熟悉如何查看网页源代码。(2)熟悉HTMLDOM标准。教师通过PPT的方式讲解如何查看网页源代码。如果想要了解一个网页的结构,我们可以直接在浏览器翻开的右键菜单中 选择“检查”选项。教师通过PPT的方式讲解HTML DOM标准。根据万维网联盟(World Wide Web Consortium,简称 W3C)的 HTML DOM 标准,HTML DOM由节点组成,HTML文档的所有内容都是节点,整个HTML 文档是一个文档节点

13、,每个HTML元素是元素节点,每个HTML属性是属性节 点,每个注释是注释节点。把一个HTML文档中的所有节点组织在一起,就构 成了一棵HTMLDOM树,这些节点之间存在层级关系,HTMLDOM节点树如下 图。知识点3.网页的分类教师通过PPT的方式讲解网页分类 (1)熟悉什么是静态网页。黑马程序员传智教育旗下 I高端IT教育品牌一样的教育,不一样的品质(2)熟悉什么是动态网页。教师通过PPT的方式讲解静态网页。静态网页是纯粹HTML格式的网页,它是一个标准的HTML文件,文件的 扩展名为.htm、.html。静态网页可以包含文本、图像、声音、FLASH动画、超 链接等内容,这些内容在编写网页

14、源代码时已经确定,基本上不会发生变化, 除非网页源代码被重新修改。教师通过PPT的方式讲解动态网页。动态网页相比静态网页,动态网页有数据库支撑、包含程序以及提供与用 户交互功能,比方用户登录、用户注册、信息查询等功能,这些功能根据用户 传入不同参数网页会显示不同数据。知识点4.网页数据的格式教师通过PPT的方式讲解网页数据格式。(1)熟悉什么是非结构化数据。(2)熟悉什么是结构化数据。教师通过PPT的方式讲解什么是非结构化数据。非结构化数据是指数据结构不规那么或不完整,没有预定义的数据模型,不 方便使用数据库二维逻辑来表现的数据,即先有数据,再有结构,例如,文本、 邮箱地址、HTML文件等。教

15、师通过PPT的方式讲解什么是结构化数据。结构化数据就是能够用数据或统一的结构加以表示,具有模式的数据,即 先有结构,再有数据,例如,JS0N和XML等。四、归纳总结教师回顾本节课所讲的内容,并通过测试题的方式引导学生解答问题并给 予指导。五、布置作业教师通过高校教辅平台()布置本节课作业以及下节课 的预习作业。第三课时(Fiddler的工作原理、Fiddler的下载与安装、Fiddler界面详解、Fiddler捕获 S页面的设置、Fiddler的基本使用)一、复习巩固教师通过上节课作业的完成情况,对学生吸收不好的知识点进行再次巩固 讲解。二、教师通过直接导入的方式导入新课上节课主要讲解了网页开

16、发技术、网页的结构、网页的分类、网页数据格 式,接下来,本节课将讲解Fiddler的工作原理、Fiddler的下载与安装、Fiddler 捕获 S页面的设置、Fiddler的基本使用。五、新课讲解知识点1- Fiddler的工作原理教师通过PPT的方式讲解Fiddler的工作原理。(1) 了解什么是Fiddler。(2)掌握Fiddler的工作原理。教师通过PPT的方式讲解什么是FiddleroFiddler是一个 协议调试代理工具,它能够记录客户端和服务器之间黑马程序员传智教育旗下 高端IT教育品牌样的教育,不一样的品质的所有 请求,支持对网络传输过程中发送与接收的数据包进行截获、重 发、编

17、辑、转存等操作。教师通过PPT的方式讲解Fiddler的工作原理。Fiddler是以代理服务器的形式工作,它会在浏览器和Web服务器之间建 立代理服务器,这个代理服务器默认使用的代理地址为127.0.0.1,端口为8888o 当Fiddler启动时会自动设置代理,退出时会自动注销代理,这样就不会影响其 他程序。Fiddler的工作原理如下列图所示。Microsoft Edge Safari浏览器Fiddler代理服务器Web服务器知识点2-Fiddler的下载与安装教师通过PPT的方式讲解Fiddler的下载与安装。(1)掌握Fiddler的下载与安装。关于Fiddler的下载与安装详细步骤请

18、查看第2章节或配套PPT对应 章节内容。知识点3-Fiddler界面详解教师通过PPT的方式讲解Fiddler界面详解。启动Fiddler程序,选中Fiddler操作界面左侧的第一条信息后,此时Fiddler 的操作界面如下列图所示。Fiddler操作界面包含菜单栏、工具栏、会话窗口、Request窗口、Response 窗口、命令行窗口和状态栏共7个区域。其中会话窗口只展示了所有的采用 协议的会话(代表浏览器与服务器的通讯过程,过程中会产生多个 请求 和 响应)列表,并选中了列表中的第一条会话;Request窗口和Response 窗口展示了该会话的详细信息。关于Fiddler界面中的图标以

19、及选项说明请查看第2章节或配套PPT 对应章节内容。知识点4-Fiddler捕获 S页面的设置样的教育,不一样的品质黑马程序员传智教育旗下 高端IT教育品牌教师通过PPT的方式讲解Fiddler捕获HTPS页面的设置。关于Fiddler捕获 S页面的设置详细步骤请查看第2章节或配套 PPT对应章节内容。知识点5-Fiddler的基本使用教师通过PPT的方式讲解Fiddler的基本使用。通过捕获有道翻译的网络请求演示Fiddler的基本使用,具体详细步骤请查 看第2章节或配套PPT对应章节内容。四、归纳总结教师回顾本节课所讲的内容,并通过测试题的方式引导学生解答问题并给 予指导。五、布置作业教师

20、通过局校教辅平台()布置本节课作业以及卜革课 的预习作业。第四课时(上机练习)上机练习主要针对本章中需要重点掌握的知识点,以及在程序中容易出错 的内容进行练习,通过上机练习可以考察同学对知识点的掌握情况,对代码的 熟练程度。上机一:(考察知识点为:Fiddler的下载与安装、Fiddler捕获 S页面 的设置、Fiddler的基本使用)形式:单独完成题目:在计算机上下载安装Fiddler,要求如下:(1)从Fiddler官网下载相应的安装包,并安装Fiddler;(2)对Fiddler进行设置,使其能够捕获 S页面;(3)使用Fiddler捕获请求有道翻译时,发送的网络请求。教学后记黑马程序员

21、黑马程序员黑马程序员传智教育旗下 高端IT教育品牌样的教育,不一样的品质Python网络爬虫基础教程教学设讨课程名称:授课年级:授课学期:教邺姓名:课题名称第3章抓取静态网页数据计戈1J课时4课时黑马程序员传智教育旗下 高端IT教育品牌教学引入静态网页是早期网站中经常用到的页面,这类网页的特点是所有数据都直 接呈现在网页源代码中,对于网络爬虫来说,只要获取了静态网页的源代码, 就相当于抓取了静态网页的数据,操作比拟简单。本章将针对抓取静态网页数 据的相关内容进行详细地讲解。教学目标 使学生了解抓取静态网页的实现技术,能够说出每种实现技术的特点 使学生掌握Requests中基本请求的发送方式,能

22、够向服务器发送GET请求和POST请求 使学生掌握Requests中响应内容的处理方式,能够使用多种形式获取响应内容 使学生掌握Requests中请求头的定制方式,能够为GET请求和POST请求定制请求头 使学生掌握Requests中代理服务器的设置方式,能够为请求设置代理服务器 使学生掌握Requests中异常的处理方式,能够处理请求超时异常教学重点 发送GET请求 发送POST请求 处理响应 定制请求头 验证 Cookie 保持会话 SSL证书验证 代理服务器简介 设置代理服务器 检测代理IP的有效性 处理异常教学难点处理响应 定制请求头验证 Cookie保持会话教学方式课堂教学以PPT讲

23、授为主,并结合多媒体进行教学教 学 过 程第一课时(抓取静态网页的技术、发送GET请求、发送POST请求、处理响 应)三、创设情景,导入新课教师首先向学生提问,静态页面数据如何抓取,引出抓取静态网页的实现 技术;然后教师讲解网站对于不同数据,所使用的请求方式也不同,引出发送 GET请求和发送POST请求;最后教师向学生讲解,当请求发送成功后,网站会 将请求数据进行响应,引出处理响应。二、新课讲解知识点1 抓取静态网页的技术教师通过PPT的方式讲解抓取静态网页的技术。(1) 了解什么是urllib。(2) 了解什么是urllib3。(3) 了解什么是 Requests。样的教育,不一样的品质黑马

24、程序员传智教育旗下 I高端IT教育品牌一样的教育,不一样的品质教师通过PPT的方式讲解什么是urllib。urllib是Python最早内置的 客户端库,它涵盖了基础的网络请求功能。urllib库中主要包含了 4个用于处理URL的模块,这些模块分别是urllib.request urllib.error urllib.parse 和 urllib.robotparser,其中 urllib.request 模块封装了构 造和发送网络请求的功能,urllib.error模块封装了发送请求时出现的所有网络 异常,urilib.parse模块封装了解析网页数据的功能,urllib.robotpars

25、er模块封装 了解析robots.txt文件的功能。教师通过PPT的方式讲解什么是urllib3ourllib3是一个强大的、用户友好的Python的 客户端库,它主要服务于升级的 L1标准,增加了一些urllib库中缺少的特性,包括线程平安、 连接池、客户端TLS/SSL验证、文件分部编码上传、压缩编码等。教师通过PPT的方式讲解什么是RequestsoRequests是基于urllib3编写的库,该库自称 for Humans,直译过来的意思 是专门为人类设计的 库,对开发人员更加友好。Requests相比urllib, Requests库会在请求完网页数据后重复使用Socket套接字,并

26、没有与服务器断 开连接,而urllib库会在请求完网页数据后会断开与服务器的连接。知识点2发送GET请求教师通过PPT的方式讲解发送GET请求。(1)掌握使用Requests库发送GET请求。(2)掌握使用get()函数发送不携带URL参数的请求。(3)掌握使用get()函数发送携带URL参数的请求。教师通过PPT的方式讲解使用Requests库发送GET请求。在Requests库中,GET请求通过调用get()函数发送,该函数会根据传入的 URL构建一个请求(每个请求都是Request类的对象),将该请求发送给服务 器,并接收服务器成功响应后返回的响应信息。教师通过PPT的方式讲解使用get

27、()函数发送不携带URL参数的请求。假设GET请求的URL中不携带参数,我们在调用get()函数发送GET请求时只 需要给url参数传入指定的URL即可。教师通过PPT的方式讲解使用get()函数发送携带URL参数的请求。假设GET请求的URL中携带参数,我们在调用get()函数时可以采用两种方式 发送GET请求,第1种方式为手动构建完整的URL;第2种方式是将参数转换 为字典,之后将该字典传入params参数。知识点3-发送POST请求教师通过PPT的方式讲解发送POST请求。在Requests中,POST请求可以通过调用post。函数发送,post。函数会根据 传入的URL构建一个请求,将

28、该请求发送给服务器,并接收服务器成功响应后 返回的响应信息。知识点4-处理响应教师通过PPT的方式讲解处理响应。当服务器返回的响应状态码为200时,说明本次 请求成功,此时可以接收到由服务器返回的响应信息。在Requests库中,Response类的对象中封 装了服务器返回的响应信息,包括响应头和响应内容等。除了前面讲解的 status_code属性之外,Response类中还提供了一些其他属性。Response类的常 用属性如下表所示。课题名称第1章认识网络爬虫H2课时课时教学引入随着网络的蓬勃开展,万维网成为大量信息的载体,如何有效提取并利用 这些信息成为一个巨大的挑战。网络爬虫作为一种自

29、动采集数据技术,它凭借 自身强大的自动提取网页数据的能力,成为当下万维网收集数据高效灵活的解 决方案之一。本章主要对网络爬虫的基础知识进行详细地讲解。教学目标 使学生熟悉网络爬虫的概念及分类,能够归纳通用网络爬虫和聚焦网络爬 虫的区别 使学生了解网络爬虫的应用场景,能够列举至少3个网络爬虫的应用场景 使学生熟悉网络爬虫的Robots协议,能够说明robots.txt文件中每个选项 的含义 使学生熟悉防网络爬虫的应对策略,能够列举至少3个应对防网络爬虫的 策略 使学生掌握网络爬虫的工作原理,能够定义通用爬虫和聚焦爬虫的工作原 理 使学生熟悉网络爬虫抓取网页的流程,能够归纳网络爬虫抓取网页的完整

30、流程 使学生了解网络爬虫的实现技术,能够说出使用Python实现网络爬虫有哪 些优势 使学生熟悉网络爬虫的实现流程,能够归纳使用Python实现网络爬虫的流 程教学重点 什么是网络爬虫 防网络爬虫应对策略 网络爬虫的工作原理 网络爬虫抓取网页的流程 Python实现网络爬虫的流程教学难点无教学方式课堂教学以PPT讲授为主,并结合多媒体进行教学教 学 过 程第一课时(什么是网络爬虫、网络爬虫的应用场景、Robots协议、防爬虫应对 策略)、创设情景,导入新课在学习网络爬虫之前,我们需要了解什么是网络爬虫?教师首先讲解网络 爬虫的概念,其次讲解网络爬虫历经几十年的开展,衍生出的爬虫类型,了解 了什

31、么是网络爬虫,然后讲解网络爬虫的应用场景,最后讲解Robots协议以及 防爬虫对应策略。二、新课讲解知识点1什么是网络爬虫教师通过PPT的方式讲解什么是网络爬虫。(1)熟悉网络爬虫的概念。(2)熟悉网络爬虫的分类。教师通过PPT的方式讲解网络爬虫的概念。黑马程序员传智教育旗下 高端IT教育品牌样的教育,不一样的品质属性说明黑马程序员黑马程序员黑马程序员传智教育旗下 高端IT教育品牌样的教育,不一样的品质status code获取服务器返回的状态码text获取字符串形式的响应内容content 获取二进制形式的响应内谷url获取响应的最终URLrequest 获取请求方式headers获取响应头

32、encoding设置或获取响应内谷的编码格式,与text属性搭配使用cookies 获取服务器返回的Cookie三、归纳总结教师回顾本节课所讲的内容,并通过测试题的方式引导学生解答问题并给 予指导。四、布置作业教师通过高校教辅平台(. ityxb. com)布置本节课作业以及下 节课的预习作业。第二课时(定制请求头、验证Cookie、保持会话、SSL证书验证) 一、复习巩固教师通过上节课作业的完成情况,对学生吸收不好的知识点进行再次巩固 讲解。二、教师通过直接导入的方式导入新课上节课主要讲解了抓取静态页面的技术、发送GET请求、发送POST请求、 处理响应,接下来,本节课将讲解定制请求头、验证

33、Cookie保持会话、SSL 证书验证。六、新课讲解知识点1-定制请求头教师通过PPT的方式讲解定制请求头。(1)掌握如何查看请求头。(2)掌握如何设置请求头。教师通过PPT的方式讲解如何查看请求头。翻开Fiddler工具,在Chrome浏览器中加载知乎网登录页面,加载完成后 切换至Fiddler工具,在窗口左侧选中刚刚发送的 请求,并在窗口右侧查 看该请求对应的请求头信息,具体如下列图所示。Ale Edit gules lools View HelpQReplay X Go * Stream Decode Keep: All sessions ” Any Process 的 Find 瓜 S

34、ave 晚 Browse * Clear Cache /T TextWizard34567091112# 身031_|国a层.,语屋 AO3-H34567091112# 身031_|国a层.,语屋 AO3-HHos 4Tumd tc wwv/.douban.conTumd to I accounts.douban .con rng3,doubanio ITunnel to ITumei tq I fundn.dcxjbdn.con music, douban.conTunneJM douban ITumd td I quri.f.36O.cr ssl.google-analytcs.Tumd

35、U 三Tumd to ITunnel tq I川 FiddterSaiptfLloa: 1 ritc-s三 TimeineGet Started |() Stabsbcs、Inspectorsy AutoReaponder国 Canpoaer国 fidtfcr Orchestra BetaEQ兼(sJ TextViev* SyntoxView V/ebFonns HexViewAu thCookies Raw JSON XMLRequest HeadersRaw】(HeaderDefinitionsGST / /1. 1Cache-Control: max-age-0CbentAccept:

36、texttjnlppicaton/xhtnil+xrd,appScatjon/xmi;qO.9,irndge/dvifrrnaQe/AebprrndQe/apngf*/*;qO.8,dppiication/si9ried-cxchanQe;Accept-Encodng: gzp, deflate, br| User-Agent: Mozila/S.O (kf/ndoAS NT 6.1; Wn64; x64) AppleWebKrt/S37.36 (KHTM., ike Gecko) Chrome/90.0.4430.212 Safyi/537.36 | CooMesQ CookeS _gads

37、ID-58611d6fad2ac3:T-1569201790:S-ALNI_MaMk2266MPrflaXc40Nw3YMf(XIA I ;I上图中可以看出,字段User-Agent的值为Mozilla/5.0 (Windows NT 6.1;黑马程序员传智教育旗下 I高端IT教育品牌一样的教育,不一样的品质Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36o教师通过PPT的方式讲解如何设置请求头。在requests中,设置请求头的方式非常简单,只需要在调用请求函数时为 he

38、aders参数传入定制好的请求头即可,一般是将请求头中的字段与值分别作为 字典的键与值,以字典的形式传给headers参数。知识点2验证Cookie教师通过PPT的方式讲解验证Cookieo在Requests库中,发送请求时可以通过两种方式携带Cookie, 一种方式直 接将包含Cookie信息的请求头传入请求函数的headers参数;另一种方式是将 Cookie信息传入请求函数的cookies参数。知识点3保持会话教师通过PPT的方式讲解保持会话。在Requests中,Session类负责管理会话,通过Session类的对象不仅可以 实现在同一会话内发送屡次请求的功能,还可以在跨请求时保持C

39、ookie信息。知识点4-SSL证书验证教师通过PPT的方式讲解SSL证书验证。当使用Requests调用请求函数发送请求时,由于请求函数的verify参数的 默认值为True,所以每次请求网站时默认都会进行SSL证书的验证。不过,有 些网站可能没有购买SSL证书,或者SSL证书失效,当程序访问这类网站时会 因为找不到SSL证书而抛出SSLError异常。四、归纳总结教师回顾本节课所讲的内容,并通过测试题的方式引导学生解答问题并给 予指导。五、布置作业教师通过高校教辅平台( :tch.ityxb )布置本节课作业以及下节课 的预习作业。第三课时(代理服务器简介、设置代理服务器、检测代理IP的有

40、效性、处理 异常)一、复习巩固教师通过上节课作业的完成情况,对学生吸收不好的知识点进行再次巩固 讲解。二、教师通过直接导入的方式导入新课上节课主要讲解了定制请求头、验证Cookie、保持会话、SSL证书验证, 接下来,本节课将讲解代理服务器简介、设置代理服务器、检测代理IP的有效 性、处理异常。七、新课讲解知识点1-代理服务器简介教师通过PPT的方式讲解代理服务器简介。(1)掌握什么代理服务器。(2)掌握代理服务器的分类。教师通过PPT的方式讲解什么是代理服务器。为防止网络爬虫被封IP,我们可以利用某种技术伪装IP地址,让服务器识黑马程序员传智教育旗下 I高端IT教育品牌一样的教育,不一样的品

41、质别不出由哪台设备发起的请求,这种技术就是代理服务器,代理服务器(Proxy Server)用于代理客户端用户去服务器端获得网络信息。教师通过PPT的方式讲解代理服务器的分类。(1)高度匿名代理:会将数据包原封不动地转发给服务器,让服务器认为 当前访问的用户只是一个普通客户端,而不是代理服务器,并记录代理服务器 的IP地址。(2)普通匿名代理:会对数据包进行一些改动,这时服务器可能会发现当 前访问的用户是代理服务器,也可能会追查到客户端的真实IP地址。(3)透明代理:不仅会改动数据包,还会暴露当前访问客户端的真实IP 地址。这类代理除了通过缓存提升访问速度,通过内容过滤提高平安性之外, 并没有

42、其他显著的作用,常见的场景就是内网中的硬件防火墙。知识点2.设置代理服务器教师通过PPT的方式讲解设置代理服务器。(1)掌握获取代理IP。(2)掌握设置代理IP。教师通过PPT的方式讲解获取代理IPo(1)获取免费代理IP免费代理IP基本没有本钱,我们可以从免费代理网站上,比方快代理、全 网代理IP等,找一些免费代理IP,测试可用后便可以收集起来备用,但使用这 种方式获取的可用代理IP相对较少。(2)获取付费代理IP互联网上存在许多代理商,用户付费后便可以获得一些高质量的代理IPoADSL 拨号ADSL通过拨号的方式上网,需要输入ADSL账号和密码,每次拨号都会更 换一个新的IP地址,不过AD

43、SL拨号操作起来比拟麻烦,每切换一次IP地址就 要重新拨号,重拨期间还会处于短暂断网的状态。教师通过PPT的方式讲解设置代理IPo在Requests中,设置代理IP的方式非常简单,我们只需要在调用请求函数 时为proxies参数传入一个字典,该字典中包含了所需要的代理IP,其中字典的 键为代理类型( 或 s),字典的值为“代理类型:IP地址:端口号”格 式的字符串。例如,定义一个包含两个代理IP的字典,代码如下。proxies = : f :/10el0.1.10:3128 s *: * s:/10.10.1.10:10801 r知识点3.检测代理IP的有效性教师通过PPT的方式讲解检测代理I

44、P有效性。互联网上有很多免费的代理IP,这些IP地址并不都是有效的,为此我们需 要对获取的免费IP地址进行检测,确定这个IP地址是否有效。检测代理IP的 过程比拟简单,我们需要先遍历提供的所有代理IP,分别将取出来的每个代理 IP依次设为代理,再通过该IP地址向网站发送请求,如果请求成功,那么说明该 IP地址是有效的;如果请求失败,那么说明该IP地址是无效的,需将该IP地址进 行剔除。知识点4.处理异常黑马程序员传智教育旗下 I高端IT教育品牌一样的教育,不一样的品质教师通过PPT的方式讲解处理异常。requests.exceptions模块中定义了很多异常类型,关于常见异常类型的说明 如下表

45、所示。异常类型说明RequestException请求异常ConnectionError连接错误 Error发生 错误URLRequired发出请求需要有效的URLTooManyRedirects请求超过配置的最大重定向数ConnectTimeout尝试连接到远程服务器时请求超时ReadTimeout服务器在规定的时间内没有发送任何数据Timeout请求超时四、归纳总结教师回顾本节课所讲的内容,并通过测试题的方式引导学生解答问题并给 予指导。五、布置作业教师通过高校教辅平台( :/tch.ityxb )布置本节课作业以及下节课 的预习作业。第四课时(上机练习)上机练习主要针对本章中需要重点掌握的知识点,以及在程序中容易出错 的内容进行练习,通过上机练习可以考察同学对知识点的掌握情况,对代码的 熟练程度。上机一:(考察知识点为:发送GET请求、发送POST请求、处理响应、 定制请求头)形式:单独完成题目:在Python环境中安装Requests库,并完成以下要求:(1)使用Requests库发送GET请求和POST请求;(2)实现请求头的定制;(3)掌握验证Cookie、保持会话和SSL证书的验证;(4)掌握如何设置代理IP;(5)完成实践工程:抓取黑马程序员论坛网的数据。教学后记黑马程序员传智教育旗下 高端IT教育品牌样的教育,不一样的品质黑马程序员Python网络爬

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 解决方案

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com