ok Python网络数据采集.pdf-得力文库

资源描述

《ok Python网络数据采集.pdf》由会员分享，可在线阅读，更多相关《ok Python网络数据采集.pdf（222页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、图灵社区的电子书没有采用专有客户端，您可以在任意设备上，用自己喜欢的浏览器和PDF阅读器进行阅读。但您购买的电子书仅供您个人使用，未经授权，不得进行传播。我们愿意相信读者具有这样的良知和觉悟，与我们共同保护知识产权。如果购买者有侵权行为，我们可能对该用户实施包括但不限于关闭该帐号等维权措施，并可能追究法律责任。 ? 图灵程序设计丛书人民邮电出版社北京 Web Scraping with Python Collecting Data from the Modern Web 美Ryan Mitchell 著陶俊杰陈小莉译 Python网络数

2、据采集 Beijing Cambridge Farnham Kln Sebastopol Tokyo OReilly Media, Inc.授权人民邮电出版社出版内容提要本书采用简洁强大的 Python 语言，介绍了网络数据采集，并为采集新式网络中的各种数据类型提供了全面的指导。第一部分重点介绍网络数据采集的基本原理：如何用 Python 从网络服务器请求信息，如何对服务器的响应进行基本处理，以及如何以自动化手段与网站进行交互。第二部分介绍如何用网络爬虫测试网站，自动化处理，以及如何通过更多的方式接入网络。本书适合需要采集 Web 数据的相关软件开发人员和研究人员阅读。定

3、价：59.00元读者服务热线：(010)51095186转600印装质量热线：(010)81055316 反盗版热线：(010)81055315 广告经营许可证：京崇工商广字第 0021 号著美 Ryan Mitchell 译陶俊杰陈小莉责任编辑岳新欣执行编辑李敏责任印制杨林杰人民邮电出版社出版发行北京市丰台区成寿寺路11号邮编100164电子邮件网址北京印刷开本：80010001/16 印张：13.5 字数：280千字 2016年 3 月第 1 版印数：1 4 000册 2016年 3 月北京第 1次印刷著作权合同登记号图字：01-2015-8108号 iii 版权

4、声明 2015 by Ryan Mitchell. Simplifi ed Chinese Edition, jointly published by OReilly Media, Inc. and Posts 因为每个 MySQL 实例可以有多个数据库，所以使用某个数据库之前需要指定数据库的名称： USE scraping; 从现在开始（直到关闭 MySQL 链接或切换到另一个数据库之前），所有的命令都运行在这个新的“scraping”数据库里面。所有操作看着都非常简单。那么，在数据库里创建数据表的方法应该也类似吧？让我们在数据库里创建一个表来存储采集的网页： CREATE TAB

5、LE pages; 结果显示错误： ERROR 1113 (42000): A table must have at least 1 column 和数据库不同，MySQL 数据表必须至少有一列，否则不能创建。为了在 MySQL 里定义字段（数据列），你必须在CREATE TABLE 语句后面，把字段的定义放进一个带括号的、内部由逗号分隔的列表中： CREATE TABLE pages (id BIGINT(7) NOT NULL AUTO_INCREMENT, title VARCHAR(200), content VARCHAR(10000), created TIMESTAMP D

6、EFAULT CURRENT_TIMESTAMP, PRIMARY KEY (id); 每个字段定义由三部分组成：名称（id、title、created等）数据类型（BIGINT(7)、VARCHAR、TIMESTAMP）其他可选属性（NOT NULL AUTO_INCREMENT）在字段定义列表的最后，还要定义一个“主键” （key）。MySQL 用这个主键来组织表的内容，便于后面快速查询。在本章后面的内容里，我将介绍如何调整这些主键以提高数据库的查询速度，但是现在，用表的id列作为主键就可以。语句执行之后，你可以用DESCRIBE查看数据表的结构： DESCRIBE pag

8、rows in set (0.00 sec) 当然，这还是一个空表。你可以在 pages 表里插入一些测试数据，如下所示： INSERT INTO pages (title, content) VALUES (Test page title, This is some te st page content. It can be up to 10,000 characters long.); 需要注意的是，虽然 pages 表里有四个字段（id、title、content、created），但实际上你只需要插入两个字段（title和content）的数据即可。因为id字段是自动递增的（每次

9、新插入数据行时 MySQL 自动增加 1），通常不用处理。另外，created字段的类型是 timestamp，默认就是数据加入时的时间戳。当然，我们也可以自定义四个字段的内容： INSERT INTO pages (id, title, content, created) VALUES (3, Test page title, This is some test page content. It can be up to 10,000 characters long., 2014- 09-21 10:25:32); 只要你定义的整数在数据表的id字段里没有，它就可以顺利插入数据表。但是，

10、这么做非常不好；除非万不得已（比如程序中断漏了一行数据），否则让 MySQL 自己处理id和 timestamp字段。现在表里有一些数据了，你可以用很多方法来选择这些数据。下面是几个SELECT语句的示例： SELECT * FROM pages WHERE id = 2; 这条语句告诉 MySQL， “从 pages 表中把id字段中等于 2 的整行数据全挑选出来” 。这个星号（*）是通配符，表示所有字段，这行语句会把满足条件（WHERE id = 2）的所有字段都显示出来。如果id字段里没有任何一行等于 2，就会返回一个空集。例如，下面这个不区分大小写的查询，会返回title

11、字段里包含“test”的所有行（%符合表示 MySQL 字符串通配符）的所有字段： SELECT * FROM pages WHERE title LIKE %test%; 但是，如果你的表有很多字段，而你只想返回部分字段怎么办？你可以不用星号，而用下面的方式： SELECT id, title FROM pages WHERE content LIKE %page content%; 这样就只会返回title字段包含“page content”的所有行的id和title两个字段了。 DELETE语句语法与SELECT语句类似：存储数据 71 DELETE FROM pages WHER

12、E id = 1; 由于数据库的数据删除后不能恢复，所以在执行DELETE语句之前，建议用SELECT确认一下要删除的数据（本例中，就是用SELECT * FROM pages WHERE id = 1查看），然后把 SELECT *换成DELETE就可以了，这会是一个好习惯。很多程序员都有过一些DELETE误操作的伤心往事，还有一些恐怖故事就是有人慌乱中忘了在语句中放WHERE，结果把所有客户数据都删除了。别让这种事发生在你身上！还有一个需要介绍的语句是UPDATE： UPDATE pages SET title=A new title, content=Some new cont

13、ent WHERE id=2; 结合本书的主题，后面我们就只用这些基本的 MySQL 语句，做一些简单的数据查询、创建和更新工作。如果你对这个强大数据库的命令和技术感兴趣，推荐你去看 Paul DuBois 的 MySQL Cookbook（。 5.3.3与Python整合 Python 没有内置的 MySQL 支持工具。不过，有很多开源的库可以用来与 MySQL 做交互， Python 2.x 和 Python 3.x 版本都支持。最有名的一个库就是 PyMySQL（ PyMySQL/PyMySQL）。写到这里的时候，PyMySQL 的版本是 0.6.2，你可以用下面的命令下载并安装

14、它： $ curl -L | tar xz $ cd PyMySQL-PyMySQL-f953785/ $ python setup.py install 如果需要更新，请检查最新版的 PyMySQL，并修改第一行下载链接中的版本号进行更新。安装完成之后，你就可以使用 PyMySQL 包了。如果你的 MySQL 服务器处于运行状态，应该就可以成功地执行下面的命令（记得把 root 账户密码加进去）： import pymysql conn = pymysql.connect(host=127.0.0.1, unix_socket=/tmp/mysql.sock, user=root, p

15、asswd=None, db=mysql) cur = conn.cursor() cur.execute(USE scraping) cur.execute(SELECT * FROM pages WHERE id=1) print(cur.fetchone() cur.close() conn.close() 这段程序有两个对象：连接对象（conn）和光标对象（cur）。 72 第 5 章连接 / 光标模式是数据库编程中常用的模式，不过刚刚接触数据库的时候，有些用户很难区分两种模式的不同。连接模式除了要连接数据库之外，还要发送数据库信息，处理回滚操作（当一个查询或一组查询被中断时，

16、数据库需要回到初始状态，一般用事务控制手段实现状态回滚），创建新的光标对象，等等。而一个连接可以有很多个光标。一个光标跟踪一种状态（state）信息，比如跟踪数据库的使用状态。如果你有多个数据库，且需要向所有数据库写内容，就需要多个光标来处理。光标还会包含最后一次查询执行的结果。通过调用光标函数，比如cur.fetchone()，可以获取查询结果。用完光标和连接之后，千万记得把它们关闭。如果不关闭就会导致连接泄漏（connection leak），造成一种未关闭连接现象，即连接已经不再使用，但是数据库却不能关闭，因为数据库不能确定你还要不要继续使用它。这种现象会一直耗费数据库

17、的资源，所以用完数据库之后记得关闭连接！刚开始的时候，你最想做的事情可能就是把采集的结果保存到数据库里。让我们用前面维基百科爬虫的例子来演示一下如何实现数据存储。在进行网络数据采集时，处理 Unicode 字符串是很痛苦的事情。默认情况下，MySQL 也不支持 Unicode 字符处理。不过你可以设置这个功能（这么做会增加数据库的占用空间）。因为在维基百科上我们难免会遇到各种各样的字符，所以最好一开始就让你的数据库支持 Unicode： ALTER DATABASE scraping CHARACTER SET = utf8mb4 COLLATE = utf8mb4_unicod

18、e_ci; ALTER TABLE pages CONVERT TO CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci; ALTER TABLE pages CHANGE title title VARCHAR(200) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci; ALTER TABLE pages CHANGE content content VARCHAR(10000) CHARACTER SET utf8mb4 CO LLATE utf8mb4_unicode_ci; 这四行语句改变的

19、内容有：数据库、数据表，以及两个字段的默认编码都从utf8mb4 （严格说来也属于 Unicode，但是对大多数 Unicode 字符的支持都非常不好）转变成了 utf8mb4_unicode_ci。你可以在title或content字段中插入一些德语变音符（umlauts）或汉语字符，如果没有错误就表示转换成功了。现在数据库已经准备好接收维基百科的各种信息了，你可以用下面的程序来存储数据： from urllib.request import urlopen from bs4 import BeautifulSoup import re import datetime import r

20、andom 存储数据 73 import pymysql conn = pymysql.connect(host=127.0.0.1, unix_socket=/tmp/mysql.sock, user=root, passwd=None, db=mysql, charset=utf8) cur = conn.cursor() cur.execute(USE scraping) random.seed(datetime.datetime.now() def store(title, content): cur.execute(INSERT INTO pages (title, content)

21、 VALUES (%s, %s), (title, content) mit() def getLinks(articleUrl): html = urlopen(http:/en.wikipedia.org+articleUrl) bsObj = BeautifulSoup(html) title = bsObj.find(h1).get_text() content = bsObj.find(div, id:mw-content-text).find(p).get_text() store(title, content) return bsObj.find(div, id:bodyCont

22、ent).findAll(a, href=pile(/wiki/)(?!:).)*$) links = getLinks(/wiki/Kevin_Bacon) try: while len(links) 0: newArticle = linksrandom.randint(0, len(links)-1).attrshref print(newArticle) links = getLinks(newArticle) finally: cur.close() conn.close() 这里有几点需要注意：首先，charset=utf8要增加到连接字符串里。这是让连接conn把所有发送到数据

23、库的信息都当成 UTF-8 编码格式（当然，前提是数据库默认编码已经设置成 UTF-8）。然后要注意的是store函数。它有两个参数：title和content，并把这两个参数加到了一个INSERT语句中并用光标执行，然后用光标进行连接确认。这是一个让光标与连接操作分离的好例子；当光标里存储了一些数据库与数据库上下文（context）的信息时，需要通过连接的确认操作先将信息传进数据库，再将信息插入数据库。最后要注意的是，finally语句是在程序主循环的外面，代码的最底下。这样做可以保证，无论程序执行过程中如何发生中断或抛出异常（当然，因为网络很复杂，你得随时准备遭遇异常）

24、，光标和连接都会在程序结束前立即关闭。无论你是在采集网络，还是处理一个打开连接的数据库，用try.finally都是一个好主意。虽然 PyMySQL 规模并不大，但是里面有一些非常实用的函数本书并没有介绍。具体请参考 Python 的 DBAPI 标准文档（http:/legacy.python.org/dev/peps/pep-0249/）。 74 第 5 章 5.3.4数据库技术与最佳实践有些人的整个职业生涯都在学习、优化和创造数据库。我不是这类人，这本书也不是那类书。但是，和计算机科学的很多主题一样，有一些技巧你其实可以很快地学会，它们可以让你的数据库变得更高效，让应用的运

25、行速度更快。首先，给每个数据表都增加一个id字段，不会出什么问题。MySQL 里所有的表都至少有一个主键（就是 MySQL 用来排序的字段），因此 MySQL 知道怎么组织主键，通常数据库很难智能地选择主键。究竟是用人造的id字段作为主键，还是用那些具有唯一性属性的字段作为主键，比如username字段，数据科学家和软件工程师已经争论了很多年，但我更倾向于主动创建一个id字段。这样做的原因一两句话难以说清，不过对于一些非企业级系统的数据库，你还是应该用自增的id字段作为主键。其次，用智能索引。字典（指的是常用的工具书，不是指 Python 的字典对象）是按照字母顺序排列的单词

26、表。这样做让你在任何时候都能快速地找到一个单词，只要你知道这个单词是如何拼写的就行。你还可以把字典想象成另一种形式，将单词按照单词含义的字母顺序进行排列。如果你没玩过一些奇怪的游戏，比如危险边缘（Jeopardy）智力游戏，就不能理解游戏的含义，这样的字典就没法用了。但是在数据库查询的工作里，这种按照字段含义进行排序的情况时有发生。比如，你的数据库里可能有一个字段经常要查询： SELECT * FROM dictionary WHERE definition=A small furry animal that says meow; +-+-+-+ | id | word | defin

27、ition | +-+-+-+ | 200 | cat | A small furry animal that says meow | +-+-+-+ 1 row in set (0.00 sec) 你可能非常想给这个表增加一个额外的键（除了已经存在的主键id之外），让查询变得更快。但是，增加额外的索引需要占用更多的空间，而且插入新行的时候也需要花费更多的时间。为了让事情简单点儿，你可以让 MySQL 只检索查询列的一部分字符。比如下面的命令创建了一个查询 defi nition字段前 16 个字符的智能索引： CREATE INDEX definition ON dictionary

29、d | int(11) | NO | PRI | NULL | auto_increment | | url | varchar(200) | YES | | NULL | | | phrase | varchar(200) | YES | | NULL | | +-+-+-+-+-+-+ 每当你发现一个词组就在数据库中增加一行，同时把 URL 记录下来。但是，如果把这些数据分成三个表，你就可以看到数据库占用的空间会大大降低： DESCRIBE phrases +-+-+-+-+-+-+ | Field | Type | Null | Key | Default | Extra | +-+-

30、+-+-+-+-+ | id | int(11) | NO | PRI | NULL | auto_increment | | phrase | varchar(200) | YES | | NULL | | +-+-+-+-+-+-+ DESCRIBE urls +-+-+-+-+-+-+ | Field | Type | Null | Key | Default | Extra | +-+-+-+-+-+-+ | id | int(11) | NO | PRI | NULL | auto_increment | | url | varchar(200) | YES | | NULL | |

31、 +-+-+-+-+-+-+ DESCRIBE foundInstances +-+-+-+-+-+-+ | Field | Type | Null | Key | Default | Extra | +-+-+-+-+-+-+ | id | int(11) | NO | PRI | NULL | auto_increment | | urlId | int(11) | YES | | NULL | | | phraseId | int(11) | YES | | NULL | | | occurrences | int(11) | YES | | NULL | | +-+-+-+-+-+-+

32、虽然表定义的结构变复杂了，但是新增的字段就是id字段。它们是整数，不会占用很多空间。另外，每个 URL 和词组都只会储存一次。除非你安装了第三方包或保存详细的数据库日志，否则你无法掌握数据库里数据增加、更新或删除的具体时间。因此，如果需要对数据可用的空间、变更的频率和变更的重要性进行分析，你应该考虑在数据新增、更新或删除时加一个时间戳。 5.3.5MySQL里的“六度空间游戏” 在第 3 章，我们介绍过“维基百科六度分隔”问题，其目标是通过一些词条链接寻找两个词条间的联系（即找出一条链接路径，只要点击链接就可以从一个维基词条到另一个维基词条）。为了解决这个问题，我们不仅需要建

33、立网络爬虫采集网页（之前我们已经做过），还要把 76 第 5 章采集的信息以某种形式存储起来，以便后续进行数据分析。前面介绍过的自增的id字段、时间戳以及多份数据表在这里都要用到。为了确定最合理的信息存储方式，你需要先想想游戏规则。一个链接可以轻易地把页面 A 连接到页面 B。同样也可以轻易地把页面 B 连接到页面 A，不过这可能是另一条链接。我们可以这样识别一个链接，即“页面 A 存在一个链接，可以连接到页面 B” 。也就是INSERT INTO links (fromPageId, toPageId) VALUES (A, B);（其中， “A”和“B”分别表示页面的 ID 号

34、）。因此需要设计一个带有两张数据表的数据库来分别存储页面和链接，两张表都带有创建时间和独立的 ID 号，代码如下所示： CREATE TABLE wikipedia.pages ( id INT NOT NULL AUTO_INCREMENT, url VARCHAR(255) NOT NULL, created TIMESTAMP NOT NULL DEFAULT CURRENT_TIMESTAMP, PRIMARY KEY (id); CREATE TABLE wikipedia.links ( id INT NOT NULL AUTO_INCREMENT, fromPageId I

35、NT NULL, toPageId INT NULL, created TIMESTAMP NOT NULL DEFAULT CURRENT_TIMESTAMP, PRIMARY KEY (id); 注意，这里和前面打印页面标题的爬虫不同，我没有在页面数据表里使用页面标题字段，为什么这么做呢？其实是因为页面标题要在你进入页面后读取内容才能抓到。那么，如果我们想创建一个高效的爬虫来填充这些数据表，那么只存储页面的链接就可以保存词条页面了，甚至不需要访问词条页面。当然并不是所有网站都具有这个特点，但是维基百科的词条链接和对应的页面标题是可以通过简单的操作进行转换的。例如，http:/en

36、.wikipedia.org/wiki/Monty_Python 的后面就是页面标题“Monty Python” 。下面的代码会把“贝肯数” （一个页面与凯文贝肯词条页面的链接数）不超过 6 的维基百科页面存储起来： from bs4 import BeautifulSoup import re import pymysql conn = pymysql.connect(host=127.0.0.1, unix_socket=/tmp/mysql.sock,user= root, passwd=None, db=mysql, charset=utf8) cur = conn.curso

37、r() cur.execute(USE wikipedia) def insertPageIfNotExists(url): cur.execute(SELECT * FROM pages WHERE url = %s, (url) 存储数据 77 if cur.rowcount = 0: cur.execute(INSERT INTO pages (url) VALUES (%s), (url) mit() return cur.lastrowid else: return cur.fetchone()0 def insertLink(fromPageId, toPageId): cur.e

38、xecute(SELECT * FROM links WHERE fromPageId = %s AND toPageId = %s, (int(fromPageId), int(toPageId) if cur.rowcount = 0: cur.execute(INSERT INTO links (fromPageId, toPageId) VALUES (%s, %s), (int(fromPageId), int(toPageId) mit() pages = set() def getLinks(pageUrl, recursionLevel): global pages if re

39、cursionLevel 4: return; pageId = insertPageIfNotExists(pageUrl) html = urlopen(http:/en.wikipedia.org+pageUrl) bsObj = BeautifulSoup(html) for link in bsObj.findAll(a, href=pile(/wiki/)(?!:).)*$): insertLink(pageId, insertPageIfNotExists(link.attrshref) if link.attrshref not in pages: # 遇到一个新页面，加入集

40、合并搜索里面的词条链接 newPage = link.attrshref pages.add(newPage) getLinks(newPage, recursionLevel+1) getLinks(/wiki/Kevin_Bacon, 0) cur.close() conn.close() 用递归实现那些需要运行很长时间的代码，通常是一件复杂的事情。在本例中，变量 recursionLevel被传递到getLinks函数里，用来跟踪函数递归的次数（每完成一次递归， recursionLevel就加 1）。当recursionLevel值到 5 的时候，函数会自动返回，不会继续递归。这个

41、限制可以防止数据太大导致内存堆栈溢出。需要注意的是，这个程序可能要运行好几天才会结束。虽然我自己运行过它，但是我的数据库里只保持了一点点贝肯数不超过 6 的词条，因为维基百科服务器会拒绝程序的请求。但是，这些数据对后面分析维基百科词条的链接路径问题已经足够了。关于这个问题的补充和最终答案，将在第 8 章关于有向图的问题里介绍。 5.4Email 与网页通过 HTTP 协议传输一样，邮件是通过 SMTP（Simple Mail Transfer Protocol，简 78 第 5 章单邮件传输协议）传输的。而且，和你用网络服务器的客户端（浏览器）处理那些通过 HTTP 协议传输的网页一

42、样，Email 服务器也有客户端，像 Sendmail、Postfi x 和 Mailman 等，都可以收发邮件。虽然用 Python 发邮件很容易，但是需要你连接那些正在运行 SMTP 协议的服务器。在服务器或本地机器上设置 SMTP 客户端有点儿复杂，也超出了本书的介绍范围，但是有很多资料可以帮你解决问题，如果你用的是 Linux 或 Mac OS X 系统，参考资料会更丰富。下面的代码运行的前提是你的电脑已经可以正常地运行一个 SMTP 客户端。（如果要调整代码用于远程 SMTP 客户端，请把localhost改成远程服务器地址。）用 Python 发一封邮件只要 9 行

43、代码： import smtplib from email.mime.text import MIMEText msg = MIMEText(The body of the email is here) msgSubject = An Email Alert msgFrom = msgTo = s = smtplib.SMTP(localhost) s.send_message(msg) s.quit() Python 有两个包可以发送邮件：smtplib和email。 Python 的email模块里包含了许多实用的邮件格式设置函数，可以用来创建邮件“包裹” 。下面的示例中使用的MIMET

44、ext对象，为底层的 MIME（Multipurpose Internet Mail Extensions，多用途互联网邮件扩展类型）协议传输创建了一封空邮件，最后通过高层的 SMTP 协议发送出去。MIMEText对象msg包括收发邮箱地址、邮件正文和主题，Python 通过它就可以创建一封格式正确的邮件。 smtplib模块用来设置服务器连接的相关信息。就像 MySQL 服务器的连接一样，这个连接必须在用完之后及时关闭，以避免同时创建太多连接而浪费资源。把这个简单的邮件程序封装成函数后，可以更方便地扩展和使用： import smtplib from email.mime.text import MIMEText from bs4 import BeautifulSoup from urllib.request import urlopen import time def sendMail(subject, body): msg = MIMEText(body) 存储数据 79 msgSubject = subject msgFrom = christmas_ msgTo = s = smtplib.SMTP(localhost) s.send_me

展开阅读全文