python实习报告（共7篇）.docx-得力文库

资源描述

《python实习报告（共7篇）.docx》由会员分享，可在线阅读，更多相关《python实习报告（共7篇）.docx（18页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、python实习报告（共7篇）篇：Python网络爬虫实习报告实用标准文案Python网络爬虫实习报告精彩文档实用标准文案目录一、选题背景.二、爬虫原理.爬虫历史和分类.四、常用爬虫框架比较.五、数据爬取实战（豆瓣网爬取电影数据）.1分析网页.2爬取数据.3数据整理、转换4数据保存、展示5技术难点关键点.六、精彩文档实用标准文案一、选题背景二、爬虫原理三、爬虫历史和分类四、常用爬虫框架比较Scrapy框架:Scrapy框架是一套比较成熟的Python爬虫框架，是使用Python开发的快速、高层次的信息爬取框架，可以高效的爬取web页面并提取出结构化数据。Scrapy应用范围很广，爬虫开发、数据

2、挖掘、数据监测、自动化测试等。Crawley框架:Crawley也是Python开发出的爬虫框架，该框架致力于改变人们从互联网中提取数据的方式。Portia框架:Portia框架是一款允许没有任何编程基础的用户可视化地爬取网页的爬虫框架。newspaper框架:newspaper框架是一个用来提取新闻、文章以及内容分析的Python爬虫框架。Python-goose框架：Python-goose框架可提取的信息包括：文章主体内容;文章主要图片;文章中嵌入的任heYoutube/Vimeo视频;元描述;元标签精彩文档实用标准文案五、数据爬取实战（豆瓣网爬取电影数据）1分析网页datarating

3、_people_numi)f.write(%s%datamovie_authori)f.write()f.write()f.write()f.write()f.write(第2篇：Python网络爬虫实习报告.Python网络爬虫实习报告.目录一、选题背景二、爬虫原理三、爬虫历史和分类四、常用爬虫框架比较.五、数据爬取实战（豆瓣网爬取电影数据）.1分析网页2爬取数据3数据整理、转换.4数据保存、展示.5技术难点关键点.六、总结.一、选题背景二、爬虫原理三、爬虫历史和分类四、常用爬虫框架比较Scrapy框架:Scrapy框架是一套比较成熟的Python爬虫框架，是使用Python开发的快速、高层

4、次的信息爬取框架，可以高效的爬取web页面并提取出结构化数据。Scrapy应用围很广，爬虫开发、数据挖掘、数据监测、自动化测试等。Crawley框架:Crawley也是Python开发出的爬虫框架，该框架致力于改变人们从互联网中提取数据的方式。Portia框架:Portia框架是一款允许没有任何编程基础的用户可视化地爬取网页的爬虫框架。newspaper框架:newspaper框架是一个用来提取新闻、文章以及容分析的Python爬虫框架。Python-goose框架：Python-goose框架可提取的信息包括：文章主体容;文章主要图片;文章中嵌入的任heYoutube/Vimeo视频;元描述

5、;元标签.五、数据爬取实战（豆瓣网爬取电影数据）1分析网页#获取html源代码def_getHtml():data=pageNum=1pageSize=0try:while(pageSize#headers=User-Agent:Mozilla/5.0(WindowsNT6.1)AppleWebKit/537.11(KHTML,likeGecko)Chrome/23.0.1271.64Safari/537.11,#Referer:None#注意如果依然不能抓取的话，这里可以设置抓取的host#opener=urllib.request.build_opener()#opener.addhead

6、ers=headersurl=https:/movie.douban./top250?start=+str(pageSize)+&filter=+str(pageNum)#datahtml%s%i=urllib.request.urlopen(url).read().decode(utf-8).data.append(urllib.request.urlopen(url).read().decode(utf-8)pageSize+=25pageNum+=1print(pageSize,pageNum)exceptExceptionase:raiseereturndata2爬取数据def_get

7、Data(html):title=#电影标题#rating_num=#评分range_num=#排名#rating_people_num=#评价人数movie_author=#导演data=#bs4解析htmlsoup=BeautifulSoup(html,html.parser)forliinsoup.find(ol,attrs=cla:grid_view).find_all(li):title.append(li.find(span,cla_=title).text)#rating_num.append(li.find(div,.cla_=star).find(span,cla_=rati

8、ng_num).text)range_num.append(li.find(div,cla_=pic).find(em).text)#spans=li.find(div,cla_=star).find_all(span)#forxinrange(len(spans):#ifxindex=str.find(主)if(index=-1):index=str.find(.)print(li.find(div,cla_=pic).find(em).text)if(li.find(div,cla_=pic).find(em).text=210):index=60#print(aaa)#print(str

9、4:index)movie_author.append(str4:index).datatitle=title#datarating_num=rating_numdatarange_num=range_num#datarating_people_num=rating_people_numdatamovie_author=movie_authorreturndata3数据整理、转换def_getMovies(data):f=open(F:/douban_movie.html,w,encoding=utf-8)Crawley框架:Crawley也是Python开发出的爬虫框架，该框架致力于改变人们

10、从互联网中提取数据的方式。Portia框架:Portia框架是一款允许没有任何编程基础的用户可视化地爬取网页的爬虫框架。newspaper框架:newspaper框架是一个用来提取新闻、文章以及内容分析的Python爬虫框架。3.Python和Java、PHP、C、C#、C+等其他语言的对比？4.简述解释型和编译型编程语言？5.Python解释器种类以及特点？6.位和字节的关系？7.b、B、KB、MB、GB的关系？11.python递归的最大层数？12.求结果：v1=1or3v2=1and3v3=0and2and1v4=0and2or1v5=0and2or1or4v6=0orFlaseand1

11、13.ascii、unicode、utf-8、gbk区别？14.字节码和机器码的区别？15.三元运算规则以及应用场景？16.列举Python2和Python3的区别？17.用一行代码实现数值交换：a=1b=218.Python3和Python2中int和long的区别？19.xrange和range的区别？20.文件操作时：xreadlines和readlines的区别？21.列举布尔值为False的常见值？29.Python的可变类型和不可变类型？30.求结果：v=dict.fromkeys(k1，k2，)vk1.append(666)print(v)vk1=777print(v)31.求结

12、果：defnum():returnlambdax:i*xforIinrange(4)print(m(2)forminnum()32.列举常见的内置函数？33.filter、map、reduce的作用？34.一行代码实现9*9乘法表35.如何安装第三方模块？以及用过哪些第三方模块？39.求结果：a.i%2foriinrange(10)b.(i%2foriinrange(10)40.求结果：a.1or2b.1and2c.142.如何实现“1，2，3”变成1，2，3?43.如何实现1，2，3变成1，2，3?44.比较：a=1，2，3和b=(1)，(2)，(3)以及b=(1，)，(2，)，(3，)的区

13、别？45.如何用一行代码生成1，4，9，16，25，36，49，64，81，100?46.一行代码实现删除列表中重复的值?47.如何在函数中设置一个全局变量？48.logging模块的作用？以及应用场景？49.请用代码简答实现stack。50.常用字符串格式化哪几种？51.简述生成器、迭代器、可迭代对象以及应用场景？52.用Python实现一个二分查找的函数。53.谈谈你对闭包的理解？54.os和sys模块的作用？56.如何使用python删除一个文件？57.谈谈你对面向对象的理解？58.Python面向对象中的继承有什么特点？59.面向对象深度优先和广度优先是什么？60.面向对象中super

14、的作用？61.是否使用过functools中的函数？其作用是什么？62.列举面向对象中带爽下划线的特殊方法，如：_new_、_init_63.如何判断是函数还是方法？64.静态方法和类方法区别？65.列举面向对象中的特殊成员以及应用场景66.1、2、3、4、5能组成多少个互不相同且无重复的三位数67.什么是反射？以及应用场景？68.metacla作用？以及应用场景？69.用尽量多的方法实现单例模式。70.装饰器的写法以及应用场景。71.异常处理写法以及如何主动跑出异常（应用场景）72.什么是面向对象的mro73.isinstance作用以及应用场景？74.写代码并实现：76.json序列化时，

15、默认遇到中文会转换成unicode，如果想要保留中文怎么办？77.什么是断言？应用场景？78.有用过withstatement吗？它的好处是什么？79.使用代码实现查看列举目录下的所有文件。80.简述yield和yieldfrom关键字。2.单引号中的字符串可以包含双引号，双引号中的字符串可以包含单引号，而不需要使用转义字符。另外3个引号所包围的字符可以作为注释，还可以作为格式化的字符串，该字符串可以不再一行，格式化后行尾会自动转化为“n”转义字符。3.在Python中可以使用“”将较长的语句分成几行来写，但是注意每行后面不可以有#注释。或者可以使用圆括号将较长的语句分行，每行后面可以使用#注

16、释。4.类型间转换hex()：将整数转换为十六进制字符串，包含前缀“0x”oct()：将整数转换为八进制字符串，包含前缀“0o”注：string模块中有string.atoi(x,base=10)，类似int()，但是可以选择变换后的进制5.math模块中数学函数：hypot(x,y)：求直角三角形的斜边长度，x和y为两个直角边长度fmod(x,y)：求x/y的余数，等同于x%yceil(x)：求不小于x的最大整数floor(x)：求不大于x的最小整数fabs(x)：求x的绝对值exp(x)：求e的x次幂pow(x,y)：求x的y次幂，等同于x*ylog10(x)：求x以log10为底的对数s

17、qrt(x)：求x的平方根pi：求pi的值6.字符串操作string.capitalize()：将字符串第一个字母大写string.count(x)：获得字符串中某字符串的数目string.find(x)：获得字符串中某子字符串的起始位置string.isalnum()：是否仅包含09、AZ、azstring.isalpha()：是否仅包含AZ、azstring.isaldigit()：是否仅包含09string.islower()string.isupper()string.lower()string.upper()string.ipace()string.istitle()：字符串中所有单

18、词是否首字母大写string.title()string.join(x)：将string插入x中的每两个字符之间string.swapcase()：大小写字母转换string.split(x)：利用分割字符串的单词（默认是space）len(string)7.格式化字符串%f%d%s%o：八进制整数%x：十六进制整数注：rxxxxx或者Rxxxxx表示原始字符串，常用语正则表达式或者路径表示中，其间没有转义字符，均是正常字符。8.列表listlist.append(x)：追加成员xlist.count(x)：参数x出现的次数list.extend(x)：list1+list2无法改变list1

19、，只能返回一个新的list，但是list2.extend(list2)函数可以改变list1的值list.index(x)：获得x在list中的位置list.insert(index,x)：在index处插入xlist.pop(index)：删除索引为index的成员list.remove(x)：删除值为x的成员list.reverse()list.sort()list.clear()注：tuple的操作与list类似，但是不包含可修改元组的操作。9.字典dictdict.clear()dict.copy(x)：将字典x拷贝给dictdict.get(key)：等同于dictkdict.has

20、_key(key)：是否包含key键dict.items()：获得键-值对组成的列表dict.keys()：获得键组成的列表dict.values()：获得值组成的列表dict.pop(key)dict.update(x)：利用字典x更新原字典10.文件操作open(filename,mode,bufsize)filename：要打开的文件名mode：打开模式（r是只读，w是替换写，a是追加写，+是读写等）bufsize：缓冲区大小，可以默认file.read()：整个文件读入字符串中file.readlines()：整个文件读入列表中file.readline()：某行读入字符串中file.

21、write(x)：写入字符串file.writelines(x)：写入列表xfile.close().11.函数参数调用函数可以同时使用按顺序传递参数，以及关键字传递参数等，但是必须注意按顺序传递的参数要位于按关键字传递的参数之前，而且不能有重复的情况发生。例如：defsample(x,y,z):pamysum(1,z=5,y=6)#okmysum(z=6,y=7,3)#error使用可变长参数的函数，将其所有参数保存在一个元组里，在函数中可以使用for循环来处理，声明一个可变长参数的函数只需用*开头定义一个参数即可。12.局部/全局变量局部作用域内的变量的改变并不影响全局作用域内的变量，除非

22、通过引用的方式传递参数。如果要在函数内使用函数外的变量，可以在变量名前使用global关键字。例如：deffunc(x):globalareturnx+a13.模块查找路径导入模块时，python解释器首先在当前目录中查找导入的模块；如果未找到，解释器会从sys模块中的path变量指定的目录查找导入模块；如果均未找到，则会出错。importsyssys.path在脚本中可以向sys.path添加查找路径，例如可以在.py中如下：importosimportsysmodulepath=os.getcwd()+module#module是当前目录下的module子目录sys.path.append

23、(modulepath)importmymodule#mymodule在module子目录中*14.dir(x)可以获得导入模块中的所有定义的名字和函数等。importsysdir(sys)当不使用参数时，该函数将返回当前脚本的所有名字列表。15.模块包包可以看成是出于同一个目录中的模块，在python中首先使用目录名，然后再使用模块名导入所需要的模块。在包的每个目录（包括子目录）中都必须包含一个“_init_.py”的文件，该文件甚至可以是一个空文件，仅用于表示该目录为一个包。在_init_.py中设置_all_变量和包初始化所需的代码，可以保证在from中使用*时名字的正确导入。fromA

24、.BimportaimportA.B.a有了包的概念可以很好地解决模块查找路径的问题，只要将所有的模块放在当前目录中的某个文件夹内（子目录），然后在子目录内新建一个_init_.py文件即可，而不需将子目录的路径添加到sys.path中。第6篇：Python学习总结Python总结目录Python总结.1前言.2（一）如何学习Python.2（二）一些Python免费课程推荐.4（一）如何学习Python学习Python大致可以分为以下几个阶段：1.刚上手的时候肯定是先过一遍Python最基本的知识，比如说：变量、数据结构、语法等，基础过的很快，基本上12周时间就能过完了，我当时是在这儿看的基

25、础：Python简介|菜鸟教程2.看完基础后，就是做一些小项目巩固基础，比方说：做一个终端计算器，如果实在找不到什么练手项目，可以在Codecademy知乎专栏5.Python库是开发者利器，用这些库你可以做很多很多东西，最常见的网络爬虫、自然语言处理、图像识别等等，这些领域都有很强大的Python库做支持，所以当你学了Python库之后，一定要第一时间进行练习。如何寻找自己需要的Python库呢？推荐我之前的一个回答：如何找到适合需求的Python库?6.学习使用了这些Python库，此时的你应该是对Python十分满意，也十分激动能遇到这样的语言，就是这个时候不妨开始学习Python数据结

26、构与算法，Python设计模式，这是你进一步学习的一个重要步骤：faif/python-patterns7.当度过艰难的第六步，此时选择你要研究的方向，如果你想做后端开发，不妨研究研究Django，再往后，就是你自己自由发挥了。（二）一些Python免费课程推荐以下课程都为免费课程1.python零基础相关适用人群：Python零基础的初学者、Web开发程序员、运维人员、有志于从事互联网行业以及各领域应用Python的人群疯狂的Python：快速入门精讲零基础入门学习Python玩转Python语言Python语言程序设计程序设计入门可汗学院公开课：计算机科学python入门到精通Python

27、交互式编程入门的课程主页Python交互编程入门（第2部分）的课程主页2.pythonweb方向PythonDjango快速Web应用开发入门3.python爬虫Python实战：一周学会爬取网页4.python数据分析方向数据分析实战基础课程（三）Python爬虫需要哪些知识？要学会使用Python爬取网页信息无外乎以下几点内容：1、要会Python2、知道网页信息如何呈现3、了解网页信息如何产生4、学会如何提取网页信息第一步Python是工具，所以你必须熟练掌握它，要掌握到什么程度呢？如果你只想写一写简单的爬虫，不要炫技不考虑爬虫效率，你只需要掌握：数据类型和变量字符串和编码使用list和

28、tuple条件判断、循环使用dict和set你甚至不需要掌握函数、异步、多线程、多进程，当然如果想要提高自己小爬虫的爬虫效率，提高数据的精确性，那么记住最好的方式是去系统的学习一遍Python，去哪儿学习？Python教程假设已经熟悉了最基础的Python知识，那么进入第二步：知道网页信息如何呈现？你首先要知道所需要抓取的数据是怎样的呈现的，就像是你要学做一幅画，在开始之前你要知道这幅画是用什么画出来的，铅笔还是水彩笔.可能种类是多样的，但是放到网页信息来说这儿只有两种呈现方式：1、HTML（HTML简介）2、JSON（JSON简介）HTML是用来描述网页的一种语言JSON是一种轻量级的数据交

29、换格式假设你现在知道了数据是由HTML和JSON呈现出来的，那么我们紧接着第三步：数据怎么来？数据当然是从服务器反馈给你的，为什么要反馈给你？因为你发出了请求。“Hi，服务器我要这个资源”“正在传输中.”“已经收到HTML或者JSON格式的数据”这个请求是什么请求？要搞清楚这一点你需要了解一下http的基础知识，更加精确来说你需要去了解GET和POST是什么，区别是什么。也许你可以看看这个：浅谈HTTP中Get与Post的区别博客园很高兴你使用的是Python，那么你只需要去掌握好快速上手知乎专栏知乎-Python学习路径及练手项目合集（四）Python爬虫进阶爬虫无非分为这几块：分析目标、下

30、载页面、解析页面、存储内容，其中下载页面不提。1.分析目标所谓分析就是首先你要知道你需要抓取的数据来自哪里？怎么来？普通的网站一个简单的POST或者GET请求，不加密不反爬，几行代码就能模拟出来，这是最基本的，进阶就是学会分析一些复杂的目标，比如说：淘宝、新浪微博登陆以及网易云的评论信息等等。2.解析页面解析页面主要是选择什么库或者那些库结合能使解析速度更快，可能你一开始你通过种种地方了解到了bs库，于是你对这个库很痴迷，以后只要写爬虫，总是先写上：importrequestsfrombs4importBeautifulSoup当然bs已经很优秀了，但是并不代表可以用正则表达式解析的页面还需要

31、使用bs，也不代表使用lxml能解决的还要动用bs，所以这些解析库的速度是你在进阶时要考虑的问题。3.存储内容刚开始学爬虫，一般爬取的结果只是打印出来，最后把在终端输出的结果复制粘贴保存就好了；后来发现麻烦会用上xlwt/openpyxl/csv的把存储内容写入表格，再后来使用数据库sqlite/mysql/neo4j只要调用了库都很简单，当然这是入门。进阶要开始学习如何选择合适的数据库，或者存储方式。当爬取的内容过千万的时候，如何设计使存储速度更快，比如说当既有人物关系又有人物关系的时候，一定会用neo4j来存储关系，myslq用来存储用户信息，这样分开是因为如果信息全部存入neo4j，后期

32、的存储速度经十分的慢。当你每个步骤都能做到很优秀的时候，你应该考虑如何组合这四个步骤，使你的爬虫达到效率最高，也就是所谓的爬虫策略问题，爬虫策略学习不是一朝一夕的事情，建议多看看一些比较优秀的爬虫的设计方案，比如说Scrapy。除了爬取策略以外，还有几点也是必备的：1.代理策略以及多用户策略代理是爬虫进阶阶段必备的技能，与入门阶段直接套用代理不同，在进阶阶段你需要考虑如何设计使用代理策略，什么时候换代理，代理的作用范围等等，多用户的抓取策略考虑的问题基本上与代理策略相同。2.增量式抓取以及数据刷新比如说你抓取的是一个酒店网站关于酒店价格数据信息的，那么会有这些问题：酒店的房型的价格是每天变动的

33、，酒店网站每天会新增一批酒店，那么如何进行存储、如何进行数据刷新都是应该考虑的问题。3.验证码相关的一些问题有很多人提到验证码，我个人认为验证码不是爬虫主要去解决的问题，验证码不多的情况考虑下载到本地自己输入验证码，在多的情况下考虑接入打码平台。（五）Python爬虫面试指南前段时间快要毕业，而我又不想找自己的老本行Java开发了，所以面了很多Python爬虫岗位。因为我在南京上学，所以我一开始只是在南京投了简历，我一共面试了十几家企业，其中只有一家没有给我发offer，其他企业都愿意给到10K的薪资，不要拿南京的薪资水平和北上深的薪资水平比较，结合面试常问的问题类型说一说我的。第一点：Pyt

34、hon因为面试的是Python爬虫岗位，面试官大多数会考察面试者的基础的Python知识，包括但不限于：Python2.x与Python3.x的区别Python的装饰器Python的异步Python的一些常用内置库，比如多线程之类的第二点：数据结构与算法数据结构与算法是对面试者尤其是校招生面试的一个很重要的点，当然小公司不会太在意这些，从目前的招聘情况来看对面试者的数据结构与算法的重视程度与企业的好坏成正比，那些从不问你数据结构的你就要当心他们是否把你当码农用的，当然以上情况不绝对，最终解释权归面试官所有。第三点：Python爬虫最重要也是最关键的一点当然是你的Python爬虫相关的知识与经验

35、储备，这通常也是面试官考察的重点，包括但不限于：你遇到过的反爬虫的策略有哪些？你常用的反反爬虫的方案有哪些？你用过多线程和异步吗？除此之外你还用过什么方法来提高爬虫效率？有没有做过增量式抓取？对Python爬虫框架是否有了解？第四点：爬虫相关的项目经验爬虫重在实践，除了理论知识之外，面试官也会十分注重爬虫相关的项目：你做过哪些爬虫项目？如果有Github最好你认为你做的最好的爬虫项目是哪个？其中解决了什么难题？有什么特别之处？以上是我在面试过程中，会碰到的一些技术相关的问题的总结，当然面试中不光是技术这一点，但是对于做技术的，过了技术面基本上就是薪资问题了。（六）推荐一些不错的Python博客

36、如果是Python基础的话，廖雪峰的博客教程会是一个不错的选择：Python3教程Python2.7教程当然很多刚接触Python的同学反应廖大大的教程中部分跳跃性太大，如果觉得跳跃性太大可以结合菜鸟教程一起看：Python3教程|菜鸟教程Python基础教程|菜鸟教程如果你英文稍好的话推荐还是看官方文档：Python3.6.0documentation如果不是为了学习Python基础的话，推荐几个其他的博客。董老师的博客：小明明sdomicilePython-Web开发实战的作者，知乎某位工程师的博客：分类Python，具体是哪位大神我不太清楚。依云大大的博客文章值得深读：依云sBlog从P

37、ython开始学编程的作者博客：PythonVamei博客园Python|the5fire的技术博客（七）Python如何进阶很多人在学习编程之初都会碰到这种问题：学会了基础的语法了，但是还是做不了项目，不知道如何下手。当初，我学习C的时候是这样、Java的时候是这样、Python的时候也是这样，其实不管什么语言、什么知识都是这样：理论基础知识谢科的回答如果你想学习编程，但是找不到学习路径和资源，欢迎关注专栏：学习编程第一：Python爬虫学习系列教程Python版本：2.7整体目录：一、爬虫入门Python爬虫入门一之综述Python爬虫入门二之爬虫基础了解Python爬虫入门三之Urlli

38、b库的基本使用Python爬虫入门四之Urllib库的高级用法Python爬虫入门五之URLError异常处理Python爬虫入门六之Cookie的使用Python爬虫入门七之正则表达式二、爬虫实战Python爬虫实战一之爬取糗事百科段子Python爬虫实战二之爬取百度贴吧帖子Python爬虫实战三之实现山东大学无线网络掉线自动重连Python爬虫实战四之抓取淘宝MM照片Python爬虫实战五之模拟登录淘宝并获取所有订单Python爬虫实战六之抓取爱问知识人问题并保存至数据库Python爬虫实战七之计算大学本学期绩点Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺三、爬虫利器Pyt

39、hon爬虫利器一之Requests库的用法Python爬虫利器二之BeautifulSoup的用法Python爬虫利器三之Xpath语法与lxml库的用法Python爬虫利器四之PhantomJS的用法Python爬虫利器五之Selenium的用法Python爬虫利器六之PyQuery的用法四、爬虫进阶Python爬虫进阶一之爬虫框架概述Python爬虫进阶二之PySpider框架安装配置Python爬虫进阶三之爬虫框架Scrapy安装配置Python爬虫进阶四之PySpider的用法第二（第一的姊妹篇）：Python爬虫入门教程Python版本：2.7教程目录：Python网络爬虫（一）：抓

40、取网页的含义和URL基本构成Python网络爬虫（二）：利用urllib2通过指定的URL抓取网页内容Python网络爬虫（三）：异常的处理和HTTP状态码的分类Python网络爬虫（四）：Opener与Handler的介绍和实例应用Python网络爬虫（五）：urllib2的使用细节与抓站技巧Python网络爬虫（六）：一个简单的百度贴吧的小爬虫Python网络爬虫（七）：Python中的正则表达式教程Python网络爬虫（八）：糗事百科的网络爬虫（v0.3）源码及解析(简化更新)Python网络爬虫（九）：百度贴吧的网络爬虫（v0.4）源码及解析Python网络爬虫（十）：一个爬虫的诞生全

41、过程（以山东大学绩点运算为例）Python网络爬虫（11）：亮剑！爬虫框架小抓抓Scrapy闪亮登场！Python网络爬虫（12）：爬虫框架Scrapy的第一个爬虫示例入门教程（九）Python开发微信公众号我的第一个Python项目就是做的微信公众号机器人，按照当时我的思路来讲讲如何学习使用Python来开发微信公众号：大家伙收藏顺手点个赞呗。微信公众号功能开发分为两大块：需要调用微信内部功能、不需要调用微信内部功能，重点在调用微信内部功能组建。些容器对象，比如list、dict、tuple，instance等可能会出现引用循环，对于这些循环，垃圾回收器会定时回收这些循环（对象之间通过引用（

42、指针）连在一起，构成一个有向图，对象构成这个有向图的节点，而引用关系构成这个有向图的边）。分代收集：Python把内存根据对象存活时间划分为三代，对象创建之后，垃圾回收器会分配它们所属的代。每个对象都会被分配一个代，而被分配更年轻的代是被优先处理的，因此越晚创建的对象越容易被回收。如果你想要深入了解Python的GC机制，点击这里：转载Python垃圾回收机制-完美讲解!（四）、Python多线程（multi-threading）。这是个好主意吗？Python并不支持真正意义上的多线程，Python提供了多线程包。Python中有一个叫GlobalInterpreterLock（GIL）的东西

43、，它能确保你的代码中永远只有一个线程在执行。经过GIL的处理，会增加执行的开销。这就意味着如果你先要提高代码执行效率，使用threading不是一个明智的选择，当然如果你的代码是IO密集型，多线程可以明显提高效率，相反如果你的代码是CPU密集型的这种情况下多线程大部分是鸡肋。想要深入详细了解多线程，点击这里：详解Python中的多线程编程_python想了解一下IO密集和CPU密集可以点击这里：CPU-bound(计算密集型)和I/Obound(I/O密集型)（五）、说明os,sys模块不同，并列举常用的模块方法？官方文档：os模板提供了一种方便的使用操作系统函数的方法sys模板可供访问由解释

44、器使用或维护的变量和与解释器交互的函数另一种回答：os模块负责程序与操作系统的交互，提供了访问操作系统底层的接口。sys模块负责程序与Python解释器的交互，提供了一系列的函数和变量用户操作Python运行时的环境。一些常用的方法：一些常用的用法示例：想要了解更详细的使用请访问：os和sys模块Python（七）、Python中pa语句的作用是什么？pa语句不会执行任何操作，一般作为占位符或者创建占位程序（八）、Python是如何进行类型转换的？Python提供了将变量或值从一种类型转换为另一种类型的内置方法。（九）、Python里面如何拷贝一个对象？Python中对象之间的赋值是按引用传递

45、的，如果要拷贝对象需要使用标准模板中的copycopy.copy：浅拷贝，只拷贝父对象，不拷贝父对象的子对象。copy.deepcop：深拷贝，拷贝父对象和子对象。（十）、_new_和_init_的区别。_init_为初始化方法，_new_方法是真正的构造函数。_new_是实例创建之前被调用，它的任务是创建并返回该实例，是静态方法_init_是实例创建之后被调用的，然后设置对象属性的一些初始值。总结：_new_方法在_init_方法之前被调用，并且_new_方法的返回值将传递给_init_方法作为第一个参数，最后_init_给这个实例设置一些参数。本文参考文献资料：七、PYTHON一些基础面试题目总结很全的Python面试题Python自省（反射）指南Python学习笔记（十二）：lambda表达式与函数式编程Python面试必须要看的15个问题（十一）Python书籍入门书籍Python学习手册HeadFirstPythonLearnPythonTheHardWayPytho

展开阅读全文