Python网络爬虫实习报告-python实习报告.docx

上传人:h**** 文档编号:11709139 上传时间:2022-04-21 格式:DOCX 页数:22 大小:37.16KB
返回 下载 相关 举报
Python网络爬虫实习报告-python实习报告.docx_第1页
第1页 / 共22页
Python网络爬虫实习报告-python实习报告.docx_第2页
第2页 / 共22页
点击查看更多>>
资源描述

《Python网络爬虫实习报告-python实习报告.docx》由会员分享,可在线阅读,更多相关《Python网络爬虫实习报告-python实习报告.docx(22页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、Python网络爬虫实习报告-python实习报告Pythn 网络爬虫实习报告书目 一、选题背景 . 错误!未定义书签。理 二、爬虫原理。签书义定未!误错三、爬虫历史与分类 . 错误!未定义书签。较 四、常用爬虫框架比较。签书义定未!误错五、数据爬取实战( 豆瓣 网 爬取电影 数据) . 错误!未定义书签。1 分析网页 误错 错误! 未定义书签。2 爬取数据 . 错误! 未定义书签。3 数据整理、转换 误错 错误! 未定义书签。4 数据保存、展示 误错 错误! 未定义书签。5 技术难点关键点 误错 错误! 未定义书签。六、总结 . 错误!未定义书签。一、选题背景 二、爬虫原理 三、爬虫历史与分

2、类 四、常用爬虫框架比较 Scrap 框架 :Scra框架就是一套比较成熟得 Pytho爬虫框架,就是运用 Pthon 开发得快速、高层次得信息爬取框架,可以高效得爬取eb 页面并提取出结构化数据。crap应用范围很广,爬虫开发、数据挖掘、数据监测、自动化测试等. Crawle 框架: :rwley 也就是 Pytho开发出得爬虫框架,该框架致力于变更人们从互联网中提取数据得方式。a Portia 框架 :oti框架就是一款允许没有任何编程基础得用户可视化地爬取网页得爬虫框架。newsp p p r r 框架: :wspapr 框架就是一个用来提取新闻、文章以及内容分析得 Pythn 爬虫框架

3、. P P t t n n- - go e se 框架:Pythn-gose 框架可提取得信息包括:1文章主体内容;<2>文章主要图片;<3>文章中嵌入得任eYutubeVieo 视频;<4元描述;元标签五、数据爬取实战( 豆瓣 网 爬取电影 数据)分析网页 # 获得 ht l l 源代码def _ g g tHtml( ): ata = ageN m = pageSize = 0: try: wh le ( ageSiz = 1 ):# ead rs ’ ser —A A e e t :’ Mozil l /5 、 0 (Wi

4、ndows T 6 、 1) A p p eWe K K t/5 、 1 ( KHTM,likeGeck ) C rome/23 、0 0 、 127 、 64 S fari/537, 、’,# ’ efe er ’: : on 留意假如依旧不能抓取得话, , 这里可以设置抓取网站得 ost penerurlli、 eq e e t t 、 build_ e e () )# opener 、 addh d d s heade s s l l= + st ( pag Siz ) + ilt r r + s (p eNum)data h ml%s ’

5、i url b b 、 re uest 、ur op ( ur )、 ead() 、 decode("ut — ") da a a 、 append(url i i 、 equ st 、 urlope ( ur ) ) 、 ead() 、 ecode (f f 8 8 )) )page i i e + 5 5 p p N N1 m += 1 pr nt( geSize, page um)excep E E cepti n a e:r r se eretur data2 爬取数据 def_ _ getData(html):title =# #电影标题 #rati

6、_ _ um 评分 r r nge num =# 排名 ra ing peop _num= # 评价人数 ovie_a thor= # 导演 da a = # s4 解析 h h ml oup Beauti u u S S p(htm, html 、 parser) for li n s p p 、 find( l l , t t r r = = clas ’: rid_view )、 fin al ( "li"): it e e 、 appen ( li 、f f nd("s an", c a a s s = = tit ") 、

7、 ext)r r ti ng_ u u、 、 append(li、 、 fin ("d v v, ,class_=st ) 、 find( spa ,class_ rating_nu )、 ext )ra ge num、 、a a pen (li、 、 fi d("di ,class ’pi )、 fin ( "em ) ) 、 text) #span = l 、 find(" iv ,c c as = =’ ’ star’ ’) )、 、 find_ l l ( an") #f r

8、xinr r nge(len (s s a a s s ): f <= 2: #p p s s # e se :r r t t n n _p ple_num、 、 append(s ans x 、 st i i — n( pansx 、s s rin ): — 3) tr = l 、n n ( div", cla s_= ’b b ’) ) 、 find( p",clas = = ’ )、 te t t 、 lstrip() in e e = sr r 、f f d(主) ) if (ind x x= = )

9、 ) :index = str 、 fin ( ( 、) ) prin (li 、d d (d d v v , c s_= i i ’)、 find( em") 、t t xt)if( li 、 find ( "div , cl s s _= ’ pic ’)、f f nd( m m )、t t x x = 10):i i d d 60# rint("aaa ) ) # # rint ( st 4 :i i de ) ov _autho 、 append ( str4: nde )d d t t t tl = titl #da

10、ara ing_num = ra i i g_nu dat rang n n m m ’ =m nge_num #data ’ ratig g e e pl n n ’ = at ng peopl _nu a a ’ mo ie_au h h r r ’ movie_a th r rret rn dat 3 数据整理、转换 def _getMov e e ( da a):f = op n(F:/ ouban_mov e e 、 html ,’’, , nc ding’ utf —8 8

11、’) )f f 、 rite( html> )、 wr te( <h ad < < t t charset= ’ UTF 8 8 ’> > title Insert title here</ it e> / / ad ) ") f f 、 wr te( b bd d > > ) ) 、 write ( 1> 爬 取豆瓣电影< < >")f f 、 wri ( <h4> 作者:刘文斌 /h ")f f 、 wr te( h4>时间

12、: : + n wt me + /h ) ) f f 、w w i i e e ( "<hr> ) )f f 、r r te ( "< ablewidth= 00px ’border=1 ’a a ign=center>)f f、 、 wr te( th a a ) ) f f、 、w w ite("<t ") f f 、writ ( ( <t <font si e e olor=g een 电影 </fo t></t) #f 、w w ite (t t idt = =

13、0px ><fo t sz z =5 ’c c lor=g e e n n 评分 font / / )f f 、 wri e e ( thi i th=5 px ’> > f f n n size= ’ ol r=green 排名 fo /th> ) ) #f 、 ite( t t width= ’ 00px ’ font size 5 olor=green 评价人数 </fo /t ) 、 wr ite ( th> font siz 5 color=gr en> 导演 font /th

14、 ) )f f 、 wr e( </tr>")f f 、r r te("< th ad ) )f f 、 ite( tbod > > ) )for data in data : : for i i ra ge( , ,25 ): : f f 、 write (t t ) )f f 、 write( <td styl = olor:ora ge; ext —align:c en er ’ %s /td % a ata ti lei) #、w w ite ( td s le ’c c r:bl e e ;

15、te a a ign :c c nte % % / / d>"% data r r i i g_num ) 、 writ ("<tds s y y e e co r: ed ; text — l l gn :n n er s< td % %data ’ ange_num ’ i)# f 、w w i i ( d sty le= ’ co or:bl e;tex - - alig :cen e e ’ %s /td % %d d ta ’ ating_p ople m i i ) )f

16、f 、 write( td st le= ’ col r: l l k k ;ext — l l gn:center ’ s< td>% ata’ ’m m vi aut or ’ )f f 、 write () /tr>") f f 、 wri e e ( tbod)f f 、 write (/ / h h ad ) ") f f 、 wri e( </ a a le ) )f f、 、w w t t ( ( bo y y ") 、 write( / / t t )

17、f f 、 close()f f_ a a e_= =’_ _ m m i i _ _ ’: :data = h h mls = _getH ml () ) or i n rang (l l n n( htmls) ): : dat = _getData ( ht ls ) datas 、 ap end(data) _g tMo vies(datas )数据保存、展示结果如后图所示: 5 技术难点关键点 数据爬取实战( 搜房 网 爬取房屋 数据) o o bs i i po t tBautifloupopmi impo t requestsp reques、get( &

18、rsquo; ) rep、eodng = b2312" 设置编码方式 html = r、exh ,lmth(puSlufituB = puo h 、 parser ’)f = oe( F:/f ng 、 html ’, ’w w ,encoding= ’u u —8 8 ’) f、writ( <ht ) f、wrie( "< a a eta ch rse = = ’ UTF — <t tle>Insr r it e here</tit e>&l

19、t;/ ead )(etir、f b b dy> )f、rie(c c ter> h1 新居成交 OP </h1 ce t t > > )(etr、f t t b b order 1px ’width= ’1 1 0 0 x x ’ eig =800p ’i i n=c nte tr )w、te( "<th>< 2 2 房址 </ 2> /t >")"(etrw、f th 2 2 成交量 /h2 /th ") f、wit( < <

20、 h> 均价 </h2> / / h h / / r r ) rof for i in sp、find( ul",clas_= ul02")、findal( l l ):nm=li、ind( div ,lss_= btext )、find( )、tet hnjioliang=li、fnd(a a ,la= "rd d — f3 )、x y y:(dni、il=aiju v",cs_=" hte ")、find( "p",cls ray —9 9 ) #、text、eplac

21、e(’。’, ’平方米) exce t Exception a a :junia、fd( "di ",class_= "gray — 9") #、tex、repla(, ’平方米) 、writ( "<tr < < d li n=ce te < < ontsize=5p’c c l l r=r d d %s /fo t t / / d d % nae)、wre( t t alig = = e e ter> font s ze= &rsquo

22、; 5pxcol r=b ue>%s</font> / / % chengjiaiag)r、te(t t lign center <f ntsize= p p ’col r rg g e e n n %s / / ont td></t % jnjia)p p int(nae)f、rit( /table )(etirw、f /bo y> ) 六、总结 老师评语: 成果:指导老师:本文来源:网络收集与整理,如有侵权,请联系作者删除,谢谢!第22页 共22页第 22 页 共 22 页第 22 页 共 22 页第 22 页 共 22 页第 22 页 共 22 页第 22 页 共 22 页第 22 页 共 22 页第 22 页 共 22 页第 22 页 共 22 页第 22 页 共 22 页第 22 页 共 22 页

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 工作计划

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com