python爬取豆瓣top250的電影數(shù)據(jù)并存入excle

爬取網(wǎng)址:?https://movie.douban.com/top250

一:爬取思路(新手可以看一下) :

1:定義兩個(gè)函數(shù),一個(gè)get_page函數(shù)爬取數(shù)據(jù),一個(gè)save函數(shù)保存數(shù)據(jù),mian中向get_page函數(shù)傳遞url和運(yùn)save函數(shù)接受get_page函數(shù)傳遞過(guò)來(lái)的值

2:準(zhǔn)備動(dòng)手

二:爬取前的準(zhǔn)備

我是pyhton3? pycharm

需要準(zhǔn)備的庫(kù)? requests,lxml,xlwt

requests解析url

lxml解析網(wǎng)頁(yè),獲取數(shù)據(jù)

xlwt 向excle寫入數(shù)據(jù)

三:代碼實(shí)現(xiàn)(這里只是為了保存數(shù)據(jù)做演示,沒(méi)有對(duì)數(shù)據(jù)做處理)

import? requestsfromlxmlimport etreeimport xlwt

all_list=[]#傳入save函數(shù)的結(jié)果集

def? get_page(url):

? ? res=requests.get(url)

? ? ifres.status_code==200:

? ? ? ? html=etree.HTML(res.content)

? ? ? ? all=html.xpath('//div[@class="article"]/ol/li')#所有的數(shù)據(jù)都在li標(biāo)簽下,我們一這個(gè)為總節(jié)點(diǎn)

? ? ? ? fordetailin all:

? ? ? ? ? ? title=detail.xpath('.//div[@class="hd"]/a/span[1]/text()')[0]#電影名字

? ? ? ? ? ? score=detail.xpath('.//span[@class="rating_num"]/text()')[0]#評(píng)分

? ? ? ? ? ? comment_sum=detail.xpath('.//div[@class="star"]/span[4]/text()')[0]#評(píng)論人數(shù)

? ? ? ? ? ? quote=detail.xpath('.//p[@class="quote"]/span/text()')#引言? 由于有的電影沒(méi)有引言,不判斷會(huì)報(bào)錯(cuò)

? ? ? ? ? ? iflen(quote)==0:

? ? ? ? ? ? ? ? quote='暫無(wú)引言'else:

? ? ? ? ? ? ? ? quote=quote[0]

? ? ? ? ? ? list=[]? ? ? ? ? ? list.append(title)? ? ? ? ? ? list.append(score)? ? ? ? ? ? list.append(comment_sum)? ? ? ? ? ? list.append(quote)

print(list) #輸出結(jié)果在下面? ? ? ? ? ? all_list.append(list)#將所有的list都添加進(jìn)一個(gè)list

else:

? ? ? ? print(res.status_code1)def? save(lists):

? ? book=xlwt.Workbook()

? ? sheet=book.add_sheet('douban')

? ? head = ['名字','評(píng)分','評(píng)價(jià)人數(shù)','引言']

? ? forhin range(len(head)):

? ? ? ? sheet.write(0, h, head[h])#寫一個(gè)表頭

? ? row=1#控制行forlistin lists:

? ? ? ? print(list)

? ? ? ? col=0#控制列forsin list:#循環(huán)我們的list的值

? ? ? ? ? ? sheet.write(row,col,s)

? ? ? ? ? ? col+=1? ? ? ? row+=1? ? book.save("doubantop250.xls")if__name__=='__main__':

? ? #0? 25? 50? 75forxinrange(0,11):

? ? ? ? ifx==0:

? ? ? ? ? ? url='https://movie.douban.com/top250?start=0'? ? ? ? ? ? get_page(url)

? ? ? ? else:

? ? ? ? ? ? x=x*25? ? ? ? ? ? url='https://movie.douban.com/top250?start='+str(x)

? ? ? ? ? ? get_page(url)

? ? save(all_list)#講結(jié)果集傳入save函數(shù)

輸出的list截圖:


如果有小伙伴不知道為什么要這樣存放數(shù)據(jù)的話可以看下這個(gè)網(wǎng)址:https://www.cnblogs.com/nancyzhu/p/8401552.html,我存入excle的思路就是來(lái)源于這個(gè)網(wǎng)址,寫的真的很容易理解 我喜歡.所以本文就不在做過(guò)多贅述,有問(wèn)題的或者覺(jué)得有更好的方法的可以一起交流一下

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容