簡(jiǎn)書7日熱門crawl

論文要開題,想了老久的要寫的內(nèi)容,結(jié)果發(fā)現(xiàn)被人家換個(gè)名字全部寫完了。吐了兩天的血了。。。

沒活路了

回歸正題,向右老師布置了第一個(gè)作業(yè),爬取簡(jiǎn)書七日熱門的
1.用戶
2.標(biāo)題
3.閱讀量
4.評(píng)論量
5.獲贊量
6.打賞數(shù)
7.文章發(fā)表時(shí)間
跟前面的爬異步加載的文章是一樣的,就是要找出真實(shí)的網(wǎng)頁(yè)地址

Paste_Image.png
Paste_Image.png

可以看到,加載的越多,URL就越長(zhǎng),這沒法構(gòu)建啊!
加載到最后,看到了第一行,把它復(fù)制到瀏覽器里,看到了什么? 大聲告訴我你看到來了什么?


Paste_Image.png

是的,這就是我們要的了。那就沒問題了,老套路走起。

Paste_Image.png
import requests
from lxml import etree
import time
import csv

def crawl1(url):
   html= requests.get(url).content
   sel= etree.HTML(html)
   infos= sel.xpath('//ul[@class="note-list"]/li/div[@class="content"]')
   for info in infos:
       list1=[]
       author= info.xpath('div[@class="author"]/div/a/text()')[0]
       get_time = info.xpath('div[@class="author"]/div/span/@data-shared-at')[0].replace('T',' ')
       title = info.xpath('a[@class="title"]/text()')[0]
       read_num = info.xpath('div[@class="meta"]/a[1]/text()')[1][:-1]#這里要對(duì)爬下來的數(shù)據(jù)修改一下。
       comment_num = info.xpath('div[@class="meta"]/a[2]/text()')[1][:-1]
       point_num = info.xpath('div[@class="meta"]/span[1]/text()')[0]
       reward_num = info.xpath('div[@class="meta"]/span[2]/text()')
       if len(reward_num) ==0: # 有的文章是沒有打賞的,就要判斷一下了。
           reward_num = '無贊賞'
       else:
           reward_num = reward_num[0]
       print(author,get_time,title,read_num,comment_num,point_num,reward_num)
       list1.append(author),list1.append(get_time),list1.append(title),list1.append(read_num),list1.append(comment_num),list1.append(point_num),list1.append(reward_num)
       with open('d:\\簡(jiǎn)書.csv', 'a+') as f:
           f.write('author,get_time,title,read_num,comment_num,point_num,reward_num\n')
           f.write('{},{},{},{},{},{},{}'.format(author,get_time,title,read_num,comment_num,point_num,reward_num)+'\n')

if __name__=='__main__':
   for i in range(1,6):
       url= 'http://www.itdecent.cn/trending/weekly?utm_medium=index-banner-s&utm_source=desktop&page=%s'%i
       print('正在處理第%d頁(yè)'%i)
       crawl1(url)

爬取結(jié)果如圖

Paste_Image.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • Android 自定義View的各種姿勢(shì)1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 178,765評(píng)論 25 709
  • 經(jīng)過不斷的修改和嘗試終于成功的獲取到了簡(jiǎn)書七日熱門的數(shù)據(jù),主要爬取了以下幾個(gè)字段:1.用戶2.標(biāo)題3.閱讀量4.評(píng)...
    TinyPiXOS閱讀 934評(píng)論 7 8
  • 讀過金字塔原理的同學(xué)都知道MECE,“相互獨(dú)立,完全窮盡”。真正的做到“完全窮盡”,那么必定能夠完整清晰地呈現(xiàn)出這...
    哪兒黑閱讀 34,306評(píng)論 2 56
  • 人們習(xí)慣等待,越來越習(xí)慣了等待,等待著一些人一些事。認(rèn)為事情等等就好了。是這樣嗎? 以前的我是一個(gè)不愛和別人交流...
    淺山清韻閱讀 288評(píng)論 0 0
  • 愛你, 如山間的林中小溪, 一直蜿蜒到那坎兒里。 愛你, 像正午十分的炎炎烈日, 永遠(yuǎn)那么赤誠(chéng)、火熱。 愛你, 若...
    木朽之后閱讀 232評(píng)論 0 1

友情鏈接更多精彩內(nèi)容