爬蟲系列之~爬取簡書網(wǎng)用戶文章信息

? ? ? 本文將介紹利用Requests、Lxml第三方庫及逆向工程方法,爬去簡書用戶文章信息,并通過pymysql庫將爬取數(shù)據(jù)放到mysql數(shù)據(jù)庫中。??

? ? ?需要的工具:python3、mysql

? ? ?需要安裝的包:Requets、Lxml、pymsql? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

? ? ? ?本文以爬取簡書用戶三步一叩首的文章信息為例,爬去數(shù)據(jù)包括:文章標題、閱讀量、評論數(shù)、點贊量? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

? ? 在寫爬蟲之前,先在數(shù)據(jù)庫database中新建jianshu表來存放爬取的數(shù)據(jù),代碼如下:? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

本文使用Xpath來解析網(wǎng)頁,具體代碼如下:


import requests

from lxml import etree

import pymysql

conn = pymysql.connect(host='localhost',user='root',passwd='200709',db='database',port=3306,charset='utf8')

cursor = conn.cursor()

urls = ['http://www.itdecent.cn/u/57521b4790dc?order_by=shared_at&page={}'.format(str(i)) for i in range(1,17)]

headers = {

? ? 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'

? ? }

for url in urls:

? ? html = requests.get(url,headers=headers)

? ? selector = etree.HTML(html.text)

? ? infos = selector.xpath('//ul[@class="note-list"]/li')

? ? for info in infos:

? ? ? ? title = info.xpath('div/a/text()')[0]

? ? ? ? total_read = info.xpath('div/div/a[1]/text()')[1].strip()

? ? ? ? words = info.xpath('div/div/a[2]/text()')[1].strip()

? ? ? ? liked = info.xpath('div/div/span[1]/text()')[0].strip()

? ? ? ? cursor.execute("insert into jianshu(title,total_read,words,liked) values(%s,%s,%s,%s)",

? ? ? ? ? ? ? ? ? ? ? (str(title),str(total_read),str(words),str(liked)))

? ? ? ? conn.commit()

運行代碼過后,打開mysql,發(fā)現(xiàn)數(shù)據(jù)已經(jīng)保存到jianshu表中。


最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

  • 引 在簡書中有很多主題頻道,里面有大量優(yōu)秀的文章,我想收集這些文章用于提取對我有用的東西; 無疑爬蟲是一個好的選擇...
    虎七閱讀 1,452評論 0 3
  • 這篇文章主要是介紹利用scrapy爬取簡書IT專欄的文章,并把爬取結果保存到數(shù)據(jù)庫中。所以實現(xiàn)這些功能的前提電腦中...
    簡訊Alfred閱讀 7,518評論 15 24
  • 回鄉(xiāng)偶書之一 最近周邊朋友同事掛在嘴邊的問候就是:什么時候回老家?又是一年過去了,老家的印象又拉近了,先生與幾位友...
    璞玉潤閱讀 335評論 0 1
  • 參數(shù)的默認值 這樣寫方便了很多,不用像es5那樣 x=x || 9那么費勁多寫一行代碼了 參數(shù)變量是默認聲明的,所...
    keknei閱讀 358評論 0 0
  • 語法結構:特殊字符 文本,中間有空格 比如:> 引用文本 反斜杠" \ ",作為轉義符號,使特殊字符失去意義比如 ...
    panda_say閱讀 302評論 0 0

友情鏈接更多精彩內容