Step1 - 最簡爬蟲
前文提要
- xiaolinBot(Twitter笑話集錦爬蟲Bot) Step0-概述
環(huán)境準備
Python3.5 最好使用venv
另外需要兩個必要的庫:
$ pip install requests
$ pip install pyquery
開始
實現(xiàn)第一個應用
我們第一個應用實現(xiàn)的功能主要如下:
- 訪問一個頁面,這里我們以 糗事百科(http://www.qiushibaike.com/) 為例
- 獲得頁面的內容
- 進行簡單的處理,獲得我們需要的內容
import requests
from pyquery import PyQuery as pq
__author__ = 'BONFY CHEN <foreverbonfy@163.com>'
SITE = 'http://www.qiushibaike.com/'
r = requests.get(SITE)
assert r.status_code == 200
d = pq(r.text)
contents = d("div .article")
for item in contents:
i = pq(item)
content = i("div .content").text()
print(content)
結果

結果
簡單分析
- 利用 requests.get 獲得頁面
- assert 斷言,如果網(wǎng)絡問題 訪問不到就退出
- contents 利用 pyquery 獲得所有文章 后續(xù) 讀取 div class = "content" 的為文本內容 (這里沒有處理圖片后續(xù)的講解中會完善)
- print 輸出
完整代碼
補充模仿瀏覽器的Headers,詳情見 https://github.com/bonfy/xiaolinBot
歡迎關注及一起交流
下一篇已發(fā)布: xiaolinBot(Twitter笑話集錦爬蟲Bot) Step2-代碼優(yōu)化