xiaolinBot（Twitter笑話集錦爬蟲Bot） Step1－最簡爬蟲

Step1 - 最簡爬蟲

前文提要

xiaolinBot（Twitter笑話集錦爬蟲Bot） Step0－概述

環(huán)境準備

Python3.5 最好使用venv

另外需要兩個必要的庫：

requests : 一個封裝了HTTP服務的python庫
pyquery : 類似Jquery，使用非常方便

$ pip install requests
$ pip install pyquery

開始

實現(xiàn)第一個應用

我們第一個應用實現(xiàn)的功能主要如下：

訪問一個頁面,這里我們以糗事百科(http://www.qiushibaike.com/) 為例
獲得頁面的內容
進行簡單的處理，獲得我們需要的內容


import requests
from pyquery import PyQuery as pq

__author__ = 'BONFY CHEN <foreverbonfy@163.com>'


SITE = 'http://www.qiushibaike.com/'
r = requests.get(SITE)
assert r.status_code == 200
d = pq(r.text)
contents = d("div .article")
for item in contents:
    i = pq(item)
    content = i("div .content").text()
    print(content)

結果

簡單分析

利用 requests.get 獲得頁面
assert 斷言，如果網(wǎng)絡問題訪問不到就退出
contents 利用 pyquery 獲得所有文章后續(xù) 讀取 div class ＝ "content" 的為文本內容（這里沒有處理圖片后續(xù)的講解中會完善）
print 輸出

完整代碼

補充模仿瀏覽器的Headers,詳情見 https://github.com/bonfy/xiaolinBot

歡迎關注及一起交流

下一篇已發(fā)布： xiaolinBot（Twitter笑話集錦爬蟲Bot） Step2－代碼優(yōu)化

最后編輯于：2017.12.03 05:33:06

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成，瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發(fā)布，文章內容僅代表作者本人觀點，簡書系信息發(fā)布平臺，僅提供信息存儲服務。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

xiaolinBot（Twitter笑話集錦爬蟲Bot） Step1－最簡爬蟲

xiaolinBot（Twitter笑話集錦爬蟲Bot） Step1－最簡爬蟲

Step1 - 最簡爬蟲

前文提要

環(huán)境準備

開始

實現(xiàn)第一個應用

結果

簡單分析

完整代碼

相關閱讀更多精彩內容

友情鏈接更多精彩內容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

xiaolinBot（Twitter笑話集錦爬蟲Bot） Step1－最簡爬蟲

Step1 - 最簡爬蟲

前文提要

環(huán)境準備

開始

實現(xiàn)第一個應用

結果

簡單分析

完整代碼

相關閱讀更多精彩內容

友情鏈接更多精彩內容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av