0x01
春節(jié)閑著沒事(是有多閑),就寫了個(gè)簡單的程序,來爬點(diǎn)笑話看,順帶記錄下寫程序的過程。第一次接觸爬蟲是看了這么一個(gè)帖子,一個(gè)逗逼,爬取煎蛋網(wǎng)上妹子的照片,簡直不要太方便。于是乎就自己照貓畫虎,抓了點(diǎn)圖片。
科技啟迪未來,身為一個(gè)程序員,怎么能干這種事呢,還是爬點(diǎn)笑話比較有益于身心健康。

0x02
在我們擼起袖子開始搞之前,先來普及點(diǎn)理論知識(shí)。
簡單地說,我們要把網(wǎng)頁上特定位置的內(nèi)容,扒拉下來,具體怎么扒拉,我們得先分析這個(gè)網(wǎng)頁,看那塊內(nèi)容是我們需要的。比如,這次爬取的是捧腹網(wǎng)上的笑話,打開 捧腹網(wǎng)段子頁我們可以看到一大堆笑話,我們的目的就是獲取這些內(nèi)容。看完回來冷靜一下,你這樣一直笑,我們沒辦法寫代碼。在 chrome 中,我們打開 審查元素 然后一級(jí)一級(jí)的展開 HTML 標(biāo)簽,或者點(diǎn)擊那個(gè)小鼠標(biāo),定位我們所需要的元素。

最后可以發(fā)現(xiàn)
<div class="content-img clearfix pt10 relative"> 中的內(nèi)容就是我們所需要的笑話,在看第二條笑話,也是這樣。于是乎,我們就可以把這個(gè)網(wǎng)頁中所有的 <div class="content-img clearfix pt10 relative"> 找到,然后把里邊的內(nèi)容提取出來,就完成了。
0x03
好了,現(xiàn)在我們知道我們的目的了,就可以擼起袖子開始干了。這里我用的 python3,關(guān)于 python2 和 python3 的選用,大家可以自行決定,功能都可以實(shí)現(xiàn),只是有些許不同。但還是建議用 python3。
我們要扒拉下我們需要的內(nèi)容,首先我們得把這個(gè)網(wǎng)頁扒拉下來,怎么扒拉呢,這里我們要用到一個(gè)庫,叫 urllib,我們用這個(gè)庫提供的方法,來獲取整個(gè)網(wǎng)頁。
首先,我們導(dǎo)入 urllib
import urllib.request as request
然后,我們就可以使用 request 來獲取網(wǎng)頁了,
def getHTML(url):
return request.urlopen(url).read()
人生苦短,我用 python,一行代碼,下載網(wǎng)頁,你說,還有什么理由不用 python。
下載完網(wǎng)頁后,我們就得解析這個(gè)網(wǎng)頁了來獲取我們所需要的元素。為了解析元素,我們需要使用另外一個(gè)工具,叫做 Beautiful Soup,使用它,可以快速解析 HTML 和 XML并獲取我們所需要的元素。
soup = BeautifulSoup(getHTML("http://www.pengfu.com/xiaohua_1.html"))
用 BeautifulSoup 來解析網(wǎng)頁也就一句話,但當(dāng)你運(yùn)行代碼的時(shí)候,會(huì)出現(xiàn)這么一個(gè)警告,提示要指定一個(gè)解析器,不然,可能會(huì)在其他平臺(tái)或者系統(tǒng)上報(bào)錯(cuò)。
/Library/Frameworks/Python.framework/Versions/3.5/lib/python3.5/site-packages/bs4/__init__.py:181: UserWarning: No parser was explicitly specified, so I'm using the best available HTML parser for this system ("lxml"). This usually isn't a problem, but if you run this code on another system, or in a different virtual environment, it may use a different parser and behave differently.
The code that caused this warning is on line 64 of the file joke.py. To get rid of this warning, change code that looks like this:
BeautifulSoup([your markup])
to this:
BeautifulSoup([your markup], "lxml")
markup_type=markup_type))
解析器的種類 和 不同解析器之間的區(qū)別 官方文檔有詳細(xì)的說明,目前來說,還是用 lxml 解析比較靠譜。
修改之后
soup = BeautifulSoup(getHTML("http://www.pengfu.com/xiaohua_1.html", 'lxml'))
這樣,就沒有上述警告了。
div_array = soup.find_all('div', {'class':"content-img clearfix pt10 relative"})
利用 find_all 函數(shù),來找到所有 class = content-img clearfix pt10 relative 的 div 標(biāo)簽 然后遍歷這個(gè)數(shù)組
for x in div_array:
content = x.string
這樣,我們就取到了目的 div 的內(nèi)容。至此,我們已經(jīng)達(dá)到了我們的目的,爬到了我們的笑話。
但當(dāng)以同樣的方式去爬取糗百的時(shí)候,會(huì)報(bào)這樣一個(gè)錯(cuò)誤
raise RemoteDisconnected("Remote end closed connection without"
http.client.RemoteDisconnected: Remote end closed connection without response
說遠(yuǎn)端無響應(yīng),關(guān)閉了鏈接,看了下網(wǎng)絡(luò)也沒有問題,這是什么情況導(dǎo)致的呢?莫非是我姿勢不對(duì)?
打開 charles 抓包,果然也沒反應(yīng)。唉,這就奇怪了,好好的一個(gè)網(wǎng)站,怎么瀏覽器可以訪問,python 無法訪問呢,是不是 UA 的問題呢?看了下 charles,發(fā)現(xiàn),利用 urllib 發(fā)起的請(qǐng)求,UA 默認(rèn)是 Python-urllib/3.5 而在 chrome 中訪問 UA 則是 User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36,那會(huì)不會(huì)是因?yàn)榉?wù)器根據(jù) UA 來判斷拒絕了 python 爬蟲。我們來偽裝下試試看行不行
def getHTML(url):
headers = {'User-Agent': 'User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'}
req = request.Request(url, headers=headers)
return request.urlopen(req).read()
這樣就把 python 偽裝成 chrome 去獲取糗百的網(wǎng)頁,可以順利的得到數(shù)據(jù)。
至此,利用 python 爬取糗百和捧腹網(wǎng)的笑話已經(jīng)結(jié)束,我們只需要分析相應(yīng)的網(wǎng)頁,找到我們感興趣的元素,利用 python 強(qiáng)大的功能,就可以達(dá)到我們的目的,不管是 XXOO 的圖,還是內(nèi)涵段子,都可以一鍵搞定,不說了,我去找點(diǎn)妹子圖看看。
# -*- coding: utf-8 -*-
import sys
import urllib.request as request
from bs4 import BeautifulSoup
def getHTML(url):
headers = {'User-Agent': 'User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'}
req = request.Request(url, headers=headers)
return request.urlopen(req).read()
def get_pengfu_results(url):
soup = BeautifulSoup(getHTML(url), 'lxml')
return soup.find_all('div', {'class':"content-img clearfix pt10 relative"})
def get_pengfu_joke():
for x in range(1, 2):
url = 'http://www.pengfu.com/xiaohua_%d.html' % x
for x in get_pengfu_results(url):
content = x.string
try:
string = content.lstrip()
print(string + '\n\n')
except:
continue
return
def get_qiubai_results(url):
soup = BeautifulSoup(getHTML(url), 'lxml')
contents = soup.find_all('div', {'class':'content'})
restlus = []
for x in contents:
str = x.find('span').getText('\n','<br/>')
restlus.append(str)
return restlus
def get_qiubai_joke():
for x in range(1, 2):
url = 'http://www.qiushibaike.com/8hr/page/%d/?s=4952526' % x
for x in get_qiubai_results(url):
print(x + '\n\n')
return
if __name__ == '__main__':
get_pengfu_joke()
get_qiubai_joke()