之前看到過一個(gè)統(tǒng)計(jì)數(shù)據(jù),80%讀者認(rèn)為Python是最好的編程語言,知乎,csdn上類似如如何入門Python?如何3個(gè)月內(nèi)入門Python的問題和文章也有很多。雖然現(xiàn)在可以學(xué)習(xí)的Python途徑很多,但是想要打好牢固的基礎(chǔ)知識(shí),系統(tǒng)的學(xué)習(xí)Python的知識(shí)體系,還需要靠閱讀專業(yè)的書籍來不斷積累。
誰會(huì)成為AI 和大數(shù)據(jù)時(shí)代的第一開發(fā)語言?如果說三年前,Matlab、Scala、R、Java 和 Python還各有機(jī)會(huì),局面尚且不清楚,那么三年之后,趨勢(shì)已經(jīng)非常明確了,特別是前兩天 Facebook 開源PyTorch 之后,Python 作為 AI 時(shí)代頭牌語言的位置基本確立。學(xué)習(xí)Python之路其修遠(yuǎn)兮,能否跨進(jìn)時(shí)下最熱的人工智能領(lǐng)域,無疑學(xué)好Python是通往高薪的捷徑之路。也有很多小伙伴發(fā)私信詢問哪些python書籍值得購買學(xué)習(xí)?
想要找一找有哪些實(shí)用的python類書籍值得閱讀,不妨看看當(dāng)當(dāng)網(wǎng)里面的圖書暢銷榜和書評(píng)吧,但是評(píng)論數(shù)據(jù)是要一頁頁翻轉(zhuǎn)頁面還是太麻煩,不妨通過簡(jiǎn)單的爬取書名和評(píng)論量等相關(guān)信息到excel,快速的查看。
通過網(wǎng)址:https://book.dangdang.com/,打開當(dāng)當(dāng)網(wǎng)官網(wǎng)網(wǎng)頁,然后根據(jù)關(guān)鍵詞點(diǎn)擊圖書排行榜,如下圖:

經(jīng)過簡(jiǎn)單的分析發(fā)現(xiàn)當(dāng)當(dāng)網(wǎng)的反爬不是很嚴(yán),主要是限制ip的訪問,爬取過程中只需要加上優(yōu)質(zhì)爬蟲代理ip的就能解決。代理的使用由2種方式,使用比較多的是通過api連接獲取代理然后再發(fā)生請(qǐng)求,還有就是隧道轉(zhuǎn)發(fā),相對(duì)api來說使用方式更簡(jiǎn)單,更方便,不用管理ip池也會(huì)節(jié)省很多時(shí)間進(jìn)行數(shù)據(jù)爬取。使用方式如下:
! -- encoding:utf-8 --
import requests
import random
# 要訪問的目標(biāo)頁面
targetUrl = "book.dangdang.com/"
# 要訪問的目標(biāo)HTTPS頁面
# targetUrl = "book.dangdang.com/"
# 代理服務(wù)器(產(chǎn)品官網(wǎng) www.16yun.cn)
proxyHost = "t.16yun.cn"
proxyPort = "31111"
# 代理驗(yàn)證信息
proxyUser = "SRVEFSDFS"
proxyPass = "434632"
proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
"host" : proxyHost,
"port" : proxyPort,
"user" : proxyUser,
"pass" : proxyPass,
}
# 設(shè)置 http和https訪問都是用HTTP代理
proxies = {
"http" : proxyMeta,
"https" : proxyMeta,
}
# 設(shè)置IP切換頭
tunnel = random.randint(1,10000)
headers = {"Proxy-Tunnel": str(tunnel)}
resp = requests.get(targetUrl, proxies=proxies, headers=headers)
print resp.status_code
print resp.text