scrapy小記

scrapy入門學(xué)習地圖

scrapy 框架:http://doc.scrapy.org/en/latest/topics/architecture.html

爬蟲學(xué)習路線:

關(guān)于爬蟲學(xué)習曲線,曾經(jīng)在知乎上發(fā)現(xiàn)一篇文章,現(xiàn)轉(zhuǎn)載過來:

地址:```http://www.zhihu.com/question/20899988 作者:謝科

問題:Python 爬蟲如何入門學(xué)習?

先長話短說summarize一下:
你需要學(xué)習

基本的爬蟲工作原理

基本的http抓取工具,scrapy

Bloom Filter: [
[
[http://billmill.org/bloomfilter-tutorial/

如果需要大規(guī)模網(wǎng)頁抓取,你需要學(xué)習分布式爬蟲的概念。其實沒那么玄乎,你只要學(xué)會怎樣維護一個所有集群機器能夠有效分享的分布式隊列就好。最簡單的實現(xiàn)是python-rq:[https://
github.com/nvie/rq

rq和Scrapy的結(jié)合:[
[https://github.com/darkrho/scrapy-redis

后續(xù)處理,網(wǎng)頁析取([https://github.com/grangier/python-goose
[
[

),存儲(Mongodb)

錯誤403:
403錯誤,是一種在網(wǎng)站訪問過程中,常見的錯誤提示。
403錯誤,表示資源不可用。服務(wù)器理解客戶的請求,但拒絕處理它,通常由于服務(wù)器上文件或目錄的權(quán)限設(shè)置導(dǎo)致的WEB訪問錯誤。

403.1 禁止:禁止執(zhí)行訪問 如果從并不允許執(zhí)行程序的目錄中執(zhí)行 CGI、ISAPI或其他執(zhí)行程序就可能引起此錯誤。 如果問題依然存在,請與 Web 服務(wù)器的管理員聯(lián)系。
403.2 禁止:禁止讀取訪問 如果沒有可用的默認網(wǎng)頁或未啟用此目錄的目錄瀏覽,或者試圖顯示駐留在只標記為執(zhí)行或腳本權(quán)限的目錄中的HTML 頁時就會導(dǎo)致此錯誤。 如果問題依然存在,請與 Web 服務(wù)器的管理員聯(lián)系。
403.3 禁止:禁止寫訪問 如果試圖上載或修改不允許寫訪問的目錄中的文件,就會導(dǎo)致此問題。 如果問題依然存在,請與 Web服務(wù)器的管理員聯(lián)系。
403.4 禁止:需要 SSL 此錯誤表明試圖訪問的網(wǎng)頁受安全套接字層(SSL)的保護。要查看,必須在試圖訪問的地址前輸入https:// 以啟用 SSL。 如果問題依然存在,請與 Web服務(wù)器的管理員聯(lián)系。
403.5 禁止:需要 SSL 128 此錯誤消息表明您試圖訪問的資源受 128位的安全套接字層(SSL)保護。要查看此資源,需要有支持此SSL 層的瀏覽器。 請確認瀏覽器是否支持 128 位 SSL安全性。如果支持,就與 Web服務(wù)器的管理員聯(lián)系,并報告問題。
403.6 禁止:拒絕 IP 地址 如果服務(wù)器含有不允許訪問此站點的 IP地址列表,并且您正使用的 IP地址在此列表中,就會導(dǎo)致此問題。 如果問題依然存在,請與 Web服務(wù)器的管理員聯(lián)系。
403.7 禁止:需要用戶證書 當試圖訪問的資源要求瀏覽器具有服務(wù)器可識別的用戶安全套接字層(SSL)證書時就會導(dǎo)致此問題??捎脕眚炞C您是否為此資源的合法用戶。 請與 Web服務(wù)器的管理員聯(lián)系以獲取有效的用戶證書。
403.8 禁止:禁止站點訪問 如果 Web服務(wù)器不為請求提供服務(wù),或您沒有連接到此站點的權(quán)限時,就會導(dǎo)致此問題。 請與 Web 服務(wù)器的管理員聯(lián)系。
403.9 禁止訪問:所連接的用戶太多 如果 Web太忙并且由于流量過大而無法處理您的請求時就會導(dǎo)致此問題。請稍后再次連接。 如果問題依然存在,請與 Web 服務(wù)器的管理員聯(lián)系。
403.10 禁止訪問:配置無效 此時 Web 服務(wù)器的配置存在問題。 如果問題依然存在,請與 Web服務(wù)器的管理員聯(lián)系。
403.11 禁止訪問:密碼已更改 在身份驗證的過程中如果用戶輸入錯誤的密碼,就會導(dǎo)致此錯誤。請刷新網(wǎng)頁并重試。 如果問題依然存在,請與 Web服務(wù)器的管理員聯(lián)系。
403.12 禁止訪問:映射程序拒絕訪問 拒絕用戶證書試圖訪問此 Web 站點。 請與站點管理員聯(lián)系以建立用戶證書權(quán)限。如果必要,也可以更改用戶證書并重試。

solution:在settings.py里加入如下內(nèi)容就可以模擬瀏覽器了
USER_AGENT = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:45.0) Gecko/20100101 Firefox/45.0'


在Python的正則表達式中,有一個參數(shù)為re.S。它表示多行匹配。
在字符串a(chǎn)中,包含換行符\n,在這種情況下,如果不使用re.S參數(shù),則只在每一行內(nèi)進行匹配,如果一行沒有,就換下一行重新開始。而使用re.S參數(shù)以后,正則表達式會將這個字符串作為一個整體,在整體中進行匹配。


匹配內(nèi)容:


QQ圖片20160611152751.png
Paste_Image.png

IndentationError: unindent does not match any outer indentation level
一般是縮進問題

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 網(wǎng)絡(luò)請求是iOS項目的一個大部分,而且大部分的iOS的項目的網(wǎng)絡(luò)請求是根據(jù)AFN進行的二次封裝,我們查看返回的結(jié)果...
    FR_Zhang閱讀 7,257評論 15 46
  • 在iOS開發(fā)中經(jīng)常會遇到網(wǎng)絡(luò)請求的錯誤, 一方面可能會是自己網(wǎng)絡(luò)請求的方式, 參數(shù), 請求頭等造成的; 另一方面可...
    火之玉閱讀 11,826評論 0 12
  • 在寫web程序的時候,經(jīng)常會出現(xiàn)一些網(wǎng)頁錯誤的數(shù)字提示,如果能夠明白這些提示的含義,那對于調(diào)試程序是有極大幫助的。...
    zoluo閱讀 1,338評論 0 1
  • HTTP 錯誤 400 400 請求出錯 由于語法格式有誤,服務(wù)器無法理解此請求。不作修改,客戶程序就無法重復(fù)此請...
    deeper_iOS閱讀 1,830評論 0 1
  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務(wù)發(fā)現(xiàn),斷路器,智...
    卡卡羅2017閱讀 136,500評論 19 139

友情鏈接更多精彩內(nèi)容