網(wǎng)絡(luò)爬蟲(chóng)知識(shí)點(diǎn)

1.URL的清洗


2.cchardet模塊
該模塊是chardet的升級(jí)版,功能和chardet完全一樣,用來(lái)檢測(cè)一個(gè)字符串的編碼。由于是用C和C++實(shí)現(xiàn)的,所以它的速度非??欤浅_m合在爬蟲(chóng)中用來(lái)判斷網(wǎng)頁(yè)的編碼。切記,不要相信requests返回的encoding,自己判斷一下更放心。


3.traceback模塊
try來(lái)捕獲異常讓程序不中斷,但是我們又需要看看捕獲的異常是什么內(nèi)容,由此來(lái)改善我們的爬蟲(chóng)。這個(gè)時(shí)候,就需要traceback模塊。
比如在downloader()函數(shù)里面我們用try捕獲了get()的異常,但是,異常也有可能是cchardet.detect()引起的,用traceback.print_exc()來(lái)輸出異常,有助于我們發(fā)現(xiàn)更多問(wèn)題。

tips

關(guān)于拋出異常這個(gè)問(wèn)題,我之前一直是用的

          try:
              #異常
          except Exception,e:
              print e

后者只是報(bào)了個(gè)錯(cuò),但是卻不知道在哪個(gè)文件哪個(gè)函數(shù)哪一行報(bào)的錯(cuò)。而前者卻會(huì)告訴你在哪個(gè)文件的哪一行報(bào)錯(cuò)


未完待續(xù)。。。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 一、簡(jiǎn)介 Python最強(qiáng)大的結(jié)構(gòu)之一就是它的異常處理能力,所有的標(biāo)準(zhǔn)異常都使用類(lèi)來(lái)實(shí)現(xiàn),都是基類(lèi)Exceptio...
    隨風(fēng)化作雨閱讀 3,148評(píng)論 0 1
  • 轉(zhuǎn)載自:JmilkFan_范桂颶:http://blog.csdn.net/jmilk 異常 異常即非正常狀態(tài),在...
    ccq_inori閱讀 3,835評(píng)論 0 1
  • 趙辛楣有一段極經(jīng)典的對(duì)白—— “像咱們這種旅行,最試驗(yàn)得出一個(gè)人的品性。旅行是最勞頓,最麻煩,叫人本相畢現(xiàn)的時(shí)候。...
    Crystal雯瑤閱讀 284評(píng)論 0 0
  • 天降寒云雷沒(méi)頭,聲聲敲落惹心愁 嘯風(fēng)若解千重意,故雨何需喚舊柔 緣陌錯(cuò),幾回眸,闌珊覓亂影何求 經(jīng)年客把相思種,盼...
    醉吟詩(shī)酒行閱讀 268評(píng)論 0 0
  • 我一直有一個(gè)觀點(diǎn):在多數(shù)的情境下,人的能力,跟智商沒(méi)有關(guān)系,跟年齡沒(méi)有關(guān)系,只跟經(jīng)歷有關(guān)系。 這個(gè)觀點(diǎn)的意思是,你...
    古侯子閱讀 2,368評(píng)論 1 38

友情鏈接更多精彩內(nèi)容