今天遇到一個(gè)頁(yè)面,明明 有內(nèi)容,可是用response.doc節(jié)點(diǎn),就是解析不出內(nèi)容,顯示的是None。
經(jīng)過排查,是因?yàn)檫@個(gè)頁(yè)面里有一些特殊字符(亂碼),pyspider內(nèi)置的pyquery沒能正確轉(zhuǎn)碼頁(yè)面。
解決辦法:
手動(dòng)轉(zhuǎn)碼一次,然后忽略錯(cuò)誤編碼字符:
response.content = (response.content).decode('gbk', errors='ignore') #目標(biāo)站是GBK 編碼