爬到了一個(gè)無比糾結(jié)的網(wǎng)站,爬蟲遇到了阻礙,從頁面直接瀏覽的時(shí)候幾乎感覺不出來什么,但是直接使用爬蟲訪問該網(wǎng)站會(huì)出現(xiàn)如下問題:
[scrapy] DEBUG: Crawled (521)
最開始是以為爬蟲被識(shí)別出來所以被阻攔了,但是header各種偽裝都試過了,但是依舊被攔截,各種苦惱之后,無意中刷新頁面卡了一下,才從chrom中間看到使用瀏覽器正常訪問也會(huì)出現(xiàn)一個(gè)521的錯(cuò)誤。。。對(duì),一般的爬蟲框架或者是使用urllib都會(huì)在遇到5開頭的錯(cuò)誤狀態(tài)后拋出錯(cuò)誤,但是不會(huì)返回報(bào)文體或者執(zhí)行后續(xù)的callback,于是爬蟲就這樣終止了。
首先得讓爬蟲處理錯(cuò)誤,如果使用scrapy就在settings里面加入一行如下代碼,將521錯(cuò)誤添加到允許執(zhí)行的編碼內(nèi)
HTTPERROR_ALLOWED_CODES= [521]
這樣爬蟲不會(huì)忽略521錯(cuò)誤的返回,而是繼續(xù)調(diào)用回調(diào)函數(shù)。對(duì)于使用urllib2的情況可以使用try:exceptHTTPError,e:來接受返回的錯(cuò)誤報(bào)文。
通過以上方法忽略錯(cuò)誤的之后可以得到返回的報(bào)文體,是一段如下的驚人js:
var dc = "";
var t_d = {
hello: "world", t_c: function (x) {
if (x === "")return;
if (x.slice(-1) === ";") {
x = x + " ";
}
;
if (x.slice(-2) !== "; ") {
x = x + "; ";
}
;
dc = dc + x;
}
};
(function (a) {
eval(function (p, a, c, k, e, d) {
e = function (c) {
return (c < a ? "" : e(parseInt(c / a))) + ((c = c % a) > 35 ? String.fromCharCode(c + 29) : c.toString(36))
};
if (!''.replace(/^/, String)) {
while (c--)d[e(c)] = k[c] || e(c);
k = [function (e) {
return d[e]
}];
e = function () {
return '\\w+'
};
c = 1;
}
;
while (c--)if (k[c])p = p.replace(new RegExp('\\b' + e(c) + '\\b', 'g'), k[c]);
return p;
}('b d=[3,5,4,6,0,2,1];b o=[];b p=0;g(b i=d.c;i--;){o[d[i]]=a[i]}o=o.m(\'\');g(b i=0;i<o.c;i++){l(o.q(i)===\';\'){s(o,p,i);p=i+1}}s(o,p,o.c);j s(t,r,n){k.h(t.y(r,n))};w("f.e=f.e.v(/[\\?|&]u-x/, \'\')",z);', 36, 36, '|||||||||||var|length||href|location|for|t_c||function|t_d|if|join||||charAt||||captcha|replace|setTimeout|challenge|substring|1500'.split('|'), 0, {}));
})(['|gMKn7WE1X5yhK2iRQ%2BuBd6yeqz', 'at, 05-Dec-15 09:5', 's%3D;Expires=S', '8:18 GMT;Path=/;', '__jsl_cle', '898.818|0', 'arance=1449305']);
document.cookie = dc;
個(gè)人對(duì)js還是比較熟悉的,研究了一下,這段代碼的作用就是生成一個(gè)cookie存到瀏覽器中,并且刷新瀏覽器,但是在執(zhí)行中部分代碼是通過eval來執(zhí)行字符串中打亂的動(dòng)態(tài)js,這樣就基本斷絕了我想用Python來模擬這段js的想法,因?yàn)槲覜]有辦法分析動(dòng)態(tài)生成的js生成Python。
這種情況只能用本地的js引擎來解析代碼得到cookies了,現(xiàn)在比較多的大概是寄予v8的Pyv8個(gè)人比較喜歡但是無奈配置環(huán)境太坑還需研究,就選擇了selenium+PhantomJS,環(huán)境配置見上一篇文章。
具體使用的時(shí)候上來就踩了一個(gè)坑,我原來的想法是是用phantomjs來模擬瀏覽器訪問首頁得到cookie然后再傳遞給爬蟲來進(jìn)行訪問,但是失敗了,可能服務(wù)器端對(duì)端口號(hào)做了記錄,畢竟這是兩個(gè)不同的程序。于是采用了第二種方法,獲取js后修改部分寫入文件通過shell調(diào)用phantomjs執(zhí)行輸出cookie,Python接收返回的cookie后再進(jìn)行訪問,試驗(yàn)后成功,關(guān)鍵代碼如下:
def getSession(self, response):
f = open('getcookie.js', "w+")
# 重構(gòu)js
js = response.body
js = str(js).replace("<script>", '')
js = js.replace("</script>", '')
js = js.replace("document.cookie=dc", 'console.log(dc);phantom.exit()')
f.write(js)
f.close()
# 獲取js執(zhí)行得到的cookie
status, output = commands.getstatusoutput('phantomjs getcookie.js')
# 重構(gòu)cookie格式化
cookielist = output.split("; ")
cookie = {}
for sel in cookielist:
Sel = sel.split("=")
if len(Sel) > 1:
cookie.setdefault(Sel[0], Sel[1])
while self.num < self.max_num:
self.num += 1
yield Request("http://zhixing.court.gov.cn/search/detail?id=" + str(self.num)
, headers=self.headers
, cookies=cookie)