Python小記:selenium+PhantomJS爬蟲解決頁面js添加cookie

爬到了一個(gè)無比糾結(jié)的網(wǎng)站,爬蟲遇到了阻礙,從頁面直接瀏覽的時(shí)候幾乎感覺不出來什么,但是直接使用爬蟲訪問該網(wǎng)站會(huì)出現(xiàn)如下問題:

[scrapy] DEBUG: Crawled (521)

最開始是以為爬蟲被識(shí)別出來所以被阻攔了,但是header各種偽裝都試過了,但是依舊被攔截,各種苦惱之后,無意中刷新頁面卡了一下,才從chrom中間看到使用瀏覽器正常訪問也會(huì)出現(xiàn)一個(gè)521的錯(cuò)誤。。。對(duì),一般的爬蟲框架或者是使用urllib都會(huì)在遇到5開頭的錯(cuò)誤狀態(tài)后拋出錯(cuò)誤,但是不會(huì)返回報(bào)文體或者執(zhí)行后續(xù)的callback,于是爬蟲就這樣終止了。

首先得讓爬蟲處理錯(cuò)誤,如果使用scrapy就在settings里面加入一行如下代碼,將521錯(cuò)誤添加到允許執(zhí)行的編碼內(nèi)

HTTPERROR_ALLOWED_CODES= [521]

這樣爬蟲不會(huì)忽略521錯(cuò)誤的返回,而是繼續(xù)調(diào)用回調(diào)函數(shù)。對(duì)于使用urllib2的情況可以使用try:exceptHTTPError,e:來接受返回的錯(cuò)誤報(bào)文。

通過以上方法忽略錯(cuò)誤的之后可以得到返回的報(bào)文體,是一段如下的驚人js:

var dc = "";
var t_d = {
    hello: "world", t_c: function (x) {
        if (x === "")return;
        if (x.slice(-1) === ";") {
            x = x + " ";
        }
        ;
        if (x.slice(-2) !== "; ") {
            x = x + "; ";
        }
        ;
        dc = dc + x;
    }
};
(function (a) {
    eval(function (p, a, c, k, e, d) {
        e = function (c) {
            return (c < a ? "" : e(parseInt(c / a))) + ((c = c % a) > 35 ? String.fromCharCode(c + 29) : c.toString(36))
        };
        if (!''.replace(/^/, String)) {
            while (c--)d[e(c)] = k[c] || e(c);
            k = [function (e) {
                return d[e]
            }];
            e = function () {
                return '\\w+'
            };
            c = 1;
        }
        ;
        while (c--)if (k[c])p = p.replace(new RegExp('\\b' + e(c) + '\\b', 'g'), k[c]);
        return p;
    }('b d=[3,5,4,6,0,2,1];b o=[];b p=0;g(b i=d.c;i--;){o[d[i]]=a[i]}o=o.m(\'\');g(b i=0;i<o.c;i++){l(o.q(i)===\';\'){s(o,p,i);p=i+1}}s(o,p,o.c);j s(t,r,n){k.h(t.y(r,n))};w("f.e=f.e.v(/[\\?|&]u-x/, \'\')",z);', 36, 36, '|||||||||||var|length||href|location|for|t_c||function|t_d|if|join||||charAt||||captcha|replace|setTimeout|challenge|substring|1500'.split('|'), 0, {}));
})(['|gMKn7WE1X5yhK2iRQ%2BuBd6yeqz', 'at, 05-Dec-15 09:5', 's%3D;Expires=S', '8:18 GMT;Path=/;', '__jsl_cle', '898.818|0', 'arance=1449305']);
document.cookie = dc;

個(gè)人對(duì)js還是比較熟悉的,研究了一下,這段代碼的作用就是生成一個(gè)cookie存到瀏覽器中,并且刷新瀏覽器,但是在執(zhí)行中部分代碼是通過eval來執(zhí)行字符串中打亂的動(dòng)態(tài)js,這樣就基本斷絕了我想用Python來模擬這段js的想法,因?yàn)槲覜]有辦法分析動(dòng)態(tài)生成的js生成Python。

這種情況只能用本地的js引擎來解析代碼得到cookies了,現(xiàn)在比較多的大概是寄予v8的Pyv8個(gè)人比較喜歡但是無奈配置環(huán)境太坑還需研究,就選擇了selenium+PhantomJS,環(huán)境配置見上一篇文章。

具體使用的時(shí)候上來就踩了一個(gè)坑,我原來的想法是是用phantomjs來模擬瀏覽器訪問首頁得到cookie然后再傳遞給爬蟲來進(jìn)行訪問,但是失敗了,可能服務(wù)器端對(duì)端口號(hào)做了記錄,畢竟這是兩個(gè)不同的程序。于是采用了第二種方法,獲取js后修改部分寫入文件通過shell調(diào)用phantomjs執(zhí)行輸出cookie,Python接收返回的cookie后再進(jìn)行訪問,試驗(yàn)后成功,關(guān)鍵代碼如下:

def getSession(self, response):
        f = open('getcookie.js', "w+")
        # 重構(gòu)js
        js = response.body
        js = str(js).replace("<script>", '')
        js = js.replace("</script>", '')
        js = js.replace("document.cookie=dc", 'console.log(dc);phantom.exit()')
        f.write(js)
        f.close()
        # 獲取js執(zhí)行得到的cookie
        status, output = commands.getstatusoutput('phantomjs getcookie.js')

        # 重構(gòu)cookie格式化
        cookielist = output.split("; ")
        cookie = {}
        for sel in cookielist:
            Sel = sel.split("=")
            if len(Sel) > 1:
                cookie.setdefault(Sel[0], Sel[1])

        while self.num < self.max_num:
            self.num += 1
            yield Request("http://zhixing.court.gov.cn/search/detail?id=" + str(self.num)
                          , headers=self.headers
                          , cookies=cookie)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容