久久性爰视频,91啪啪啪啪

爬到了一個(gè)無比糾結(jié)的網(wǎng)站，爬蟲遇到了阻礙，從頁面直接瀏覽的時(shí)候幾乎感覺不出來什么，但是直接使用爬蟲訪問該網(wǎng)站會(huì)出現(xiàn)如下問題：

[scrapy] DEBUG: Crawled (521)

最開始是以為爬蟲被識(shí)別出來所以被阻攔了，但是header各種偽裝都試過了，但是依舊被攔截，各種苦惱之后，無意中刷新頁面卡了一下，才從chrom中間看到使用瀏覽器正常訪問也會(huì)出現(xiàn)一個(gè)521的錯(cuò)誤。。。對(duì)，一般的爬蟲框架或者是使用urllib都會(huì)在遇到5開頭的錯(cuò)誤狀態(tài)后拋出錯(cuò)誤，但是不會(huì)返回報(bào)文體或者執(zhí)行后續(xù)的callback，于是爬蟲就這樣終止了。

首先得讓爬蟲處理錯(cuò)誤，如果使用scrapy就在settings里面加入一行如下代碼,將521錯(cuò)誤添加到允許執(zhí)行的編碼內(nèi)

HTTPERROR_ALLOWED_CODES= [521]

這樣爬蟲不會(huì)忽略521錯(cuò)誤的返回，而是繼續(xù)調(diào)用回調(diào)函數(shù)。對(duì)于使用urllib2的情況可以使用try：exceptHTTPError,e：來接受返回的錯(cuò)誤報(bào)文。

通過以上方法忽略錯(cuò)誤的之后可以得到返回的報(bào)文體，是一段如下的驚人js：

var dc = "";
var t_d = {
    hello: "world", t_c: function (x) {
        if (x === "")return;
        if (x.slice(-1) === ";") {
            x = x + " ";
        }
        ;
        if (x.slice(-2) !== "; ") {
            x = x + "; ";
        }
        ;
        dc = dc + x;
    }
};
(function (a) {
    eval(function (p, a, c, k, e, d) {
        e = function (c) {
            return (c < a ? "" : e(parseInt(c / a))) + ((c = c % a) > 35 ? String.fromCharCode(c + 29) : c.toString(36))
        };
        if (!''.replace(/^/, String)) {
            while (c--)d[e(c)] = k[c] || e(c);
            k = [function (e) {
                return d[e]
            }];
            e = function () {
                return '\\w+'
            };
            c = 1;
        }
        ;
        while (c--)if (k[c])p = p.replace(new RegExp('\\b' + e(c) + '\\b', 'g'), k[c]);
        return p;
    }('b d=[3,5,4,6,0,2,1];b o=[];b p=0;g(b i=d.c;i--;){o[d[i]]=a[i]}o=o.m(\'\');g(b i=0;i<o.c;i++){l(o.q(i)===\';\'){s(o,p,i);p=i+1}}s(o,p,o.c);j s(t,r,n){k.h(t.y(r,n))};w("f.e=f.e.v(/[\\?|&]u-x/, \'\')",z);', 36, 36, '|||||||||||var|length||href|location|for|t_c||function|t_d|if|join||||charAt||||captcha|replace|setTimeout|challenge|substring|1500'.split('|'), 0, {}));
})(['|gMKn7WE1X5yhK2iRQ%2BuBd6yeqz', 'at, 05-Dec-15 09:5', 's%3D;Expires=S', '8:18 GMT;Path=/;', '__jsl_cle', '898.818|0', 'arance=1449305']);
document.cookie = dc;

個(gè)人對(duì)js還是比較熟悉的，研究了一下，這段代碼的作用就是生成一個(gè)cookie存到瀏覽器中，并且刷新瀏覽器，但是在執(zhí)行中部分代碼是通過eval來執(zhí)行字符串中打亂的動(dòng)態(tài)js，這樣就基本斷絕了我想用Python來模擬這段js的想法，因?yàn)槲覜]有辦法分析動(dòng)態(tài)生成的js生成Python。

這種情況只能用本地的js引擎來解析代碼得到cookies了，現(xiàn)在比較多的大概是寄予v8的Pyv8個(gè)人比較喜歡但是無奈配置環(huán)境太坑還需研究，就選擇了selenium+PhantomJS，環(huán)境配置見上一篇文章。

具體使用的時(shí)候上來就踩了一個(gè)坑，我原來的想法是是用phantomjs來模擬瀏覽器訪問首頁得到cookie然后再傳遞給爬蟲來進(jìn)行訪問，但是失敗了，可能服務(wù)器端對(duì)端口號(hào)做了記錄，畢竟這是兩個(gè)不同的程序。于是采用了第二種方法，獲取js后修改部分寫入文件通過shell調(diào)用phantomjs執(zhí)行輸出cookie，Python接收返回的cookie后再進(jìn)行訪問，試驗(yàn)后成功，關(guān)鍵代碼如下：

def getSession(self, response):
        f = open('getcookie.js', "w+")
        # 重構(gòu)js
        js = response.body
        js = str(js).replace("<script>", '')
        js = js.replace("</script>", '')
        js = js.replace("document.cookie=dc", 'console.log(dc);phantom.exit()')
        f.write(js)
        f.close()
        # 獲取js執(zhí)行得到的cookie
        status, output = commands.getstatusoutput('phantomjs getcookie.js')

        # 重構(gòu)cookie格式化
        cookielist = output.split("; ")
        cookie = {}
        for sel in cookielist:
            Sel = sel.split("=")
            if len(Sel) > 1:
                cookie.setdefault(Sel[0], Sel[1])

        while self.num < self.max_num:
            self.num += 1
            yield Request("http://zhixing.court.gov.cn/search/detail?id=" + str(self.num)
                          , headers=self.headers
                          , cookies=cookie)

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

Python小記：selenium+PhantomJS爬蟲解決頁面js添加cookie

Python小記：selenium+PhantomJS爬蟲解決頁面js添加cookie

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

Python小記：selenium+PhantomJS爬蟲解決頁面js添加cookie

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av