亚洲色啪熟女国产精品,精品人妻一区二区综合

有的網(wǎng)頁是gb2312編碼，則需要將response.body判斷編碼，并解碼

    #檢查編碼
    def check_encoding(self,response):
        import chardet
        #
        #detect傳入的是bytes
        # 返回{'confidence': 0.99, 'encoding': 'GB2312'}
        # 'encoding': 'utf-8'
        encoding_info = chardet.detect(response.body)
        encoding = encoding_info.get('encoding')
        #非utf-8則解碼
        if encoding != 'utf-8':
            # 如果是gb2312,則用gbk來解碼,gbk可以解碼繁體字以及日文假文等,解碼更強(qiáng)
            if encoding.lower()=='gb2312':
                encoding = 'gbk'
            new_body = response.body.decode(encoding)
            #替換原來的body內(nèi)容
            response = response.replace(body=new_body)

        return response

另外關(guān)于gb2312和gbk解碼
問題：UnicodeDecodeError: 'gb2312' codec can't decode bytes in position 2-3: illegal multibyte sequence
原因：Python在做將普通字符串轉(zhuǎn)換為unicode對象時，
例如:u_string = unicode(string , "gb2312")，如果你的字符串string中有諸如某些繁體字，例如"河滘小學(xué)"
中的滘，那么gb2312作為簡體中文編碼是不能進(jìn)行解析的，必須使用國標(biāo)擴(kuò)展碼gbk，gbk支持繁體中文和日文假文

解決方法：使用gbk，代替gb2312，例如:u_string = unicode(string , "gbk")

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

抓取的網(wǎng)頁內(nèi)容是gb2312，轉(zhuǎn)換為utf－8

抓取的網(wǎng)頁內(nèi)容是gb2312，轉(zhuǎn)換為utf－8

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

抓取的網(wǎng)頁內(nèi)容是gb2312，轉(zhuǎn)換為utf－8

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av