一.問題背景

最近因?yàn)樽鰯?shù)據(jù)分析需要用到py去爬取數(shù)據(jù)，然后學(xué)習(xí)了py爬蟲的基礎(chǔ)。筆者爬取的是LPL春季賽的戰(zhàn)隊(duì)比賽數(shù)據(jù)，然后在這個(gè)過程中遇到了亂碼問題。

二.問題分析

以下是爬取數(shù)據(jù)的部分代碼

url = 'https://lpl.qq.com/es/data/rank.shtml?iGameId=134&sGameType=1,5'
res = requests.get(url,params=params,headers=headers)

獲得res后筆者就順手打印了一下res.text()，結(jié)果是正常打印如下：

image.png

發(fā)現(xiàn)有亂碼產(chǎn)生，然后筆者看到網(wǎng)頁的charset='gbk'，于是就想著直接encode('gbk')，但是卻發(fā)現(xiàn)還是不對(duì)。

r = res.text.encode('gbk')
print(r)

結(jié)果報(bào)錯(cuò)如下：

image.png

然后筆者將錯(cuò)誤復(fù)制到度娘查詢一番之后，才了解str轉(zhuǎn)bytes叫encode，bytes轉(zhuǎn)str叫decode。所以要把res.text轉(zhuǎn)編碼就得先轉(zhuǎn)成bytes然后再解碼才行。

于是，筆者開始嘗試。在嘗試以上方法之前，筆者先打印了一下res.text的encoding

print(res.encoding)
#結(jié)果如下
D:\IT\untitled\venv\Scripts\python.exe D:/IT/untitled/lpl_spider.py
ISO-8859-1

Process finished with exit code 0

很明顯，res的編碼是ISO-8859-1，所以筆者下面的嘗試就有頭緒了，先將res.text用ISO-8859-1轉(zhuǎn)換成bytes，然后將轉(zhuǎn)好的bytes用網(wǎng)頁的charset 也就是gbk解碼即可。
具體代碼如下：

r = res.text.encode('ISO-8859-1').decode('gbk')
print(r)

下圖可以發(fā)現(xiàn)，中文亂碼問題解決了。

image.png

python3里面，字符串要先encode手動(dòng)指定其為某一編碼的字節(jié)碼之后，才能decode解碼。

爬蟲編碼亂碼解決思路：

response.text.encode('A').decode('爬取網(wǎng)頁的charset')