UnicodeEncodeError輸出字符串

python中scrapy爬取網(wǎng)頁的時(shí)候 抓到一個(gè)字符串,
print出來就出現(xiàn)如下錯(cuò)誤,
UnicodeEncodeError: 'gbk' codec can't encode character u'\xa0'
后來查了一下,這個(gè)就是;nbsp,
只有去掉這個(gè)非法字符才行,臨時(shí)解決辦法:strtime = strtime.replace(u'\xa0',u'')#去掉\xa0非法字符
為什么會(huì)出現(xiàn)像這種情況,其實(shí)是和windows下編碼有關(guān),比如我創(chuàng)建文本fwrite寫入或者在print輸出到cmd,都是默認(rèn)GBK編碼。

f = open("out.txt","w")  
f.write(content)

如果content是UTF-8,其中包含'\xa0',這是允許的。
但是使用fwrite,windows中文版默認(rèn)的文件格式編碼是gbk,'\xa0'是無法編碼為gbk的,所以出現(xiàn)這個(gè)提示。
那么,我們只需要改變文件編碼就行,加上encoding='utf-8'參數(shù)

f = open("out.txt","w",encoding='utf-8') )  
f.write(content)

這樣就不會(huì)提示錯(cuò)誤了。

如果是print到cmd提示這個(gè)錯(cuò)誤,就只能手動(dòng)更改CMD的編碼了,
CHCP查看,默認(rèn)的是936
1、輸入CHCP 65001,回車;(注意:此編碼下PIP會(huì)出錯(cuò))
2、在窗體上右鍵,選擇屬性,來設(shè)置字體Lucida Console字體,確定

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容