python中scrapy爬取網(wǎng)頁的時(shí)候 抓到一個(gè)字符串,
print出來就出現(xiàn)如下錯(cuò)誤,
UnicodeEncodeError: 'gbk' codec can't encode character u'\xa0'
后來查了一下,這個(gè)就是;nbsp,
只有去掉這個(gè)非法字符才行,臨時(shí)解決辦法:strtime = strtime.replace(u'\xa0',u'')#去掉\xa0非法字符
為什么會(huì)出現(xiàn)像這種情況,其實(shí)是和windows下編碼有關(guān),比如我創(chuàng)建文本fwrite寫入或者在print輸出到cmd,都是默認(rèn)GBK編碼。
f = open("out.txt","w")
f.write(content)
如果content是UTF-8,其中包含'\xa0',這是允許的。
但是使用fwrite,windows中文版默認(rèn)的文件格式編碼是gbk,'\xa0'是無法編碼為gbk的,所以出現(xiàn)這個(gè)提示。
那么,我們只需要改變文件編碼就行,加上encoding='utf-8'參數(shù)
f = open("out.txt","w",encoding='utf-8') )
f.write(content)
這樣就不會(huì)提示錯(cuò)誤了。
如果是print到cmd提示這個(gè)錯(cuò)誤,就只能手動(dòng)更改CMD的編碼了,
CHCP查看,默認(rèn)的是936
1、輸入CHCP 65001,回車;(注意:此編碼下PIP會(huì)出錯(cuò))
2、在窗體上右鍵,選擇屬性,來設(shè)置字體Lucida Console字體,確定