Python字符串的encode與decode研究心得——解決亂碼問題

轉自https://blog.csdn.net/lxdcyh/article/details/4018054

為什么Python使用過程中會出現(xiàn)各式各樣的亂碼問題,明明是中文字符卻顯示成“/xe4/xb8/xad/xe6/x96/x87”的形式?為什么會報錯“UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)”?本文就來研究一下這個問題。

字符串在Python內(nèi)部的表示是unicode編碼,因此,在做編碼轉換時,通常需要以unicode作為中間編碼,即先將其他編碼的字符串解碼(decode)成unicode,再從unicode編碼(encode)成另一種編碼。

decode的作用是將其他編碼的字符串轉換成unicode編碼,如str1.decode('gb2312'),表示將gb2312編碼的字符串str1轉換成unicode編碼。?

encode的作用是將unicode編碼轉換成其他編碼的字符串,如str2.encode('gb2312'),表示將unicode編碼的字符串str2轉換成gb2312編碼。?

因此,轉碼的時候一定要先搞明白,字符串str是什么編碼,然后decode成unicode,然后再encode成其他編碼

代碼中字符串的默認編碼與代碼文件本身的編碼一致。

如:s='中文'

如果是在utf8的文件中,該字符串就是utf8編碼,如果是在gb2312的文件中,則其編碼為gb2312。這種情況下,要進行編碼轉換,都需要先用decode方法將其轉換成unicode編碼,再使用encode方法將其轉換成其他編碼。通常,在沒有指定特定的編碼方式時,都是使用的系統(tǒng)默認編碼創(chuàng)建的代碼文件。?

如果字符串是這樣定義:s=u'中文'

則該字符串的編碼就被指定為unicode了,即python的內(nèi)部編碼,而與代碼文件本身的編碼無關。因此,對于這種情況做編碼轉換,只需要直接使用encode方法將其轉換成指定編碼即可。

如果一個字符串已經(jīng)是unicode了,再進行解碼則將出錯,因此通常要對其編碼方式是否為unicode進行判斷:

isinstance(s, unicode)? #用來判斷是否為unicode

用非unicode編碼形式的str來encode會報錯?

如何獲得系統(tǒng)的默認編碼?

#!/usr/bin/env python

#coding=utf-8

import sys

print sys.getdefaultencoding()

該段程序在英文WindowsXP上輸出為:ascii?

在某些IDE中,字符串的輸出總是出現(xiàn)亂碼,甚至錯誤,其實是由于IDE的結果輸出控制臺自身不能顯示字符串的編碼,而不是程序本身的問題。?

如在UliPad中運行如下代碼:

s=u"中文"

print s

會提示:UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)。這是因為UliPad在英文WindowsXP上的控制臺信息輸出窗口是按照ascii編碼輸出的(英文系統(tǒng)的默認編碼是ascii),而上面代碼中的字符串是Unicode編碼的,所以輸出時產(chǎn)生了錯誤。

將最后一句改為:print s.encode('gb2312')

則能正確輸出“中文”兩個字。

若最后一句改為:print s.encode('utf8')

則輸出:/xe4/xb8/xad/xe6/x96/x87,這是控制臺信息輸出窗口按照ascii編碼輸出utf8編碼的字符串的結果。

unicode(str,'gb2312')與str.decode('gb2312')是一樣的,都是將gb2312編碼的str轉為unicode編碼?

使用str.__class__可以查看str的編碼形式

原理說了半天,最后來個包治百病的吧:)

[python]?view plain?copy

#!/usr/bin/env?python??

#coding=utf-8??

s="中文"??


if?isinstance(s,?unicode):??

#s=u"中文"??

print?s.encode('gb2312')??

else:??

#s="中文"??

print?s.decode('utf-8').encode('gb2312')??


例如:

#!/usr/bin/python

#_*_encoding:UTF-8_*_

import os

import time

path = "D:/機器人協(xié)助測試內(nèi)容/WiFi聯(lián)網(wǎng)環(huán)境配置/機器人安裝的工具".decode('utf-8').encode('gb2312')?

#路徑的斜杠應該是反斜杠,路徑字符串應該做編解碼處理,該文本是utf-8文件,字符串應該先解碼成Unicode,在編碼成gb2312展示或者在路徑前加u解碼成Unicode。

files = os.listdir(path)

for ff in files:

print "adb install -r "+ff

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容