UTF-8
目前比較常見(jiàn)的支持各國(guó)語(yǔ)言的編碼,python3默認(rèn)編碼
GBK, GBK2312
我國(guó)常用的編碼
經(jīng)常很多國(guó)家單位的網(wǎng)站會(huì)使用這個(gè)編碼
BASE64
將字符轉(zhuǎn)化為可讀,也經(jīng)常在網(wǎng)頁(yè)中用于壓縮圖片
標(biāo)志性的是編碼后后面會(huì)比較常有=號(hào)
\xe2 16進(jìn)制
\u232 unicode 編碼
在 python 的列表中經(jīng)常會(huì)顯示這個(gè)樣子
將列表循環(huán)使用 print 打印可以在終端顯示成中文
MD5 加密
常用于密碼
URL encode
bname=%C9%CF%B7%E1%C2%B71483%C5%AA8%BA%C5
上豐路1483弄8號(hào)
可以在這個(gè)網(wǎng)站去街邊嗎
支持 GBK 的 URL Decode
http://www.mytju.com/classcode/tools/urldecode_gb2312.asp
網(wǎng)頁(yè)獲取的編碼
使用腳本爬取網(wǎng)站的時(shí)候
有時(shí)候網(wǎng)站使用的是 GBK 編碼,會(huì)導(dǎo)致網(wǎng)頁(yè)在終端顯示為亂碼
為了防止網(wǎng)頁(yè)爬取
00111010010101
二進(jìn)制的編碼
不可見(jiàn)字符的顯示方式
\n
\t
等等
Unicode符號(hào)范圍 | UTF-8編碼方式
(十六進(jìn)制) | (二進(jìn)制)
--------------------+---------------------------------------------
0000 0000-0000 007F | 0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
搜索關(guān)鍵字 各種編碼 各種亂碼
參考:
百度百科 字符編碼
https://baike.baidu.com/item/%E5%AD%97%E7%AC%A6%E7%BC%96%E7%A0%81