編程中常用的編碼判斷

UTF-8

目前比較常見(jiàn)的支持各國(guó)語(yǔ)言的編碼,python3默認(rèn)編碼

GBK, GBK2312

我國(guó)常用的編碼
經(jīng)常很多國(guó)家單位的網(wǎng)站會(huì)使用這個(gè)編碼

BASE64

將字符轉(zhuǎn)化為可讀,也經(jīng)常在網(wǎng)頁(yè)中用于壓縮圖片
標(biāo)志性的是編碼后后面會(huì)比較常有=號(hào)

\xe2 16進(jìn)制

\u232 unicode 編碼

在 python 的列表中經(jīng)常會(huì)顯示這個(gè)樣子
將列表循環(huán)使用 print 打印可以在終端顯示成中文

MD5 加密

常用于密碼

URL encode

bname=%C9%CF%B7%E1%C2%B71483%C5%AA8%BA%C5
上豐路1483弄8號(hào)
可以在這個(gè)網(wǎng)站去街邊嗎
支持 GBK 的 URL Decode
http://www.mytju.com/classcode/tools/urldecode_gb2312.asp

網(wǎng)頁(yè)獲取的編碼

使用腳本爬取網(wǎng)站的時(shí)候
有時(shí)候網(wǎng)站使用的是 GBK 編碼,會(huì)導(dǎo)致網(wǎng)頁(yè)在終端顯示為亂碼
為了防止網(wǎng)頁(yè)爬取

00111010010101

二進(jìn)制的編碼

不可見(jiàn)字符的顯示方式

\n
\t
等等

Unicode符號(hào)范圍 | UTF-8編碼方式
(十六進(jìn)制) | (二進(jìn)制)
--------------------+---------------------------------------------
0000 0000-0000 007F | 0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

搜索關(guān)鍵字 各種編碼 各種亂碼

參考:
百度百科 字符編碼
https://baike.baidu.com/item/%E5%AD%97%E7%AC%A6%E7%BC%96%E7%A0%81

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容