隨筆Unicode 及 Unicode Consortium

聲明:該篇理論解釋資料源自360百科,內(nèi)容為本人改寫,由于二者混合該篇多用引用格式

淺談Unicode

就我目前的水平無法深談Unicode,只能簡單的講一些皮毛

Unicode(統(tǒng)一碼、萬國碼、單一碼)是一種在計算機(jī)上使用的字符編碼。Unicode 是為了解決傳統(tǒng)的字符編碼方案的局限而產(chǎn)生的,它為每種語言中的每個字符設(shè)定了統(tǒng)一并且唯一的二進(jìn)制編碼,以滿足跨語言、跨平臺進(jìn)行文本轉(zhuǎn)換、處理的要求。1990年開始研發(fā),1994年正式公布。Unicode為文字系統(tǒng)數(shù)字編碼之業(yè)界標(biāo)準(zhǔn),由Unicode Consortium(即是負(fù)責(zé)創(chuàng)建數(shù)字字符和數(shù)字通用標(biāo)準(zhǔn)的非營利組織)推出。全球網(wǎng)頁有一半以上是使用Unicode編碼。
Unicode是一個很大的集合,可以容納100多萬個符號,每個符號的編碼都不一樣。
Unicode的最大好處就是對于每一個字元提供了一個跨平臺,語音與程式的統(tǒng)一數(shù)碼。
Unicode可以解決不同語言之間的亂碼問題
而是Unicode聯(lián)盟協(xié)助設(shè)備處理世界上所有的語言,聯(lián)盟維護(hù)一大數(shù)據(jù)庫,為不同的語言和國家提供的術(shù)語和格式。
Unicode的常見書寫表達(dá)形式是以U+開頭,接16進(jìn)制符。

關(guān)于字符集、字符、編碼及亂碼

在計算機(jī)和電信技術(shù)中,一個字符是一個單位的字形、類字形單位或符號的基本信息。把語言的字符集成,制定出字符集(CharacterSets)通常是國家政府或產(chǎn)業(yè)界制定出來的,兩個常用的例子是ASCII和用于統(tǒng)一碼的UTF-8。
編碼(Encoding)是信息從一種形式或格式轉(zhuǎn)換為另一種形式的過程也稱為計算機(jī)編程語言的代碼簡稱編碼。用預(yù)先規(guī)定的方法將文字、數(shù)字或其它對象編成數(shù)碼,或?qū)⑿畔?、?shù)據(jù)轉(zhuǎn)換成規(guī)定的電脈沖信號。編碼在電子計算機(jī)、電視、遙控和通訊等方面廣泛使用。編碼是信息從一種形式或格式轉(zhuǎn)換為另一種形式的過程。
亂碼指的是電腦系統(tǒng)不能顯示正確的字符而顯示其他無意義的字符或空白,如一堆ASCⅡ代碼。這樣所顯示出來的文字統(tǒng)稱為亂碼。亂碼是由于系統(tǒng)或軟件缺乏對某種字符編碼的支持,而產(chǎn)生的不能正常閱讀的混亂字符。亂碼是因?yàn)?所使用的字符的源碼在本地計算機(jī)上使用了錯誤的顯示字庫,或在本地計算機(jī)的字庫中找不到相應(yīng)于源碼所指代的字符所致。不同國家和地區(qū)的文字字庫采用了相同的一段源碼,或是源文件中因?yàn)槲募艿狡茐模率褂嬎銠C(jī)默認(rèn)提取的源碼錯誤,或是計算機(jī)沒有安裝相應(yīng)字庫,都有可能產(chǎn)生亂碼。此外,由于編碼之間的相容性及應(yīng)用程序如瀏覽器的支援不一,會出現(xiàn)亂碼,或甚至是安全漏洞。

Unicode 與 Emoji

Emoji相信大家并不陌生,我們在社交APP上聊天的時候Emoji是不可或缺的,那它和Unicode有什么淵源呢?

  • Emoji的Unicode編碼為E63E到E757。Unicode 規(guī)定了這個符號的含義,沒有規(guī)定符號的具體形狀 ,所以Unicode Emoji的支援需要廠商提供對映的Unicode 字型。于是在不同的設(shè)備或者軟件Emoji的形態(tài)也會有所差異,便有了著名的還有Google Noto字體的emoji,Windows的Comic Sans MS的emoji,Twitter的emoji


點(diǎn)擊可看更多不同版本Emoji

Unicode 涉及的關(guān)鍵概念中英名詞匹配

英文簡稱 含義
Unicode 統(tǒng)一碼/國際通用碼
Unicode Consortium 統(tǒng)一碼/國際通用碼聯(lián)盟
Character Sets 字符集
Character 字符
Encoding 編碼
Mojibake 亂碼
Emoji 表情符號
CLDR 通用區(qū)域資料庫
Unihan 統(tǒng)一漢字
CJK 中日韓三種語言
ASCII 美國信息交換標(biāo)準(zhǔn)代碼
W3C 萬維網(wǎng)聯(lián)盟/萬維網(wǎng)的主要國際標(biāo)準(zhǔn)組織
Unicode標(biāo)準(zhǔn) W3C工作的基礎(chǔ)
WIPO 將版權(quán)條款生效的時間延長,延長限制作品的復(fù)制,引發(fā)混編道德和封閉政治的議題
The Unicode Consortium 非營利機(jī)構(gòu),其宗旨為最終以統(tǒng)一碼取代現(xiàn)存的字符編碼
IETF 負(fù)責(zé)互聯(lián)網(wǎng)標(biāo)準(zhǔn)的開發(fā)和推動
IAB 互聯(lián)網(wǎng)結(jié)構(gòu)委員會
ITU 聯(lián)合國的一個專門機(jī)構(gòu),制定標(biāo)準(zhǔn),分配無線電資源,組織各個國家之間的國際長途互連方案。
ISO 總部設(shè)于瑞士日內(nèi)瓦的非政府組織,參加者包括各會員國的國家標(biāo)準(zhǔn)機(jī)構(gòu)和主要公司,有語言代碼(-639)與國家代碼(-3166)文件
ISOC 非營利的國際性組織,以促進(jìn)使用互聯(lián)網(wǎng)使用為目的。由它產(chǎn)生的主要標(biāo)準(zhǔn),會交到IETF和IAB

感興趣可點(diǎn)

Unicode字符百科
The Unicode Consortium(全英網(wǎng)站)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容