聲明:該篇理論解釋資料源自360百科,內(nèi)容為本人改寫,由于二者混合該篇多用引用格式
淺談Unicode
就我目前的水平無法深談Unicode,只能簡單的講一些皮毛
Unicode(統(tǒng)一碼、萬國碼、單一碼)是一種在計算機(jī)上使用的字符編碼。Unicode 是為了解決傳統(tǒng)的字符編碼方案的局限而產(chǎn)生的,它為每種語言中的每個字符設(shè)定了統(tǒng)一并且唯一的二進(jìn)制編碼,以滿足跨語言、跨平臺進(jìn)行文本轉(zhuǎn)換、處理的要求。1990年開始研發(fā),1994年正式公布。Unicode為文字系統(tǒng)數(shù)字編碼之業(yè)界標(biāo)準(zhǔn),由Unicode Consortium(即是負(fù)責(zé)創(chuàng)建數(shù)字字符和數(shù)字通用標(biāo)準(zhǔn)的非營利組織)推出。全球網(wǎng)頁有一半以上是使用Unicode編碼。
Unicode是一個很大的集合,可以容納100多萬個符號,每個符號的編碼都不一樣。
Unicode的最大好處就是對于每一個字元提供了一個跨平臺,語音與程式的統(tǒng)一數(shù)碼。
Unicode可以解決不同語言之間的亂碼問題
而是Unicode聯(lián)盟協(xié)助設(shè)備處理世界上所有的語言,聯(lián)盟維護(hù)一大數(shù)據(jù)庫,為不同的語言和國家提供的術(shù)語和格式。
Unicode的常見書寫表達(dá)形式是以U+開頭,接16進(jìn)制符。
關(guān)于字符集、字符、編碼及亂碼
在計算機(jī)和電信技術(shù)中,一個字符是一個單位的字形、類字形單位或符號的基本信息。把語言的字符集成,制定出字符集(CharacterSets)通常是國家政府或產(chǎn)業(yè)界制定出來的,兩個常用的例子是ASCII和用于統(tǒng)一碼的UTF-8。
編碼(Encoding)是信息從一種形式或格式轉(zhuǎn)換為另一種形式的過程也稱為計算機(jī)編程語言的代碼簡稱編碼。用預(yù)先規(guī)定的方法將文字、數(shù)字或其它對象編成數(shù)碼,或?qū)⑿畔?、?shù)據(jù)轉(zhuǎn)換成規(guī)定的電脈沖信號。編碼在電子計算機(jī)、電視、遙控和通訊等方面廣泛使用。編碼是信息從一種形式或格式轉(zhuǎn)換為另一種形式的過程。
亂碼指的是電腦系統(tǒng)不能顯示正確的字符而顯示其他無意義的字符或空白,如一堆ASCⅡ代碼。這樣所顯示出來的文字統(tǒng)稱為亂碼。亂碼是由于系統(tǒng)或軟件缺乏對某種字符編碼的支持,而產(chǎn)生的不能正常閱讀的混亂字符。亂碼是因?yàn)?所使用的字符的源碼在本地計算機(jī)上使用了錯誤的顯示字庫,或在本地計算機(jī)的字庫中找不到相應(yīng)于源碼所指代的字符所致。不同國家和地區(qū)的文字字庫采用了相同的一段源碼,或是源文件中因?yàn)槲募艿狡茐模率褂嬎銠C(jī)默認(rèn)提取的源碼錯誤,或是計算機(jī)沒有安裝相應(yīng)字庫,都有可能產(chǎn)生亂碼。此外,由于編碼之間的相容性及應(yīng)用程序如瀏覽器的支援不一,會出現(xiàn)亂碼,或甚至是安全漏洞。
Unicode 與 Emoji
Emoji相信大家并不陌生,我們在社交APP上聊天的時候Emoji是不可或缺的,那它和Unicode有什么淵源呢?
- Emoji的Unicode編碼為E63E到E757。Unicode 規(guī)定了這個符號的含義,沒有規(guī)定符號的具體形狀 ,所以Unicode Emoji的支援需要廠商提供對映的Unicode 字型。于是在不同的設(shè)備或者軟件Emoji的形態(tài)也會有所差異,便有了著名的還有Google Noto字體的emoji,Windows的Comic Sans MS的emoji,Twitter的emoji

點(diǎn)擊可看更多不同版本Emoji
Unicode 涉及的關(guān)鍵概念中英名詞匹配
| 英文簡稱 | 含義 |
|---|---|
| Unicode | 統(tǒng)一碼/國際通用碼 |
| Unicode Consortium | 統(tǒng)一碼/國際通用碼聯(lián)盟 |
| Character Sets | 字符集 |
| Character | 字符 |
| Encoding | 編碼 |
| Mojibake | 亂碼 |
| Emoji | 表情符號 |
| CLDR | 通用區(qū)域資料庫 |
| Unihan | 統(tǒng)一漢字 |
| CJK | 中日韓三種語言 |
| ASCII | 美國信息交換標(biāo)準(zhǔn)代碼 |
| W3C | 萬維網(wǎng)聯(lián)盟/萬維網(wǎng)的主要國際標(biāo)準(zhǔn)組織 |
| Unicode標(biāo)準(zhǔn) | W3C工作的基礎(chǔ) |
| WIPO | 將版權(quán)條款生效的時間延長,延長限制作品的復(fù)制,引發(fā)混編道德和封閉政治的議題 |
| The Unicode Consortium | 非營利機(jī)構(gòu),其宗旨為最終以統(tǒng)一碼取代現(xiàn)存的字符編碼 |
| IETF | 負(fù)責(zé)互聯(lián)網(wǎng)標(biāo)準(zhǔn)的開發(fā)和推動 |
| IAB | 互聯(lián)網(wǎng)結(jié)構(gòu)委員會 |
| ITU | 聯(lián)合國的一個專門機(jī)構(gòu),制定標(biāo)準(zhǔn),分配無線電資源,組織各個國家之間的國際長途互連方案。 |
| ISO | 總部設(shè)于瑞士日內(nèi)瓦的非政府組織,參加者包括各會員國的國家標(biāo)準(zhǔn)機(jī)構(gòu)和主要公司,有語言代碼(-639)與國家代碼(-3166)文件 |
| ISOC | 非營利的國際性組織,以促進(jìn)使用互聯(lián)網(wǎng)使用為目的。由它產(chǎn)生的主要標(biāo)準(zhǔn),會交到IETF和IAB |
感興趣可點(diǎn)
Unicode字符百科
The Unicode Consortium(全英網(wǎng)站)