国产精品久婷,青青草原国产97,99干在线视频

覺得好就贊一下~~

原文地址：https://medium.com/@adamhooper/in-mysql-never-use-utf8-use-utf8mb4-11761243e434

用MySQL的朋友們請不要使用"utf8"，請使用"utf8mb4"

今天我試圖把UTF-8編碼的字符串插入使用“utf8”編碼的MariaDB數(shù)據(jù)庫中，Rails拋出一個古怪的異常:

Incorrect string value: ‘\xF0\x9F\x98\x83 <…’ for column ‘summary’ at row 1

一切都很UTF-8：UTF-8 client，UTF-8的服務(wù)器，UTF-8編碼的數(shù)據(jù)庫，使用UTF-8的字符集?！?? <…”是個有效的UTF-8字符串。

但是問題的關(guān)鍵是：MySQL數(shù)據(jù)庫的 “utf8”并不是真正概念里的?UTF-8。

MySQL中的“utf8”編碼只支持最大3字節(jié)每字符。真正的大家正在使用的UTF-8編碼是應(yīng)該能支持4字節(jié)每個字符。

MySQL的開發(fā)者沒有修復這個bug。他們在2010年增加了一個變通的方法：一個新的字符集“utf8mb4”

當然，他們并沒有對外公布（可能因為這個bug有點尷尬）?，F(xiàn)在很多指南推薦用戶使用“utf8”其實都錯了。

簡單的說:

MySQL中的 “utf8mb4” 才是真正意義上的“UTF-8”。

MySQL的“utf8”是個“特殊的字符編碼”。這種編碼很多Unicode字符保存不了。

我強烈建議MySQL和MariaDB用戶使用“utf8mb4”而不是“utf8”。

編碼是什么？什么是UTF-8？

Joel on Software上有一遍我最喜歡的介紹，我精簡描述如下：

計算機使用0和1存儲文字。比如第一段第一個字符存儲為“01000011”表示“C”，計算機通過以下兩個步驟選擇用“C”表示：

計算機讀取到“01000011”后計算出這是數(shù)字67。

計算機通過查找Unicode字符集來確認67代表的“C”。

同樣的事情發(fā)生在我打字輸入C的時候。

計算機通過Unicode字符集將“C” 映射為67。

計算機把67編碼為“01000011”發(fā)送給web服務(wù)器。

幾乎所有的程序和互聯(lián)網(wǎng)應(yīng)用使用Unicode字符集。

Unicode字符集里有超過100萬個字符(“C” 和 “??” 是兩種不同的字符。)。UTF-32是最簡單的編碼方式，它在表示每個字符的時候使用32個bits。這樣編碼簡單，但是并不實用，明顯浪費了太多的空間。

UTF-8相比UTF-32更加節(jié)約空間。在UTF-8中，像“C”這樣的字符占用8bits，“??”這樣的占用32 bits。其他字符占用16或者24 bits。如本篇這樣的文章用UTF-8存儲比用UTF-32節(jié)省4倍左右的空間。更小的空間占用也意味著加載速度會快上4倍。

而MySQL中的 “utf8”字符集則和其他應(yīng)用行為不一樣。比如根本沒法表示“??”。

一點關(guān)于MySQL的歷史

為什么MySQL的開發(fā)者開發(fā)了一個奇怪的“utf8”。我們可以通過提交的日志來揣測一下。

MySQL從4.1版開始支持UTF-8。那是在比今天UTF-8 RFC 3629標準更早的2003年。

在此之前的UTF-8標準,RFC 2279中規(guī)定6個bytes表示一個字符。MySQL的開發(fā)者在2002.3.28編碼實現(xiàn)了RFC 2279 。并發(fā)布了pre-pre-release 的 MySQL 4.1

然后在9月出現(xiàn)了一個神秘的字節(jié)調(diào)整?！癠TF8 now works with up to3 byte sequences only.”

是誰提交了這次更新？為什么？我無法解答。MySQL的源碼移到Git后丟失了舊的作者信息（MySQL 曾經(jīng)和linux內(nèi)核一樣使用BitKeeper）

但是我大概能猜出來原因。

回到2002年，如果用戶可以保證表中的每一行具有相同的字節(jié)數(shù)，MySQL就可以提高用戶的速度。為了得到這個提升，用戶就需要定義保存文字的列為“CHAR”。一個“CHAR”列總是擁有相同的字符數(shù)。如果存入的字符較少則會在最后補齊空白。如果存入的數(shù)據(jù)過多則會被拋棄多余的字符。

當MySQL的開發(fā)者第一次嘗試以6字節(jié)每字符實現(xiàn)UTF-8時，他們意識到CHAR(1)的列會占用6字節(jié)，CHAR(2)會占用12字節(jié)，以此類推。

顯而易見的是，這個沒有被使用的實現(xiàn)方式是正確的，任何一個理解UTF-8的開發(fā)者將會認同這一點。

我的猜測是：MySQL的開發(fā)者違背了“utf8”編碼去幫助那些1)試圖去優(yōu)化空間和速度的人，2）嘗試優(yōu)化空間和速度失敗的人。

這是個無人獲益的改動。那些想要更快性能，更小空間的得到的依然是比他們曾經(jīng)使用版本更大更慢的實現(xiàn)，而那些想要正確的“utf8”的人得到的是個“??”都存儲不了的實現(xiàn)。

MySQL發(fā)布了這個錯誤的版本后，在也沒有修復它：因為那樣很多使用者將被迫重建他們的數(shù)據(jù)庫。MySQL最終在2010年更新了一個以“utf8mb4”命名的UTF-8實現(xiàn)。

Why it’s so frustrating

為什么這么操蛋

這周我過得很操蛋。我遇到一個很難發(fā)現(xiàn)的bug，就因為我被“utf8”這個名字給愚弄了。而且我也不是個案，我發(fā)現(xiàn)幾乎每篇推薦使用“utf8”的文章都錯了。

“utf8”的命名在mysql依然是錯的。這是個專有的實現(xiàn)。這造成了新的問題，而且沒有解決他應(yīng)該解決的問題。

如果你使用MySQL或者 MariaDB,不要使用“utf8”，應(yīng)該總是使用“utf8mb4”，否則總有一天會遇到頭疼的事情。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

(譯)用MySQL的朋友們請不要使用"utf8"，請使用"utf8mb4"

(譯)用MySQL的朋友們請不要使用"utf8"，請使用"utf8mb4"

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

(譯)用MySQL的朋友們請不要使用"utf8"，請使用"utf8mb4"

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

(譯)用MySQL的朋友們請不要使用"utf8"，請使用"utf8mb4"