深入剖析go中字符串的編碼問(wèn)題——特殊字符的string怎么轉(zhuǎn)byte?

前言

前段時(shí)間發(fā)表了Go中的HTTP請(qǐng)求之——HTTP1.1請(qǐng)求流程分析,所以這兩天本來(lái)打算研究HTTP2.0的請(qǐng)求源碼,結(jié)果發(fā)現(xiàn)太復(fù)雜就跑去逛知乎了,然后就發(fā)現(xiàn)了一個(gè)非常有意思的提問(wèn)“golang 特殊字符的string怎么轉(zhuǎn)成[]byte?”。為了轉(zhuǎn)換一下心情, 便有了此篇文章。

問(wèn)題

原問(wèn)題我就不碼字了,直接上圖:

看到問(wèn)題,我的第一反應(yīng)是ASCII碼值范圍應(yīng)該是0~127呀,怎么會(huì)超過(guò)127呢?直到實(shí)際運(yùn)行的時(shí)候才發(fā)現(xiàn)上圖的特殊字符是‘?’(如果無(wú)法展示,記住該特殊字符的unicode是\u0081),并不是英文中的句號(hào)。

unicode和utf-8的恩怨糾葛

百度百科已經(jīng)把unicode和utf-8介紹的很詳細(xì)了,所以這里就不做過(guò)多的闡述,僅摘抄部分和本文相關(guān)的定義:

  • Unicode為每個(gè)字符設(shè)定了統(tǒng)一并且唯一的二進(jìn)制編碼,通常用兩個(gè)字節(jié)表示一個(gè)字符。
  • UTF-8是針對(duì)Unicode的一種可變長(zhǎng)度字符編碼。它可以用來(lái)表示Unicode標(biāo)準(zhǔn)中的任何字符。UTF-8的特點(diǎn)是對(duì)不同范圍的字符使用不同長(zhǎng)度的編碼。對(duì)于0x00-0x7F之間的字符,UTF-8編碼與ASCII編碼完全相同。

go中的字符

眾所周知,go中能表示字符的有兩種類型,分別是byterune,byte和rune的定義分別是:type byte = uint8type rune = int32。

uint8范圍是0-255,只能夠表示有限個(gè)unicode字符,超過(guò)255的范圍就會(huì)編譯報(bào)錯(cuò)。根據(jù)上述關(guān)于unicode的定義,4字節(jié)的rune完全兼容兩字節(jié)的unicode。

我們用下面的代碼來(lái)驗(yàn)證:

var (
        c1 byte = 'a'
        c2 byte = '新'
        c3 rune = '新'
    )
    fmt.Println(c1, c2, c3)

上述的程序根本無(wú)法運(yùn)行,因?yàn)榈诙芯幾g會(huì)報(bào)錯(cuò),vscode給到了十分詳細(xì)的提示:'新' (untyped rune constant 26032) overflows byte。

接下來(lái),我們通過(guò)下面的代碼來(lái)驗(yàn)證字符unicode和整型的等價(jià)關(guān)系:

    fmt.Printf("0x%x, %d\n", '?', '?') //輸出:0x81, 129
    fmt.Println(0x81 == '?', '\u0081' == '?', 129 == '?') // 輸出:true true true
    //\u0081輸出到屏幕上后不展示, 所以換了大寫字母A來(lái)輸出
    fmt.Printf("%c\n", 65) // 輸出:A

根據(jù)上面的代碼輸出的3個(gè)true可以知道,字符和unicode和整形是等價(jià),并且整型也能轉(zhuǎn)回字符的表現(xiàn)形式。

go中的字符串是utf8編碼的

根據(jù)golang官方博客https://blog.golang.org/strings的原文:


Go source code is always UTF-8.
A string holds arbitrary bytes.
A string literal, absent byte-level escapes, always holds valid UTF-8 sequences.

翻譯整理過(guò)來(lái)其實(shí)也就是兩點(diǎn):

  1. go中的代碼總是用utf8編碼,并且字符串能夠存儲(chǔ)任何字節(jié)。
  2. 沒(méi)有經(jīng)過(guò)字節(jié)級(jí)別的轉(zhuǎn)義,那么字符串是一個(gè)標(biāo)準(zhǔn)的utf8序列。

有了前面的基礎(chǔ)知識(shí)和字符串是一個(gè)標(biāo)準(zhǔn)的utf8序列這一結(jié)論后我們接下來(lái)對(duì)字符串“?”(如果無(wú)法展示,記住該特殊字符的unicode是\u0081)手動(dòng)編碼。

Unicode到UTF-8的編碼方對(duì)照表:

Unicode編碼(十六進(jìn)制) UTF-8 字節(jié)流(二進(jìn)制)
000000-00007F 0xxxxxxx
000080-0007FF 110xxxxx 10xxxxxx
000800-00FFFF 1110xxxx 10xxxxxx 10xxxxxx
010000-10FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

字符‘?’(如果無(wú)法展示,記住該特殊字符的unicode是\u0081)的二進(jìn)制表示為10000001,16進(jìn)制表示為0x81。

根據(jù)unicode轉(zhuǎn)utf8的對(duì)照表,0x7f < 0x81 < 0x7ff,所以此特殊字符需占兩個(gè)字節(jié),并且要套用的utf8模版是110xxxxx 10xxxxxx。

我們按照下面的步驟對(duì)10000001轉(zhuǎn)為utf8的二進(jìn)制序列:

第一步:根據(jù)x數(shù)量對(duì)特殊字符的高位補(bǔ)0。x的數(shù)量是11,所以需要對(duì)特殊字符的高位補(bǔ)3個(gè)0,此時(shí)特殊字符的二進(jìn)制表示為:00010000001。

第二步:x有兩個(gè)部分,且長(zhǎng)度分別是5和6,所以對(duì)00010000001由底位向高位分別截取6位和5位,得到00000100010。

第三步:將00000100010由低位向高位填充至模版110xxxxx 10xxxxxx,可得到utf8的二進(jìn)制序列為:11000010 10000001

我們通過(guò)go對(duì)二進(jìn)制轉(zhuǎn)為整型:

fmt.Printf("%d, %d\n", 0b11000010, 0b10000001)
// 輸出:194, 129

綜上:當(dāng)用字符轉(zhuǎn)字節(jié)時(shí)輸出的是字符本身的整型值,當(dāng)用字符串轉(zhuǎn)字節(jié)切片時(shí),實(shí)際上是輸出的是utf8的字節(jié)切片序列(go中的字符串存儲(chǔ)的就是utf8字節(jié)切片)。此時(shí),我們回顧一下最開(kāi)始的問(wèn)題,就會(huì)發(fā)現(xiàn)輸出是完全符合預(yù)期的。

go中的rune

筆者在這里猜測(cè)提問(wèn)者期望的結(jié)果是“字符串轉(zhuǎn)字節(jié)切片和字符轉(zhuǎn)字節(jié)的結(jié)果保持一致”,這時(shí)rune就派上用場(chǎng)了,我們看看使用rune的效果:

fmt.Println([]rune("?"))
// 輸出:[129]

由上可知用rune切片去轉(zhuǎn)字符串時(shí),它是直接將每個(gè)字符轉(zhuǎn)為對(duì)應(yīng)的unicode。

我們通過(guò)下面的代碼模擬字符串轉(zhuǎn)為[]rune切片和[]rune切片轉(zhuǎn)為字符串的過(guò)程:

字符串轉(zhuǎn)為rune切片:

    // 字符串直接轉(zhuǎn)為[]rune切片
    for _, v := range []rune("新世界雜貨鋪") {
        fmt.Printf("%x ", v)
    }
    fmt.Println()
    bs := []byte("新世界雜貨鋪")
    for len(bs) > 0 {
        r, w := utf8.DecodeRune(bs)
        fmt.Printf("%x ", r)
        bs = bs[w:]
    }
    fmt.Println()
    // 輸出:
    // 65b0 4e16 754c 6742 8d27 94fa
    // 65b0 4e16 754c 6742 8d27 94fa

上述代碼中utf8.DecodeRune的作用是通過(guò)傳入的utf8字節(jié)序列轉(zhuǎn)為一個(gè)rune即unicode。

rune切片轉(zhuǎn)為字符串:

    // rune切片轉(zhuǎn)為字符串
    rs := []rune{0x65b0, 0x4e16, 0x754c, 0x6742, 0x8d27, 0x94fa}
    fmt.Println(string(rs))
    utf8bs := make([]byte, 0)
    for _, r := range rs {
        bs := make([]byte, 4)
        w := utf8.EncodeRune(bs, r)
        utf8bs = append(utf8bs, bs[:w]...)
    }
    fmt.Println(string(utf8bs))
    // 輸出:
    // 新世界雜貨鋪
    // 新世界雜貨鋪

上述代碼中utf8.EncodeRune的作用是將一個(gè)rune轉(zhuǎn)為utf8字節(jié)序列。

綜上:對(duì)于無(wú)法確定字符串中僅有單字節(jié)的字符的情況, 請(qǐng)使用rune,每一個(gè)rune類型代表一個(gè)unicode字符,并且它可以和字符串做無(wú)縫切換。

理解go中的字符串其實(shí)是字節(jié)切片

前面已經(jīng)提到了字符串能夠存儲(chǔ)任意字節(jié)數(shù)據(jù),而且是一個(gè)標(biāo)準(zhǔn)的utf8格式的字節(jié)切片。那么本節(jié)將會(huì)通過(guò)代碼來(lái)加深印象。

    fmt.Println([]byte("新世界雜貨鋪"))
    s := "新世界雜貨鋪"
    for i := 0; i < len(s); i++ {
        fmt.Print(s[i], " ")
    }
    fmt.Println()
    // 輸出:
    // [230 150 176 228 184 150 231 149 140 230 157 130 232 180 167 233 147 186]
    // 230 150 176 228 184 150 231 149 140 230 157 130 232 180 167 233 147 186

由上述的代碼可知,我們通過(guò)游標(biāo)按字節(jié)訪問(wèn)字符串得到的結(jié)果和字符串轉(zhuǎn)為字節(jié)切片是一樣的,因此可以再次確認(rèn)字符串和字節(jié)切片是等價(jià)的。

通常情況下我們的字符串都是標(biāo)準(zhǔn)utf8格式的字節(jié)切片,但這并不是說(shuō)明字符串只能存儲(chǔ)utf8格式的字節(jié)切片,go中的字符串可以存儲(chǔ)任意的字節(jié)數(shù)據(jù)。


    bs := []byte{65, 73, 230, 150, 176, 255}
    fmt.Println(string(bs))         // 將隨機(jī)的字節(jié)切片轉(zhuǎn)為字符串
    fmt.Println([]byte(string(bs))) // 將字符串再次轉(zhuǎn)回字節(jié)切片

    rs := []rune(string(bs)) // 將字符串轉(zhuǎn)為字節(jié)rune切片
    fmt.Println(rs)          // 輸出rune切片
    fmt.Println(string(rs))  // 將rune切片轉(zhuǎn)為字符串

    for len(bs) > 0 {
        r, w := utf8.DecodeRune(bs)
        fmt.Printf("%d: 0x%x ", r, r) // 輸出rune的值和其對(duì)應(yīng)的16進(jìn)制
        bs = bs[w:]
    }
    fmt.Println()
    fmt.Println([]byte(string(rs))) // 將rune切片轉(zhuǎn)為字符串后再次轉(zhuǎn)為字節(jié)切片
    // 輸出:
    // AI新?
    // [65 73 230 150 176 255]
    // [65 73 26032 65533]
    // AI新?
    // 65: 0x41 73: 0x49 26032: 0x65b0 65533: 0xfffd 
    // [65 73 230 150 176 239 191 189]

仔細(xì)閱讀上面的代碼和輸出,前5行的輸出應(yīng)該是沒(méi)有疑問(wèn)的。但是第6行輸出卻和預(yù)期有出入。

前面提到了字符串可以存儲(chǔ)任意的字節(jié)數(shù)據(jù),那如果存儲(chǔ)的字節(jié)數(shù)據(jù)不是標(biāo)準(zhǔn)的utf8字節(jié)切片就會(huì)出現(xiàn)上面的問(wèn)題。

我們已經(jīng)知道通過(guò)utf8.DecodeRune可以將字節(jié)切片轉(zhuǎn)為rune。那如果碰到不符合utf8編碼規(guī)范的字節(jié)切片時(shí),utf8.DecodeRune會(huì)返回一個(gè)容錯(cuò)的unicode\uFFFD,這個(gè)unicode對(duì)應(yīng)上面輸出的16進(jìn)制0xfffd。

問(wèn)題也就出現(xiàn)在這個(gè)容錯(cuò)的unicode\uFFFD上,因?yàn)樽止?jié)切片不符合utf8編碼規(guī)范無(wú)法得到正確的unicode,既\uFFFD占據(jù)了本應(yīng)該是正確的unicode所在的位置。這個(gè)時(shí)候再將已經(jīng)含有容錯(cuò)字符的rune切片轉(zhuǎn)為字符串時(shí),字符串存儲(chǔ)的就是合法的utf8字節(jié)切片了,因此第六行輸出的是含有\uFFFD的合法utf8字節(jié)切片,也就產(chǎn)生了和最初始的字節(jié)切片不一致的情況了。

??:在平時(shí)的開(kāi)發(fā)中要注意rune切片和byte切片的相互轉(zhuǎn)換一定要基于沒(méi)有亂碼的字符串(內(nèi)部是符合utf8編碼規(guī)則的字節(jié)切片),否則容易出現(xiàn)上述類似的錯(cuò)誤。

字符串的多種表示方式

本節(jié)算是擴(kuò)展了,在開(kāi)發(fā)中還是盡量別用這種特殊的表示方式,雖然看起來(lái)很高級(jí)但是可讀性太差。

下面直接看代碼:

    bs := []byte([]byte("新"))
    for i := 0; i < len(bs); i++ {
        fmt.Printf("0x%x ", bs[i])
    }
    fmt.Println()
    fmt.Println("\xe6\x96\xb0")
    fmt.Println("\xe6\x96\xb0世界雜貨鋪" == "新世界雜貨鋪")
    fmt.Println('\u65b0' == '新')
    fmt.Println("\u65b0世界雜貨鋪" == "新世界雜貨鋪")
    // 輸出:
    // 0xe6 0x96 0xb0 
    // 新
    // true
    // true
    // true

目前筆者僅發(fā)現(xiàn)unicode和單字節(jié)的16進(jìn)制可以直接用在字符串中, 歡迎讀者提供更多的表示方式以供交流。

最后,祝大家讀完此篇文章后能夠有所收獲。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
禁止轉(zhuǎn)載,如需轉(zhuǎn)載請(qǐng)通過(guò)簡(jiǎn)信或評(píng)論聯(lián)系作者。

友情鏈接更多精彩內(nèi)容