1. URLEncoder.encode()
surrogate pair: UTF-16中用于擴(kuò)展字符而使用的編碼方式,是一種采用四個(gè)字節(jié)(兩個(gè)UTF-16編碼)來表示一個(gè)字符。
encode的原理:
- 首先建立一個(gè)dontNeedEncoding集合來保存不需要進(jìn)行編碼的字符,包括a-z, A-Z, 0-9等。
- 對待編碼字符串進(jìn)行循環(huán)遍歷,對每一位字符c進(jìn)行驗(yàn)證:
1)如果c在dontNeedEncoding中,即c不需要編碼,則直接將其append到結(jié)果字符串;
2)如果c不在dontNeedEncoding中,證明c需要被編碼,校驗(yàn)當(dāng)前位與下一位符合hex編碼的高低代理位規(guī)則,并將他們寫入待處理CharArrayWriter中。 - 接下來對charArrayWriter中的特殊字符進(jìn)行處理:
根據(jù)編碼方式將其轉(zhuǎn)為byte數(shù)組,并進(jìn)行遍歷:對待每一位特殊字符,在其前面加上%,并將其轉(zhuǎn)為16進(jìn)制字符串,并將轉(zhuǎn)義后的結(jié)果append到結(jié)果字符串。
2. decode
decode的原理:
- 對待解碼字符串進(jìn)行遍歷,對待每一個(gè)字符c進(jìn)行驗(yàn)證:
1)如果為‘+’, 則直接在結(jié)果append空格字符' '
2) 如果為'%',則代表其應(yīng)該是經(jīng)過編碼的特殊字符,則當(dāng)前位i-->i+2位應(yīng)該是一個(gè)特殊字符的編碼結(jié)果,將其轉(zhuǎn)回為byte字符;如果遇到i到i+2位之間不符合hex字符規(guī)則的情況,則拋出異常;如果再處理后發(fā)現(xiàn)字符串仍包含未處理%,則證明該字符串不符合編碼規(guī)則,拋出異常。