URL encode和decode的原理解析

1. URLEncoder.encode()

surrogate pair: UTF-16中用于擴(kuò)展字符而使用的編碼方式,是一種采用四個(gè)字節(jié)(兩個(gè)UTF-16編碼)來表示一個(gè)字符。
encode的原理:

  1. 首先建立一個(gè)dontNeedEncoding集合來保存不需要進(jìn)行編碼的字符,包括a-z, A-Z, 0-9等。
  2. 對待編碼字符串進(jìn)行循環(huán)遍歷,對每一位字符c進(jìn)行驗(yàn)證:
    1)如果c在dontNeedEncoding中,即c不需要編碼,則直接將其append到結(jié)果字符串;
    2)如果c不在dontNeedEncoding中,證明c需要被編碼,校驗(yàn)當(dāng)前位與下一位符合hex編碼的高低代理位規(guī)則,并將他們寫入待處理CharArrayWriter中。
  3. 接下來對charArrayWriter中的特殊字符進(jìn)行處理:
    根據(jù)編碼方式將其轉(zhuǎn)為byte數(shù)組,并進(jìn)行遍歷:對待每一位特殊字符,在其前面加上%,并將其轉(zhuǎn)為16進(jìn)制字符串,并將轉(zhuǎn)義后的結(jié)果append到結(jié)果字符串。

2. decode

decode的原理:

  1. 對待解碼字符串進(jìn)行遍歷,對待每一個(gè)字符c進(jìn)行驗(yàn)證:
    1)如果為‘+’, 則直接在結(jié)果append空格字符' '
    2) 如果為'%',則代表其應(yīng)該是經(jīng)過編碼的特殊字符,則當(dāng)前位i-->i+2位應(yīng)該是一個(gè)特殊字符的編碼結(jié)果,將其轉(zhuǎn)回為byte字符;如果遇到i到i+2位之間不符合hex字符規(guī)則的情況,則拋出異常;如果再處理后發(fā)現(xiàn)字符串仍包含未處理%,則證明該字符串不符合編碼規(guī)則,拋出異常。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容