一、原句處理
1.去除原句中的所有空格
2.去除原句子中的所有標(biāo)點(diǎn)符號(hào),包含全角和半角的
3.將所有的繁體中文替換成簡(jiǎn)體中文,工具ZHConverter
4.所有的全角數(shù)字替換成半角數(shù)字,所有的全角字母替換成半角字母,所有的大寫(xiě)字母替換成小寫(xiě)字母
二、使用敏感詞庫(kù)過(guò)濾
1.敏感詞庫(kù)中所有空格和標(biāo)點(diǎn)符號(hào)去除,大寫(xiě)字母替換成小寫(xiě)
2.使用HashMap構(gòu)建敏感詞庫(kù)DFA算法模型,見(jiàn):http://www.itdecent.cn/p/88d0751e1608
3.使用DFA算法進(jìn)行查找敏感詞
4.將有敏感詞的句子屏蔽或刪除
三、替換敏感詞
如果只是想替換句子中的敏感詞,可根據(jù)情況再一二的步驟中進(jìn)行刪減,以達(dá)到可替換的目的,比如不替換標(biāo)點(diǎn)符號(hào)和轉(zhuǎn)換大寫(xiě)等