對于敏感詞過濾,我們只能選擇讓用戶“痛不欲生”嗎?

敏感詞過濾是隨著互聯網社區(qū)發(fā)展一起發(fā)展起來的一種阻止網絡犯罪和網絡暴力的技術手段,通過對可能存在犯罪或網絡暴力可能的關鍵詞進行有針對性的篩查和屏蔽,很多時候我們能夠防患于未然,把后果嚴重的犯罪行為扼殺于萌芽之中。

敏感詞過濾系統(tǒng)

隨著互聯網社區(qū)和UGC應用的不斷發(fā)展變化,敏感詞過濾系統(tǒng)也經歷了不斷的發(fā)展演進,有如下多種過濾方式:

01. 敏感詞替換

敏感詞替換是較早出現的一種敏感詞過濾方式,即系統(tǒng)不會在用戶端進行敏感詞過濾和校驗,而是把這個工作放在數據入庫之前完成,在數據寫入數據庫之前,系統(tǒng)根據已經制定的規(guī)則把所有敏感詞替換為設定好的符號或文字,這個過程是不可逆的。

敏感詞替換

這種技術手段對于阻止網絡暴力成效顯著,用戶在閱讀其他人的發(fā)布信息時,不會再看到那些刺眼的侮辱性的字眼,但又不會太過于破壞發(fā)布者的本意,同時也不會對用戶閱讀造成很大干擾和障礙,尤其是在聊天室或群組等場景中表現優(yōu)異。

但這種過濾方式仍然可能會對普通用戶造成“隱性騷擾”,因為我們基本可以憑借上下文來基本猜出那些被替換成“***”的本來面目。

02. 敏感詞屏蔽

敏感詞屏蔽就是發(fā)布的信息里的敏感詞被直接去除,再寫入數據庫,這種方式能最大程度上避免對普通用戶的“隱性騷擾”,但隨之而來的代價就是可能會造成發(fā)布信息的可讀性下降,甚至影響到閱讀體驗。

03. 用戶端阻止發(fā)布

用戶端阻止發(fā)布是指系統(tǒng)在用戶發(fā)布信息時對信息進行本地或服務器端敏感詞校驗,一旦發(fā)現用戶發(fā)布的信息有詞匯符合敏感詞過濾條件,即阻止用戶的發(fā)布操作并返回提示信息,提示用戶有敏感詞不符合發(fā)布要求,并要求用戶修改自己發(fā)布的信息。

這種過濾方式能夠最大程度上降低系統(tǒng)自身的安全風險并顯著降低人工審核的成本,在用戶輸入昵稱,輸入簡單介紹時效果最佳。

短文字用戶端屏蔽敏感詞效果好

04. 系統(tǒng)人工審核

在UGC內容不是特別多或搭配AI識別敏感詞的情況下,系統(tǒng)可以允許用戶首先發(fā)布自己的信息,再使用AI輔助方式找出存在敏感詞風險的發(fā)布信息,由人工進行審核,符合條件或者被“誤傷”者放行,屬于惡意發(fā)布信息的則人工刪除并通知發(fā)布者。

這是一種對用戶體驗傷害最小的,最人性化的敏感詞過濾方式,但隨之而來的可能也是冷人咋舌的人工成本。

05. “小黑屋”

系統(tǒng)允許用戶發(fā)布信息,但用戶發(fā)布后使用AI輔助方式找出存在敏感詞風險的發(fā)布信息并批量導入“小黑屋”,然后通知發(fā)布者進行修改,一直到系統(tǒng)不再提示有敏感詞風險為止。

這種方式能夠保證用戶端發(fā)布時的體驗的流暢性,但因為沒有人工審核參與,敏感詞風險通知的發(fā)送是異步的,用戶可能在發(fā)布后離開應用,過很長時間返回后,發(fā)現發(fā)布的信息被關入“小黑屋”,還要自己主動排查猜測屏蔽原因,這種挫折感和用戶體驗問題也是非常嚴重的。

06. 僅發(fā)布者可見

有些UCG社區(qū)采用了這種敏感詞風險控制機制,命中了敏感詞的文章或信息,系統(tǒng)暗暗地把信息設置為僅發(fā)布者自己可見,而發(fā)布者可能還為自己的信息沒有瀏覽和點擊而疑惑不解,這真是讓發(fā)布者“死得不明不白”,這種過濾機制真是非常奇葩,但它卻真實地存在很多應用中。

綜上,敏感詞過濾是一種阻止網絡暴力和網絡犯罪的非常有效的手段,但有時候它也會因為其關鍵詞而誤傷用戶,造成一些讓人啼笑皆非的問題,比如下面這個流傳甚廣的段子:

半夜IDC急電,“你的網站有涉嫌的關鍵詞,請立即刪除!”站長立即從被窩里爬起,冒著零下10度的嚴寒上網,找那個違法關鍵詞。最后找到的是這樣一條信息:轉讓一臺獨立服務器。

在用戶發(fā)布比較大段的文字或文章時,特別是一些UCG社區(qū),例如美食評論、酒店居住體驗、活動體驗、游記等等,龐大的敏感詞庫+過于苛刻的匹配規(guī)則+用戶端阻止發(fā)布就可能會誤傷到普通用戶,對普通用戶的使用體驗造成嚴重傷害。

而且隨著各應用的系統(tǒng)不斷改進升級和擴充自己的敏感詞庫,惡意發(fā)布者的規(guī)避敏感詞過濾的手段也在不斷升級進步,特別是在缺少人工審核的情況下,發(fā)布者很容易就可以通過某些技術手段,如加密、替換字符、諧音字、同義字來規(guī)避這種過濾。

這是一場沒有硝煙的戰(zhàn)爭,這是一種無聲的軍備競賽,系統(tǒng)和惡意發(fā)布者之間相互博弈,最后造成的結果就是:關鍵詞庫越來越龐大,龐大到已經干擾到了普通用戶正常發(fā)布UGC內容的程度了。

我有個朋友就是這種軍備競賽的犧牲者,她在忍無可忍的情況下在朋友圈發(fā)布了這樣的動態(tài):

"敏感詞"讓用戶猜不透

她在口碑上想要發(fā)布自己的美食分享,但系統(tǒng)總是提示有敏感詞,但敏感詞是什么?系統(tǒng)卻又不告訴她,最后她憑著自己的不懈努力,終于發(fā)現是這個美食店的一款【法式禽獸漢堡】里的“禽獸”二字命中了敏感詞庫,所以被阻止發(fā)布。

而我自己也曾經多次在不同的UCG社區(qū)碰到過類似問題,特別是在移動端,這種敏感詞過濾機制簡直是“反人類”的“劣幣驅逐良幣”過濾機制,因為優(yōu)質用戶才會輸入較長的文字信息,又因為文字信息很長,導致命中敏感詞的風險急劇上升,而又因為文字信息很長,導致排查敏感字非常困難,查理芒格曾說“如果你告訴我將會死在哪個地方,我以后就絕對不會去那兒”,但這些系統(tǒng)卻絕口不提我們會死在哪兒,讓我們沒有目標地瞎轉亂撞,很多時候,精疲力盡的用戶會選擇放棄發(fā)布信息,甚至進而影響它對整個應用的使用體驗,從而放棄整個應用。

我曾經在一個書評應用上發(fā)布一篇讀后感時,被系統(tǒng)冰冷地提示“不符合發(fā)布要求”,為了找出那個該死的敏感詞,把所有的文字全選拷貝放到編輯軟件里,然后一段一段拷貝到書評應用中,等我嘗試到第3段時,系統(tǒng)冷冷地提示我:“您已保存提交太多次,請休息一會兒”,那一刻,我確定我是崩潰的。

所以,系統(tǒng)在設計敏感詞過濾體系的時候,肯定是要綜合考慮公司將會付出的成本和用戶體驗,但如果單純?yōu)榱顺杀竞蛯徍说燃壙紤],而把所有的風險和責任都推到用戶這一邊,我不認為這是一種明智的做法。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容