「瓦力保鏢」

知乎上線算法新功能「瓦力保鏢」智能識別陰陽怪氣內(nèi)容

  1. 「瓦力」

介紹:「瓦力」是知乎打造「智能社區(qū)」的AI 算法系統(tǒng),于 2016 年正式上線

功能:識別、處理包含辱罵、人身攻擊的不友善評論,以及答非所問、低質(zhì)提問等內(nèi)容;全年無休、24小時在線

  1. 「瓦力保鏢」

模型:情感模型、用戶親密度模型、文本識別模型

優(yōu)點(diǎn):
1) 大幅優(yōu)化了AI 識別的準(zhǔn)確率【(TP+TN)/(TP+TN+FP+FN)】
2) 主動對網(wǎng)友評論的「陰陽怪氣」內(nèi)容進(jìn)行進(jìn)行毫秒級智能識別和折疊處理

功能:識別并處理那些不友善、辱罵、陰陽怪氣、答非所問、色情內(nèi)容以及知乎不鼓勵的用戶爆照

痛點(diǎn)①

答非所問、評論區(qū)水化、回復(fù)者陰陽怪氣、找到志同道合的人越來越難的情況蔓延開,使一大批優(yōu)秀答主們生產(chǎn)內(nèi)容的熱情大減,甚至淡出社區(qū)

目標(biāo):

提升社區(qū)維護(hù)效率,全力維護(hù)認(rèn)真、專業(yè)、友善的討論氛圍,保護(hù)每一位用戶的分享和好奇心

解決方案的迭代:

1)早期:依靠用戶舉報(bào)和人工運(yùn)營,逐條處理帖子里的情緒毒瘤

2)瓦力前期:

背景:

無論處理量,還是處理的時效性,都已經(jīng)超出人工干預(yù)能承受的負(fù)荷(平均每天知乎上會產(chǎn)生10萬條回答,它們會衍生出50萬至60萬條評論,這些內(nèi)容中又有成千上萬條會被用戶標(biāo)注為舉報(bào))。故2016年,知乎上線了機(jī)器人瓦力

方案:

負(fù)責(zé)瓦力的算法工程師,會根據(jù)不同場景,人工構(gòu)建包含一些嘲諷特征的關(guān)鍵詞匯包,輸入算法作為一種衡量維度。當(dāng)檢測到不友善關(guān)鍵詞,瓦力就會自動折疊答案

3)瓦力后期:

背景:

隨著瓦力試圖識別反諷評論,即所謂罵人不吐臟字的陰陽怪氣,關(guān)鍵詞法失效。諷刺對負(fù)面情緒的表達(dá),隱蔽又多變。如果不看上下文語境,人類也未必聽得出來。(比如上文說你數(shù)學(xué)考了100分,我說你太牛了,那就是贊揚(yáng)。但如果上文是你數(shù)學(xué)考了20分,那這就是諷刺。另一個問題是,數(shù)學(xué)考20分是高是低?對于人類,生活常識會積累起感性的判斷。但對于機(jī)器,這種價(jià)值判斷卻無從著手。當(dāng)算法試圖識別諷刺,擺在它面前的就是各式各樣的場景,和各式各樣的價(jià)值判斷)

方案:

首先通過知乎社區(qū)里的舉報(bào)、反對等負(fù)向用戶行為收集訓(xùn)練數(shù)據(jù)。然后通過各種同義替換、規(guī)則模版方式對訓(xùn)練數(shù)據(jù)進(jìn)行擴(kuò)展,以緩解訓(xùn)練數(shù)據(jù)稀疏的問題。同時,“瓦力”提取文本、句法、表情符等特征,并利用一個帶attention的CNN和LSTM的融合模型進(jìn)行分類,最終判斷出內(nèi)容是否為陰陽怪氣

image.gif

實(shí)現(xiàn)方式:

當(dāng)評論發(fā)出后,「瓦力」作為先頭部隊(duì),進(jìn)行自動識別和清理,接下來,回答評論區(qū)中有「折疊」和「踩」兩個功能,每個人都可以對不禮貌的評論點(diǎn)擊「踩」。當(dāng)被踩評論的分值達(dá)到一定閾值后,評論會被自動折疊。同時,回答者擁有「一鍵折疊/取消折疊」的權(quán)利,進(jìn)一步加大了對回答評論區(qū)的可控力度。此外,用戶也有點(diǎn)擊舉報(bào)和申訴的權(quán)利,而知乎管理員會定期人工處理折疊區(qū)中的辱罵評論和帳號


image.gif
image.gif

痛點(diǎn)②:

人們對辱罵等內(nèi)容可以基本形成統(tǒng)一的判斷標(biāo)準(zhǔn),但卻可能因文化背景、理解程度或是生活經(jīng)歷的不同,對「陰陽怪氣」的理解度、接受度存在差異

目標(biāo):

分層清理諸如「陰陽怪氣」、「發(fā)泄負(fù)面情緒」等嚴(yán)重影響知友討論體驗(yàn)的評論

解決方案:

提供兩種定制模式可供選擇:一種熱情、一種冷靜

1)熱情模式下的「瓦力保鏢」較為「勤勞」,會積極地折疊掉任何它認(rèn)為有陰陽怪氣傾向的內(nèi)容;

2)冷靜的「瓦力保鏢」則會相對「保守」,只會對非常有把握的內(nèi)容進(jìn)行折疊處理

痛點(diǎn)③:

跟“小而美”的果殼不同,知乎追求更大的用戶量,即尋求更多廣告變現(xiàn)的基礎(chǔ)。故需用AI去提升運(yùn)營效率

目標(biāo):

根據(jù)興趣讓用戶分層、建立人與人之間的聯(lián)系,建立一個智能社區(qū)。推送消息,作為輿論警察,消除城市中的負(fù)面情緒和暴力

解決方案:

機(jī)器用一套權(quán)重體系定義著你在各個領(lǐng)域的專業(yè)程度。不過用戶的認(rèn)識水平和知識結(jié)構(gòu)可能隨著時間變化、升級,因此知乎的算法也需要實(shí)時追蹤用戶的水平。每兩個居民之間會基于興趣偏好、個人在知乎的行為以及社交關(guān)系的向量,被計(jì)算出一個親密值。親密值的范圍在負(fù)一到正一之間。知乎算法會計(jì)算兩個陌生人之間產(chǎn)生連接的概率,然后通過推薦等手法讓他們相遇。但當(dāng)用戶之間爆發(fā)過謾罵沖突,親密值偏向于負(fù)一一極,算法就會盡量降低他們相遇的概率

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 睡夢中牙疼醒了,打開手機(jī)一看,才剛剛四點(diǎn)鐘,本想接著睡到天亮,卻是怎么也睡不著了。 坐起身來,把窗簾拉開,一片漆黑...
    李墨深閱讀 1,369評論 0 0
  • 什么是競爭 Mutex 的使用 什么是競爭 看下面的代碼 我們對一個變量total 進(jìn)行1000次 +1 操作,不...
    酷走天涯閱讀 1,361評論 0 0
  • rte
    紅昔昔閱讀 90評論 0 0
  • 九月,局部降雨, 電線桿上最老的那只麻雀去世了, 為表悼念, 天空又被重新刷了一層烏青色的漆。 稻草人風(fēng)干成佝僂的...
    素挲閱讀 215評論 0 4

友情鏈接更多精彩內(nèi)容