市面上有很多非常成熟的內(nèi)容審核的云服務(wù)產(chǎn)品,比如阿里云、騰訊云服務(wù)等。一些非此領(lǐng)域的公司,如果要對本身產(chǎn)生的內(nèi)容進(jìn)行審核,往往會對接一些成熟的第三方產(chǎn)品。
第三方審核產(chǎn)品功能簡介
市面上的審核媒資,主要是文本、圖片、音頻和視頻。一,相關(guān)技術(shù)簡介;二,第三方的審核產(chǎn)品的通用配置規(guī)則和接入流程。
相關(guān)技術(shù)簡介
【文本審核】:對于文本的處理主要是采用了NLP(自然語言處理)技術(shù),將語句通過語法分析、情感分析、詞向量分析等技術(shù)進(jìn)行識別和歸類,再與平臺本身的素材庫進(jìn)行比對,返回匹配的結(jié)果。比如涉政內(nèi)容識別、廣告內(nèi)容識別、垃圾內(nèi)容識別等。
【圖片審核】:圖片審核有兩種審核方式,一是通過圖片的MD5與素材庫中的MD5進(jìn)行比對從而獲得審核結(jié)果,二是通過CNN(卷積神經(jīng)網(wǎng)絡(luò))技術(shù)進(jìn)行特征提取、各部分特征匯總以及產(chǎn)生分類器從而預(yù)測識別來進(jìn)行審核。
【音頻審核】:音頻的處理,是先通過ASR(語音識別)將音頻經(jīng)過降噪、斷句處理成文字,然后再通過文本審核對其進(jìn)行處理。
【視頻審核】:視頻審核實則是通過抽幀技術(shù),對視頻進(jìn)行抽幀頻率的設(shè)定,然后對視頻中的圖片進(jìn)行圖片審核?;蛘邔σ曨l的MD5與素材庫已有的MD5進(jìn)行比對從而獲得審核結(jié)果。視頻中的音頻審核同上。
第三方審核產(chǎn)品
審核平臺往往會在簽約后提供對應(yīng)的后臺系統(tǒng)和API接口,包括如下的內(nèi)容:
【后臺系統(tǒng)】:
模版配置模塊:根據(jù)不同的審核規(guī)則,配置不同的審核模版。
黑白名單:可以將審核平臺沒有檢測到的素材加入黑名單或者白名單進(jìn)行特殊處理。
內(nèi)容模塊:對請求的內(nèi)容和結(jié)果進(jìn)行記錄和查詢。
【API接口】:
審核接口
結(jié)果通知
查詢接口
公司接入第三方時,先在第三方后臺配置對應(yīng)的模版和審核規(guī)則,后續(xù)通過三方提供的API接口進(jìn)行審核的調(diào)用。以上就是第三方審核產(chǎn)品主要提供的服務(wù)。
審核中臺的搭建
審核公司的模版會提供接入文檔。仔細(xì)調(diào)研文檔,或者和第三方的產(chǎn)品或者技術(shù)支持對接審核流程,確定流程。比如云點播的視頻,需要先進(jìn)行視頻的上傳后,才能進(jìn)行對應(yīng)的審核,而且審核是以任務(wù)的形式進(jìn)行審核的。定型的規(guī)則,可以中臺系統(tǒng)進(jìn)行處理,如果基于業(yè)務(wù)規(guī)則不同,那么就講規(guī)則交由業(yè)務(wù)系統(tǒng)進(jìn)行處理。
審核中臺的意義
隨著公司業(yè)務(wù)高速發(fā)展,逐漸有很多內(nèi)容需要過審,又由于這些審核需求需求高度相似,重復(fù)的開發(fā)建設(shè),導(dǎo)致復(fù)用性低、產(chǎn)研資源浪費。于是產(chǎn)品化的提供一個審核中臺服務(wù)是非常有必要的。
審核系統(tǒng)的搭建
所謂大中臺小前臺。中臺作為業(yè)務(wù)服務(wù)的提供方,不需要過度依賴業(yè)務(wù),而是需要不斷為新業(yè)務(wù)提供能力支持。所以主要考察的是產(chǎn)品的抽象整合能力。
在調(diào)研了公司業(yè)務(wù)需求和第三方審核功能后,確定了整體的業(yè)務(wù)流:
從審核中臺出發(fā),搭建審核后臺系統(tǒng),應(yīng)包括以下模塊:
系統(tǒng)分為兩部分,一是配置模塊,二是內(nèi)容模塊。
配置模塊
業(yè)務(wù)配置:針對每種接入的業(yè)務(wù),需要進(jìn)行對應(yīng)的配置,比如業(yè)務(wù)本身審核的平臺規(guī)則,請求第三方審核的策略配置。還有審核員審核的時候領(lǐng)取規(guī)則的配置等。
賬號角色配置:針對系統(tǒng)的操作人員,配置不同的角色范圍和業(yè)務(wù)范圍。比如某審核員只能審核業(yè)務(wù)ABC對應(yīng)的內(nèi)容,此處可以進(jìn)行配置。
參數(shù)配置:系統(tǒng)產(chǎn)品規(guī)則的一些靈活配置項。
內(nèi)容模塊
設(shè)計的時候是按照漏斗設(shè)計了兩個池子,一個是機(jī)審池,另一個是機(jī)審?fù)耆绻枰藢忂M(jìn)入人審的池子。盡管兩個數(shù)據(jù)池內(nèi)容有所差異,但具體的展示并無明顯差異。都包括:
審核狀態(tài):審核中、通過、駁回,具體根據(jù)公司業(yè)務(wù)來設(shè)計。
駁審核依據(jù):此處可以按照平臺規(guī)則進(jìn)行抽象出一套模版,如涉政,涉黃,涉暴等。也可以直接采用第三方結(jié)果進(jìn)行展示。
操作:大致的操作包括領(lǐng)取,審核,釋放,可能還會涉及到分配。
數(shù)據(jù)報表
數(shù)據(jù)報表部分主要是對審核內(nèi)容進(jìn)行統(tǒng)計,可以進(jìn)行后續(xù)的算法優(yōu)化或者人員審核效率的考量標(biāo)準(zhǔn)。
以上就是基于第三方服務(wù),公司內(nèi)部的審核中臺搭建的具體實例。
業(yè)務(wù)如何對接審核
拿做過的評論審核進(jìn)行舉例。
我們公司的審核之前是沒有接入內(nèi)容審核的,都是審核員全部過一遍。后來由于量逐漸起來以后,業(yè)務(wù)方要求接入內(nèi)容審核。于是我在思考如何基于現(xiàn)有業(yè)務(wù)和內(nèi)容審核系統(tǒng)進(jìn)行融合。使現(xiàn)在的系統(tǒng)變化最小,同時完成業(yè)務(wù)方的審核要求。舉個簡單的審核流程圖為例:
總的來說,就是要:
確定這個業(yè)務(wù),是先發(fā)后審,還是先審后發(fā)。考慮到用戶評論是個實時操作,所以做的是先發(fā)后審。
是否需要進(jìn)行機(jī)審或者人審,審核策略是什么樣的。因業(yè)務(wù)團(tuán)隊要求,我們的評論機(jī)審過后,還需要進(jìn)入人審。如果 N分鐘沒有拿到機(jī)審結(jié)果,評論按照機(jī)審?fù)ㄟ^進(jìn)行處理,后續(xù)進(jìn)行人審復(fù)審。
當(dāng)拿到機(jī)審結(jié)果后,業(yè)務(wù)系統(tǒng)就可以對評論進(jìn)行操作了,比如說評論回復(fù)等。此處不再贅述業(yè)務(wù)系統(tǒng)對評論本身的操作功能。
業(yè)務(wù)系統(tǒng)是否反復(fù)接收審核處理。比如說評論,會對機(jī)審和人審?fù)瑫r響應(yīng)并修改評論狀態(tài),業(yè)務(wù)系統(tǒng)也必須在拿到機(jī)審結(jié)果以后再對評論進(jìn)行后續(xù)操作。諸如此類也都是業(yè)務(wù)系統(tǒng)接入內(nèi)容審核系統(tǒng)時需要說明的。
以上就是審核中臺搭建以及業(yè)務(wù)接入的完整鏈路。