導(dǎo)讀 :本文主要介紹了百度智能云MCA產(chǎn)品的概念和應(yīng)用。
媒體信息海量且復(fù)雜,采用人工的方式對(duì)視頻進(jìn)行分析處理,面臨著效率低、成本高的困難。于是,MCA應(yīng)運(yùn)而生。它基于百度自研的視覺AI、ASR、NLP技術(shù),為用戶提供音視頻、圖片、文本的內(nèi)容分析能力,實(shí)現(xiàn)標(biāo)簽提取、智能封面提取、高光片段分析等功能。
01 背景與目標(biāo)
對(duì)于涉及廣電新聞、娛樂社交等UGC、AIGC的企業(yè)來說,有效地收集、整理、分析和呈現(xiàn)視頻內(nèi)容,不僅能幫助企業(yè)在競(jìng)爭(zhēng)中拔得頭籌,還有利于做出更優(yōu)的業(yè)務(wù)決策??墒牵@會(huì)面臨一些挑戰(zhàn):
標(biāo)簽要覆蓋大量業(yè)務(wù)場(chǎng)景,否則就需要建設(shè)多個(gè)數(shù)據(jù)集,不易于統(tǒng)計(jì)和分析;
分析維度應(yīng)支持自由配置,否則無法滿足個(gè)性化的業(yè)務(wù)需求;
支持分析不同格式的媒體內(nèi)容,同時(shí),處理視頻的速度要快。
百度智能云媒體內(nèi)容分析(Media Content Analysis),就是為了幫助企業(yè)提高內(nèi)容分析的效率、縮減平臺(tái)的人力成本,而建設(shè)的一體機(jī)產(chǎn)品:

MCA將AI技術(shù)落地于媒體行業(yè)內(nèi)容分析場(chǎng)景,可以助力企業(yè)內(nèi)容推薦與搜索業(yè)務(wù)發(fā)展,賦能媒體行業(yè),助力產(chǎn)業(yè)升級(jí)。
02 技術(shù)方案
根據(jù)公開信息可知,MCA的定位是“實(shí)現(xiàn)智能媒體內(nèi)容分析的一體機(jī)產(chǎn)品”,用戶可以選擇公有云或私有化的部署方式,自定義配置內(nèi)容分析的維度,并呈現(xiàn)可視化的分析結(jié)果。
AI技術(shù)托底(大模型):MCA借助百度強(qiáng)大的 AI 技術(shù)、沉淀已久的海量級(jí)數(shù)據(jù),針對(duì)視頻場(chǎng)景進(jìn)行專門的優(yōu)化,可以達(dá)到最優(yōu)的識(shí)別效果。
影視綜知識(shí)圖譜(業(yè)內(nèi)領(lǐng)先):根據(jù)影視劇/綜藝類視頻的場(chǎng)景、人臉、標(biāo)題等內(nèi)容,推理返回劇集名稱、別稱、演員表、一句話簡(jiǎn)介、上映時(shí)間、地點(diǎn)等信息,幫助補(bǔ)充視頻標(biāo)簽。
公眾人臉庫(kù)(專業(yè)):基于百度百科的海量人臉數(shù)據(jù),收錄了領(lǐng)導(dǎo)人、藝術(shù)家、影視明星、體育明星、社會(huì)活動(dòng)家等國(guó)內(nèi)外公眾人物,總數(shù)量超70萬。
召回率提升(高效):對(duì)比人工瀏覽視頻內(nèi)容標(biāo)注出的視頻標(biāo)簽的數(shù)量,使用視頻內(nèi)容分析MCA的結(jié)構(gòu)化標(biāo)簽數(shù)量提升了10倍左右,能夠準(zhǔn)確描述視頻中的細(xì)節(jié)內(nèi)容、提升視頻的搜全率。
2.1 整體架構(gòu)
按照功能劃分,MCA的層級(jí)架構(gòu)如圖所示:

業(yè)務(wù)系統(tǒng)的核心功能如圖所示:

MCA產(chǎn)品的主要功能如下:
a. 智能視頻標(biāo)簽:為視頻文件或直播流的內(nèi)容打標(biāo)簽,可輸出視頻的場(chǎng)景、公眾人物、地點(diǎn)、實(shí)體和關(guān)鍵詞等結(jié)構(gòu)化標(biāo)簽信息;
b. 智能圖片標(biāo)簽:對(duì)圖片內(nèi)容進(jìn)行打標(biāo)簽,可輸出圖片中公眾人物、logo、實(shí)體和關(guān)鍵詞等結(jié)構(gòu)化標(biāo)簽信息;
c. 智能封面:通過對(duì)視頻、圖像等內(nèi)容理解,從圖像清晰度、構(gòu)圖美學(xué)和精彩程度等方面分析,生成視頻的靜態(tài)封面、動(dòng)態(tài)封面、視頻封面;
d. 精彩視頻分析:通過場(chǎng)景切分、音頻特征分析等技術(shù),提取影視綜長(zhǎng)視頻中的高光時(shí)刻。
2.2 技術(shù)實(shí)現(xiàn)的細(xì)節(jié)闡釋
登錄百度智能云平臺(tái)官網(wǎng),進(jìn)入“一念 > 內(nèi)容分析”產(chǎn)品頁(yè)面。
2.2.1 智能標(biāo)簽
登錄成功、進(jìn)入產(chǎn)品頁(yè)面后,進(jìn)入智能標(biāo)簽 > 視頻內(nèi)容分析,點(diǎn)擊“創(chuàng)建視頻內(nèi)容分析”,創(chuàng)建分析任務(wù)。

MCA支持三種視頻導(dǎo)入方式:本地文件導(dǎo)入、BOS 地址導(dǎo)入、在線地址導(dǎo)入。

輸入限制:
文件格式:3gpp、asf/wmv、avi、flv/f4v、mkv、mov/mp4/m4a、mp3、mp2、mpeg/mpg、ts/ogg、mts、wmv/wma、rm/rmvb、webm等;
視頻編碼標(biāo)準(zhǔn):H.264、H.263/H.263+、MPEG-1/2/4、VP8/9、Quicktime、RealVideo、WMV、MJPEG等;
音頻編碼標(biāo)準(zhǔn):MP1、MP2、MP3、AAC、AC-3、WMA、PCM、ADPCM、AMR、RealAudio、Vorbis、DSD等;
分析時(shí)長(zhǎng)6小時(shí)以內(nèi),分辨率大于30X30;
分析視頻的audio、video編碼信息須至少存在一個(gè),不能為空;
可批量上傳音視頻文件,最多可同時(shí)上傳20個(gè)文件。
分析過程中可以看到分析狀態(tài)(排隊(duì)中→分析中→分析完成/分析失?。?。如果分析失敗,可以將鼠標(biāo)移到分析失敗旁邊的圖標(biāo)上查看失敗原因。若分析完成,則可查看分析結(jié)果。

點(diǎn)擊分析完成視頻的“查看詳情”按鈕,即可查看視頻分析的結(jié)果。

右側(cè)的頁(yè)簽可以查看不同維度的中間分析結(jié)果,下側(cè)為標(biāo)簽提取結(jié)果。

2.2.2 智能封面
開啟后,系統(tǒng)將結(jié)合清晰度、人臉、構(gòu)圖、場(chǎng)景識(shí)別等特征信息,綜合輸出視頻中適合做封面的圖片。

點(diǎn)擊智能封面分析,進(jìn)入智能封面分析頁(yè)面。

點(diǎn)擊創(chuàng)建智能封面分析,創(chuàng)建分析任務(wù)。
分析過程中可以看到分析狀態(tài)(排隊(duì)中→分析中→分析完成/分析失?。?。

點(diǎn)擊分析完成視頻的“查看詳情”按鈕,即可查看視頻的封面結(jié)果。


2.2.3 精彩視頻分析
登錄成功、進(jìn)入產(chǎn)品頁(yè)面后,點(diǎn)擊精彩視頻分析,進(jìn)入精彩視頻分析頁(yè)面。

點(diǎn)擊創(chuàng)建精彩視頻分析,創(chuàng)建分析任務(wù)。

分析過程中可以看到分析狀態(tài)(排隊(duì)中→分析中→分析完成)。
分析完成后,點(diǎn)擊“查看詳情”按鈕,即查看視頻的精彩片段。


2.2.4 自定義庫(kù)
系統(tǒng)支持自定義LOGO庫(kù)與自定義人臉庫(kù)、自定義文本庫(kù)功能。

自定義人臉庫(kù),區(qū)別于公共人物庫(kù),目的在于可以讓客戶管理自身業(yè)務(wù)所需的人臉集,是公共庫(kù)的重要補(bǔ)充。
人臉照片的要求:正面的(證件照類型的正面)或微微側(cè)面的(五官顯示完整)、面部光線均勻(輪廓清晰,無口罩、帽子、深色墨鏡遮擋,無濃妝)。對(duì)于戴眼鏡的人臉,眼鏡框不可遮擋眼睛區(qū)域,鏡片應(yīng)無色或不嚴(yán)重反光。
畫質(zhì):畫質(zhì)清晰、面部區(qū)域不要有字幕、水印等遮擋物。
數(shù)量:一個(gè)人物需要5張左右照片。
自定義人臉庫(kù)的關(guān)系如下:

支持用戶配置自定義LOGO庫(kù),并綁定在模板上。

自定義文本庫(kù)創(chuàng)建后,用戶可選擇將其關(guān)聯(lián)為黑庫(kù)或白庫(kù)。

03 總結(jié)
在大模型的加持下,MCA能夠更好地幫助企業(yè)降本增效:
業(yè)務(wù)提效:對(duì)比人工瀏覽視頻內(nèi)容標(biāo)注出的視頻標(biāo)簽,使用媒體內(nèi)容分析 MCA 可提升 3~5 倍的分析效率。
部署靈活:可通過SaaS、API接口調(diào)用、私有化部署的方式接入MCA服務(wù),輕松適配多種業(yè)務(wù)場(chǎng)景,滿足企業(yè)各種業(yè)務(wù)需求,能快速實(shí)現(xiàn)集成和落地。
管理便捷:支持創(chuàng)建普通用戶和超級(jí)管理員用戶,普通用戶僅能使用產(chǎn)品功能,不具備用戶管理權(quán)限,超級(jí)管理員用戶具備用戶管理權(quán)限;不同用戶之前的視頻分析歷史任務(wù)可以互相隔離。