眾所周知,全民視頻時代已經(jīng)來臨,用戶的注意力已經(jīng)從傳統(tǒng)的文字、圖片向視頻轉(zhuǎn)移,相信絕大部分用戶的手機(jī)中都會有幾個點(diǎn)播、直播、短視頻的APP。據(jù)網(wǎng)絡(luò)公開數(shù)據(jù)報(bào)告顯示,互聯(lián)網(wǎng)流量70%以上來自視頻,未來這個數(shù)據(jù)將超過90%。
而在人工智能時代,AI技術(shù)是如何在各行業(yè)和領(lǐng)域真正的發(fā)揮應(yīng)用和商業(yè)價(jià)值,帶來產(chǎn)業(yè)變革才是關(guān)鍵。在3月28日深圳云棲大會的人工智能專場中,阿里云視頻服務(wù)技術(shù)專家鄒娟將帶領(lǐng)大家探索熟悉的視頻場景中,AI技術(shù)如何應(yīng)用落地,解決實(shí)際業(yè)務(wù)場景中的問題。
縱觀整個視頻生命周期,包括視頻采集、視頻的生產(chǎn)制作、視頻播出和被廣大的用戶所體驗(yàn)這幾個環(huán)節(jié)。實(shí)際上在這個過程中,整個視頻行業(yè)發(fā)生了很大的變化,在每一個階段都從非常專業(yè)的參與者轉(zhuǎn)向大眾普適的參與。

從采集階段,最開始用專業(yè)的攝像機(jī)、錄像機(jī)進(jìn)行視頻采集,轉(zhuǎn)向如今的每個人都是自媒體產(chǎn)生者,用手機(jī)來拍攝。在制作階段,從重量級的非線性編輯軟件,到現(xiàn)在短視頻APP都標(biāo)配的特效、濾鏡、美顏,都能夠在手機(jī)端進(jìn)行基本的視頻制作。在播出領(lǐng)域,最開始電視臺必須得有一個節(jié)目單,到現(xiàn)在用戶可以在網(wǎng)站上按需播放點(diǎn)播視頻,用手機(jī)實(shí)現(xiàn)個性化的搜索和觀看。在體驗(yàn)這一環(huán),用戶從最原始的有線電視同軸電纜單項(xiàng)傳輸?shù)挠^看,到現(xiàn)在我們可以去交互、評論、點(diǎn)贊、彈幕等等互動。所以,我們可以看出,從整個視頻生命周期中,參與者是發(fā)生了巨大的變化,加入視頻領(lǐng)域的應(yīng)用也越來越多。
從下圖可以看出,視頻和AI的結(jié)合已經(jīng)貫穿了視頻生命周期的每一個階段。

那么,AI能為視頻行業(yè)帶來什么呢?
第一, 提升生產(chǎn)效率
AI和采集生產(chǎn)環(huán)節(jié)結(jié)合,是能夠有效提高視頻生產(chǎn)制作的效率的。傳統(tǒng)的編輯是人來做的,當(dāng)AI和視頻采集生產(chǎn)環(huán)節(jié)結(jié)合,我們可以引入智能編輯技術(shù),快速生產(chǎn)視頻。天下武功,唯快不破,應(yīng)用在視頻領(lǐng)域也是一樣的。設(shè)想我們很快的生產(chǎn)視頻,第一時間發(fā)布到網(wǎng)上,就有機(jī)會獲得更多的流量。
第二, 規(guī)避監(jiān)管風(fēng)險(xiǎn)
在視頻中引入人工智能審核技術(shù),可以縮短視頻發(fā)布周期,減少了人工審核的干預(yù),并且可以更高效、準(zhǔn)確的規(guī)避監(jiān)管風(fēng)險(xiǎn)。
第三, 釋放人力 降低成本
因?yàn)榍皟蓚€階段中,機(jī)器和算法做了很多替代人的操作,所以釋放人力,并且可以帶來成本的降低。
基于達(dá)摩院的AI算法,結(jié)合視頻云團(tuán)隊(duì)多年在音視頻技術(shù)領(lǐng)域的積累,阿里云構(gòu)建了視頻AI能力——視網(wǎng)膜,并將產(chǎn)品功能劃分為審核、識別、理解、搜索四個模塊。下圖中的能力,其實(shí)是視頻云AI服務(wù)的最小單元的基礎(chǔ)能力,實(shí)際上可以基于這些能力進(jìn)行組合,像搭積木一樣,滲透在視頻各個場景當(dāng)中,形成各類匹配業(yè)務(wù)的解決方案。

接下來鄒娟老師介紹到,采集生產(chǎn)、分發(fā)播出、媒資管理是視頻生產(chǎn)領(lǐng)域的三大場景,在這三個場景中,阿里云和客戶一起成長,深入到客戶的實(shí)際業(yè)務(wù)場景中,并結(jié)合自身產(chǎn)品規(guī)劃,推出了視頻AI的解決方案。
在采集生產(chǎn)的場景中,解決方案支持視頻拍攝、字幕、剪輯合成與視頻拆分;在視頻播出場景,除了常見的視頻審核,還有逐漸被大眾認(rèn)知的版權(quán)檢測,以及在實(shí)時播出的過程中對視頻中目標(biāo)進(jìn)行識別檢測;在媒資管理場景中,最經(jīng)典的是智能編目與智能封面,解決方案中還有基于指紋的去重和視頻之間挖掘和整理的能力。

我們可以看到,通過基礎(chǔ)AI能力的組合,和結(jié)合客戶的實(shí)際業(yè)務(wù)場景,阿里云已經(jīng)提供了一些具體的解決方案,下面選取了其中一些典型場景來介紹具體落地。
第一, 視頻采集場景——視頻萌拍
市場上非常流行的短視頻和拍照的APP中,基本都提供了基于人臉識別的技術(shù)的貼紙功能。很多客戶希望能擁有豐富的拍攝效果,阿里云在短視頻智能端的解決方案上就提供了視頻實(shí)時的處理功能,內(nèi)置人臉識別與動態(tài)貼紙庫,未來還可以付費(fèi)升級大眼、瘦臉等高級功能。
第二, 視頻生產(chǎn)制作場景——精彩集錦
這個是很多客戶都擁有的業(yè)務(wù)場景,可以利用的AI技術(shù)特別多。下圖左側(cè)的AI技術(shù)結(jié)合云端視頻剪輯能力,就可以做出很多有想象空間的事情。比如將人物出現(xiàn)的時間線連接起來,自動生成人物集錦;再比如經(jīng)典的體育賽事精彩瞬間,前期的素材整理的工作可以通過AI來自動處理;還有專題制作這個領(lǐng)域應(yīng)用也十分廣泛,比如去年江南的大雪,廣電媒體從業(yè)者希望能快速的從素材庫中找到與雪景相關(guān)的視頻來生成一個專題視頻,利用AI能力,其實(shí)就可以根據(jù)場景的識別,提取雪景在各個視頻當(dāng)中的位置片段,搭配云端剪輯能力,比較輕松將視頻制作出來;同時,影視劇劇集的片花也可以利用智能摘要、智能GIF來形成,一些視頻片段可以基于指紋和多模態(tài)技術(shù)去實(shí)現(xiàn)。

第三, 視頻生產(chǎn)制作場景——ET字幕
還有一個需求量非常大的業(yè)務(wù)場景是ET字幕,實(shí)際上它是基于AI的自動字幕進(jìn)行新視頻創(chuàng)造的功能。首先,傳統(tǒng)字幕生產(chǎn)是非常復(fù)雜的,首先得有一個團(tuán)隊(duì)去把語音轉(zhuǎn)成文字,把時間線拍下來,在多語種情況下,可能還會有翻譯團(tuán)隊(duì)介入,再把字幕導(dǎo)入到本地編輯軟件進(jìn)行合成。整個過程非常耗費(fèi)時間和人力。如果利用AI技術(shù),首先我們可以把語音生成文本,文本直接存在對應(yīng)的有時間,我們也可以將文本翻譯成所需的語種。同時,通過云剪輯的工具,對語音識別的結(jié)果和人工的結(jié)果進(jìn)行check,人工干預(yù)量也遠(yuǎn)遠(yuǎn)低于傳統(tǒng)的翻譯量。這項(xiàng)技術(shù)除了可以應(yīng)用于離線視頻之外,也可以運(yùn)用于會議直播的實(shí)時字幕,基于導(dǎo)播臺切換多路流的時候,每一路流都可以自動生成字幕,產(chǎn)生互動的效果。ET字幕應(yīng)用于視頻生產(chǎn)制作場景,可以方便用戶進(jìn)行二次視頻創(chuàng)作。
第四, 視頻生產(chǎn)制作場景——智能拆條
智能拆條有兩個好處,第一是加速新聞短視頻的發(fā)布,第二是把原始的長段視頻拆成各個小片段,進(jìn)入素材庫從而豐富媒資系統(tǒng),更方便制作出新的視頻來。

智能拆條是基于AI的多模態(tài)信息進(jìn)行拆條,目前是支持標(biāo)準(zhǔn)新聞形式,非標(biāo)準(zhǔn)的場景可以快速通過補(bǔ)充數(shù)據(jù)集快速訓(xùn)練來實(shí)現(xiàn)。
第五,視頻分發(fā)播出場景——內(nèi)容審核
進(jìn)入到視頻分發(fā)和播出領(lǐng)域,隨著國家對于互聯(lián)網(wǎng)視頻的監(jiān)管的加強(qiáng),內(nèi)容審核已經(jīng)成為非常強(qiáng)烈的需求。最開始的只是鑒黃,到后面的黃、反、暴、恐、都要去鑒別,利用AI技術(shù)可以非常快速的鑒別出視頻當(dāng)中不合規(guī)的內(nèi)容。
第六,媒資管理場景——智能編目
我們先來看下傳統(tǒng)編目的效率,在電視臺做深度編目,一個小時的視頻大約需要二到四個小時完成編目,這個視頻生產(chǎn)速度目前已經(jīng)無法達(dá)到互聯(lián)網(wǎng)的要求了。與傳統(tǒng)的編目相比,AI技術(shù)可以從視頻自動分類、視頻自動打標(biāo)、人物識別、語音和OCR識別等,自動生成源數(shù)據(jù)信息,進(jìn)入媒資庫,結(jié)合NLP、分詞、語義分析、詞性過濾等場景,進(jìn)入到后續(xù)的搜索和推薦的領(lǐng)域。整個過程靠算法驅(qū)動,不需要人力,相對于人工處理,AI技術(shù)能更徹底地對視頻進(jìn)行結(jié)構(gòu)化處理,標(biāo)注出每個獨(dú)立標(biāo)簽的時間線。

通過智能編目的方案組合,可以快速生成最基礎(chǔ)的源數(shù)據(jù),方便媒資管理。
那么用戶如何接入視頻AI服務(wù)呢?
分為三個步驟,首先,用戶需要根據(jù)自身的業(yè)務(wù)場景來選擇合適的產(chǎn)品進(jìn)行開通,其次,根據(jù)實(shí)際需求來選擇開通視頻AI服務(wù),支持自動處理和手動發(fā)起AI任務(wù)兩種形式,最后是獲取AI處理結(jié)果,接收AI結(jié)果回調(diào)或主動查詢AI結(jié)果。

在分享的最后,鄒娟老師為現(xiàn)場觀眾演示了整個視網(wǎng)膜系統(tǒng),用戶上傳了視頻,可以進(jìn)行快速的AI處理。阿里云視頻AI體驗(yàn)館:https://retina.aliyun.com