寫(xiě)在前面
最近幾年出現(xiàn)了很多以短視頻的創(chuàng)作和分發(fā)作為主打的手機(jī)應(yīng)用軟件,這極大地豐富了文本和圖像之外的信息創(chuàng)作和分發(fā)方式。這些短視頻應(yīng)用自從問(wèn)世以后,便迅速地占領(lǐng)了市場(chǎng),得到了廣大用戶(hù)的青睞。目前,短視頻正逐漸成為互聯(lián)網(wǎng)上的一種重要的信息傳播方式,由此產(chǎn)生了大量的短視頻數(shù)據(jù)。
為了更好地利用短視頻數(shù)據(jù),提升短視頻的創(chuàng)作和分發(fā)效果及效率,需要為短視頻打上各種有用的標(biāo)簽,這些標(biāo)簽可以作為短視頻所記錄的內(nèi)容的概括和總結(jié)。以此為基礎(chǔ),推薦系統(tǒng)或搜索引擎就可以利用短視頻標(biāo)簽為用戶(hù)提供精準(zhǔn)的短視頻推薦或搜索服務(wù)了。
為了推動(dòng)視頻理解的技術(shù)進(jìn)展,2016年谷歌發(fā)布了目前業(yè)內(nèi)最大的視頻數(shù)據(jù)集YouTube-8M,并基于此在2017年和2018年舉辦了兩屆視頻理解挑戰(zhàn)賽,挑戰(zhàn)賽的目標(biāo)是在谷歌給定的訓(xùn)練數(shù)據(jù)以及預(yù)先提好的音視頻特征上設(shè)計(jì)并訓(xùn)練機(jī)器學(xué)習(xí)模型,以求在測(cè)試集上達(dá)到最佳的性能。以2018年的挑戰(zhàn)賽為例,谷歌發(fā)布的視頻數(shù)據(jù)共計(jì)600多萬(wàn)條,包含的標(biāo)簽共計(jì)3800多個(gè),吸引了來(lái)自全球40多個(gè)國(guó)家和地區(qū)的390多支隊(duì)伍參賽。這個(gè)比賽具有很大的挑戰(zhàn)性,所有標(biāo)簽的標(biāo)注都是視頻級(jí)別的,也就是我們只知道這個(gè)視頻中有給定的標(biāo)簽,但是,我們并不知道它在視頻中出現(xiàn)的具體時(shí)間段。我們針對(duì)愛(ài)奇藝短視頻打標(biāo)簽的解決方案便是源于對(duì)這兩次競(jìng)賽自研的神經(jīng)網(wǎng)絡(luò)模型。
技術(shù)分析

在預(yù)先提好的音視頻特征基礎(chǔ)上設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行打標(biāo)簽的問(wèn)題,可以歸結(jié)為設(shè)計(jì)一個(gè)有效的音頻和視頻特征聚合模塊的問(wèn)題,這里所謂聚合就是將若干個(gè)特征向量組成的矩陣變成一個(gè)向量,從而可以輸入任意的分類(lèi)器進(jìn)行分類(lèi)。
我們針對(duì)音頻和視頻特征聚合采用了相似的處理流程,并在最后對(duì)音頻和視頻的聚合結(jié)果進(jìn)行融合,然后輸入混合專(zhuān)家神經(jīng)網(wǎng)絡(luò)進(jìn)行分類(lèi)并輸出標(biāo)簽。以視頻特征聚合為例,視頻首先通過(guò)采樣變成了若干張圖像,然后對(duì)每張圖像提取一個(gè)固定長(zhǎng)度的特征向量。我們分別考察了特征向量的不同分量的重要性以及不同的特征向量的重要性,提出了基于門(mén)控和注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)聚合模塊,簡(jiǎn)稱(chēng)為門(mén)控注意力神經(jīng)網(wǎng)絡(luò),該模塊的所有參數(shù)可以通過(guò)反向傳播算法學(xué)習(xí)得到。
特征向量的不同分量的重要性主要是通過(guò)將一個(gè)視頻的所有特征向量進(jìn)行時(shí)序平均池化生成一個(gè)池化向量,并將其輸入一個(gè)兩層的神經(jīng)網(wǎng)絡(luò),第一層的神經(jīng)元數(shù)目小于池化向量的元素?cái)?shù)目,這構(gòu)成了一個(gè)瓶頸結(jié)構(gòu),這個(gè)兩層的神經(jīng)網(wǎng)絡(luò)的輸出經(jīng)過(guò)Sigmoid函數(shù)激活后逐點(diǎn)地乘以視頻的每個(gè)特征向量的不同分量,這個(gè)結(jié)構(gòu)被稱(chēng)為瓶頸門(mén)控,通過(guò)學(xué)習(xí)可以自動(dòng)地得到特征向量每個(gè)分量的重要性。
不同的特征向量的重要性是通過(guò)注意力機(jī)制實(shí)現(xiàn)的,通過(guò)引入若干個(gè)可學(xué)習(xí)的注意力向量,對(duì)于每個(gè)注意力向量我們可以得到每個(gè)特征向量的權(quán)重,然后將特征向量進(jìn)行加權(quán)平均得到一個(gè)池化向量,最后將這些池化向量拼接起來(lái)就可以得到視頻的所有特征向量的聚合結(jié)果。
案例
下面我們給出在姜餅短視頻上采用我們研發(fā)的模型打標(biāo)簽的結(jié)果,如下面的圖片所示。這里的每一張圖片來(lái)自一段15秒的短視頻的截圖,我們把打出的標(biāo)簽以及置信度疊加到了圖片上。我們的打標(biāo)簽?zāi)P涂梢源虺鰧?shí)體類(lèi)標(biāo)簽,比如,寵物和美食;可以打出人物類(lèi)標(biāo)簽,比如,萌娃;可以打出動(dòng)作類(lèi)標(biāo)簽,比如,舞蹈;可以打出時(shí)尚類(lèi)標(biāo)簽,比如,美妝;還可以打出技術(shù)流特效這種標(biāo)簽。這里僅舉了幾個(gè)例子,實(shí)際上我們的模型可以涵蓋姜餅短視頻的幾十種類(lèi)型標(biāo)簽。


效果說(shuō)明
我們研發(fā)的單個(gè)神經(jīng)網(wǎng)絡(luò)模型在2017年YouTube-8M挑戰(zhàn)賽的測(cè)試集上領(lǐng)先于最佳單模型NetVLAD達(dá)到0.9個(gè)百分點(diǎn)GAP(Global Average Precision)。2018年的YouTube-8M挑戰(zhàn)賽增加了模型大小的限制,要求提交的模型解壓縮后小于1GB,并且可以被TensorFlow的API直接讀取。我們擴(kuò)展了針對(duì)2017年挑戰(zhàn)賽設(shè)計(jì)的模型,提出了一種多分支特征聚合方法,該方法在2018年的YouTube-8M挑戰(zhàn)賽的測(cè)試集上領(lǐng)先于兩個(gè)并列的最佳單模型NeXtVLAD和谷歌最新版本的DBoF達(dá)到0.3個(gè)百分點(diǎn)GAP,并且是唯一一個(gè)GAP超過(guò)88%的單模型。
針對(duì)上面介紹的模型,我們進(jìn)一步加入了文本特征,文本特征來(lái)自于標(biāo)題經(jīng)過(guò)神經(jīng)網(wǎng)絡(luò)處理后的固定長(zhǎng)度的向量。通過(guò)融合音視頻和文本特征我們的打標(biāo)簽?zāi)P偷男阅芸梢缘玫竭M(jìn)一步的提升。目前短視頻打標(biāo)簽?zāi)P鸵呀?jīng)在公司內(nèi)部的姜餅短視頻、信息流等業(yè)務(wù)中落地,覆蓋上萬(wàn)種高質(zhì)量?jī)?nèi)容標(biāo)簽和幾十種類(lèi)型標(biāo)簽,每天持續(xù)而穩(wěn)定地提供短視頻打標(biāo)簽服務(wù)。
總結(jié)/延伸
我們針對(duì)弱標(biāo)注下的短視頻打標(biāo)簽這個(gè)問(wèn)題進(jìn)行了深入研發(fā),得到了幾種神經(jīng)網(wǎng)絡(luò)模型,取得了業(yè)內(nèi)性能領(lǐng)先的短視頻打標(biāo)簽單模型,申請(qǐng)了若干項(xiàng)中國(guó)發(fā)明專(zhuān)利,并成功地在公司的幾個(gè)業(yè)務(wù)中落地。但是現(xiàn)在的技術(shù)只輸出了視頻級(jí)別的標(biāo)簽,對(duì)于更長(zhǎng)的視頻可能會(huì)有需求希望能夠定位到標(biāo)簽出現(xiàn)的具體時(shí)間段,未來(lái)可以擴(kuò)展相關(guān)技術(shù)不僅實(shí)現(xiàn)打標(biāo)簽,還要實(shí)現(xiàn)標(biāo)簽的時(shí)間段定位。
未來(lái)規(guī)劃
短視頻應(yīng)用方興未艾,可以預(yù)見(jiàn)的是未來(lái)將會(huì)有大量的短視頻數(shù)據(jù)被創(chuàng)造出來(lái)并發(fā)布到互聯(lián)網(wǎng)上,將短視頻打上標(biāo)簽是活用短視頻數(shù)據(jù)的主要途徑之一。我們針對(duì)短視頻打標(biāo)簽這個(gè)問(wèn)題進(jìn)行了深入的研發(fā),并取得了一些結(jié)果,但是,仍然有很多問(wèn)題亟待解決。
第一,我們目前的模型只覆蓋了上萬(wàn)種高頻的標(biāo)簽詞,但是,這些標(biāo)簽詞只能代表短視頻內(nèi)容的一部分,未來(lái)還需要對(duì)標(biāo)簽詞的數(shù)量進(jìn)行擴(kuò)展,以覆蓋盡可能多的視頻內(nèi)容;
第二,我們研發(fā)的模型受限于底層提取音視頻和文本特征的神經(jīng)網(wǎng)絡(luò)的性能,未來(lái)還需要研發(fā)性能更好的提取音視頻和文本特征的神經(jīng)網(wǎng)絡(luò)模型;
第三,我們無(wú)法期望僅用一個(gè)模型解決所有的短視頻打標(biāo)簽問(wèn)題,未來(lái)我們會(huì)針對(duì)現(xiàn)有模型無(wú)法很好處理的標(biāo)簽類(lèi)型研發(fā)更好的短視頻打標(biāo)簽?zāi)P汀?/p>
https://www.jiqizhixin.com/columns/aiqiyijishutuandui