LiveBot

LiveBot: Generating Live Video Comments Based on Visual and Textual Contexts
LiveBot code: https://github.com/lancopku/livebot

Response to LiveBot: Generating Live Video Comments Based
on Visual and Textual Contexts
OpenNMT-Livebot code: https://github.com/fireflyHunter/OpenNMT-Livebot

LiveBot是微軟亞洲研究院2019的文章，2020讀過，覺得蠻有趣。前段時(shí)間，因緣巧合看了Response to LiveBot [看標(biāo)題時(shí)候，還沒意識到是給livebot找bug]，一瞬間又想起了這篇文章。因此放在一起，記錄下，便于后面工作應(yīng)用。

現(xiàn)在很多視頻網(wǎng)站都有彈幕功能，方便觀看者進(jìn)行信息交互。LiveBot，俗稱彈幕機(jī)器人，是基于b站數(shù)據(jù)，根據(jù)視頻幀信息及對應(yīng)的彈幕信息，再生產(chǎn)新彈幕的模型。

LiveBot 4種文本生成任務(wù)

圖示四種文本生成任務(wù)：

image captioning：圖文描述，輸入視覺信息，輸出文本信息；
vision question answering：視覺qa問答，輸入視覺信息和文本信息，輸出文本信息；
machine translation：機(jī)器翻譯，輸入和輸出都是文本信息；
live commenting：LiveBot，輸入視覺信息，以及依賴視覺信息的文本信息，輸出文本信息。

4和2的最大區(qū)別，就是輸入文本是否依賴視覺信息，更精確的說，2的輸入視覺和文本信息是對齊的，而4的文本信息不僅與當(dāng)前幀信息對齊，還可能是視頻幀之前or之后【比如“前方高能預(yù)警”】的信息，或者是對之前彈幕信息的再反饋【比如彈幕的battle】，從邏輯上看更加復(fù)雜。

LiveBot的主要貢獻(xiàn)

首個(gè)做彈幕機(jī)器人任務(wù)的；
構(gòu)建了彈幕數(shù)據(jù)Live Comment Dataset，包含2361個(gè)視頻及對應(yīng)的895929條評論信息；
提供了2種融合視頻和文本信息的模型方案，fusion RNN和unified transformer model；
提出了檢索式retrieval-based的評估方案。

數(shù)據(jù)構(gòu)造

數(shù)據(jù)收集
基于b站的搜索排行，爬取前10頁的視頻結(jié)果。搜索的信息包含寵物，體育，娛樂等19個(gè)類目。經(jīng)過視頻去重，過濾短視頻，低質(zhì)視頻，以及彈幕少的視頻的預(yù)處理后，共得到2361個(gè)視頻。

對每個(gè)視頻，抓取彈幕，及彈幕出現(xiàn)的時(shí)間戳。經(jīng)過結(jié)巴分詞后，一共得到895929條【彈幕，對應(yīng)視頻，彈幕出現(xiàn)視頻時(shí)間戳】信息。

如下圖所示，abc為三個(gè)時(shí)間對應(yīng)的視覺信息，下面列表為每個(gè)彈幕出現(xiàn)的視頻時(shí)間。比如，48s時(shí)，有彈幕“橘貓是短腿嗎”。

LiveBot 數(shù)據(jù)集案例

訓(xùn)練測試數(shù)據(jù)
為避免過擬合，訓(xùn)練和測試數(shù)據(jù)中的視頻是不重疊的。

LiveBot 訓(xùn)練數(shù)據(jù)詳情

和其他數(shù)據(jù)集對比

LiveBot 常見文本生成數(shù)據(jù)集

YouCook和TACos-M-L：廚藝領(lǐng)域的數(shù)據(jù)集，針對行為描述；
M-VAD和MPII-MD：電影領(lǐng)域的數(shù)據(jù)集。
表格中的數(shù)據(jù)集，大部分?jǐn)?shù)據(jù)量不大，且都是專有領(lǐng)域的數(shù)據(jù)，本文收集的數(shù)據(jù)從數(shù)據(jù)量，內(nèi)容多樣性，復(fù)雜度上，都有優(yōu)越性。

數(shù)據(jù)分析

LiveBot 彈幕相似度分析

LiveBot 彈幕長度分布

彈幕文本長度都偏低，大部分都低于5個(gè)詞or10個(gè)字，這個(gè)長度的中文滿足用戶快速傳遞簡短的信息的需求，符合彈幕的特性；
相鄰彈幕的相關(guān)性分析，對每個(gè)評論，選擇相鄰的20條彈幕，計(jì)算他們之間的tfidf，編輯距離，以及人工打分。同時(shí)，還對不同時(shí)間間隔[小于1s,1-3s, 3-5s,5~10s,大于10s]的評論對進(jìn)行相關(guān)性打分，結(jié)果顯而易見，時(shí)間間隔短的[相鄰彈幕]，相關(guān)性強(qiáng)于非相鄰彈幕。

模型結(jié)構(gòu)

前文提到，LiveBot的彈幕，不僅僅和視頻內(nèi)容有關(guān)，還可能和其他彈幕內(nèi)容有關(guān)。當(dāng)前的彈幕，可以是對當(dāng)前幀的內(nèi)容理解，也可能是對之前或者之后視頻內(nèi)容的理解，還可以是和其他彈幕的互動(dòng)。
對上述復(fù)雜的依賴關(guān)系，文中提出2種模型架構(gòu)。

基本定義

type	concept
V	視頻
f	視頻的一幀
t	對應(yīng)幀的時(shí)間戳
C	圍繞這個(gè)時(shí)間戳的評論集
I	圍繞這個(gè)時(shí)間戳的幀集合

對長視頻來說，如果將一整個(gè)視頻和所有彈幕信息作為輸入，不是很合理。因此，文中對一個(gè)視頻，只輸入m個(gè)幀信息，以及時(shí)間t時(shí)的n個(gè)評論作為輸入。具體可表示為：
視頻幀集合： $I = \lbrace{ I_1,I_2,...,I_m\rbrace }$ ，時(shí)間間隔為1s
彈幕集合： $C = \lbrace{ C_1,C_2,..,C_n \rbrace }$
輸出彈幕token集合： $y = \lbrace { y_1,y_2,..,y_k\rbrace}$
輸出的彈幕，時(shí)間戳和輸入時(shí)間戳相近，內(nèi)容可能和視頻相關(guān)，或和彈幕相關(guān)。

Model1: Fusional RNN Model

LiveBot Fusional RNN Model

Fusional RNN Model由video encoder, text encoder和comment decoder組成。

Video Encoder

m個(gè)連續(xù)幀信息經(jīng)過CNN編碼后，經(jīng)過雙向LSTM，得到視頻信息。

每幀 $I_i$ 經(jīng)過CNN得到向量 $v_i$ ： $v_i = CNN(I_i)$ ；
m個(gè)幀信息視為序列，經(jīng)過LSTM，得到向量 $h_i$ ： $h_i = LSTM(v_i,h_{i-1})$

Text Encoder

對每個(gè)彈幕進(jìn)行詞級別的編碼，再進(jìn)行句子級別的編碼。

對彈幕 $C_i$ 分詞，經(jīng)過word-level LSTM： $r_i^j = LSTM(C_i^j,r_i^{j-1})$ ，得到的 $r_i^{L(i)}$ 就是該彈幕的語義信息 $x_i$ ；
將所有的彈幕信息經(jīng)過sentence-level LSTM后，和視頻信息做attention，得到融合文本和視頻信息的表達(dá)：
$\hat g_i = LSTM(x_i,g_{i-1})$
$g_i = attention(\hat g_i,h)$

Comment Decoder

生成的評論和周圍的彈幕及相關(guān)的視頻信息可以表示為：
$p(y_0,..,y_T|h,g) = \Pi_t p(y_t|y_0,...,y_{t-1},h,g)$

生成的每個(gè)詞可以表示為：
$\hat s_i = LSTM(y_{i-1},s_{i-1})$
$s_i = Attention(\hat s_i,h,g)$
$p(w_i|w_0,...,w_{i-1},h) = Softmax(Ws_i)$