這星期德克薩斯大學(xué)奧斯汀分校的 Raymond Mooney 教授來(lái)組里作了一場(chǎng)研討會(huì)。曹同學(xué)請(qǐng)來(lái)了這樣一位大神,組里的老師和學(xué)生就像餓狼撲食一樣瓜分了和他見(jiàn)面的時(shí)間。我正忙著修改文章,只是去聽(tīng)了 talk。說(shuō)不定當(dāng)年拒我的套詞和還有發(fā)拒信,也有他的功勞嘞。
他主要是講,如何從短視頻里生成一句話來(lái)描述它。輸入是一幀幀的畫面,待到全部輸入完了,信息已經(jīng)保存在一個(gè)向量里頭。然后,再一個(gè)單詞一個(gè)單詞地輸出成句子。在決定輸出一個(gè)單詞的時(shí)候,所用的信息就是上一個(gè)輸出的單詞,和剛才所說(shuō)的表示視頻內(nèi)容的向量。
他先講了一下以往人們教電腦“看圖說(shuō)話”的方法。輸入一張靜態(tài)的圖片,先由一些計(jì)算機(jī)視覺(jué)系統(tǒng)識(shí)別出人啊、馬路啊、各種物件,然后把這些東西交給語(yǔ)言模型。語(yǔ)言模型根據(jù)這些名詞,找出它們最可能的組合方式。假如畫面中有個(gè)人,后面跟著部攝像機(jī)。電腦一組合,就生成出“人扛著攝像機(jī)”這樣的句子來(lái)。其實(shí)它根本沒(méi)有看出“扛著”;這恐怕只能叫計(jì)算機(jī)幻覺(jué)了(笑)。這樣做效果倒是不錯(cuò),能忽悠很多人覺(jué)得有那么點(diǎn)智能。
他的系統(tǒng)當(dāng)然要克服這個(gè)毛病。視頻和句子的訓(xùn)練數(shù)據(jù)可以從給視障人士收聽(tīng)的電影解說(shuō)音軌里提取,或是在亞馬遜上請(qǐng)人寫,但終究是不夠多。所以他先用靜態(tài)圖片識(shí)別的數(shù)據(jù)訓(xùn)練了,再拿視頻去練。他能證實(shí),如果打亂幀的次序,效果就不那么好了;說(shuō)明電腦有效利用了動(dòng)態(tài)的畫面。
這給我一樣啟發(fā)。不同于先用計(jì)算機(jī)視覺(jué)識(shí)別出物件的方法,這直接把一幀幀畫面(可能不是像素,而是處理好的視覺(jué)特征,每十幀輸入一幀)輸進(jìn)去,信息量很大,幀和幀之間又有很多重復(fù),必須要有一個(gè)信息篩選和識(shí)別重復(fù)部分的過(guò)程。之前聽(tīng)說(shuō)過(guò)的 encoder—decoder 模型,都是輸入什么信息就輸出什么,如機(jī)器翻譯,基本不(希望)存在信息損失。而且這里要用到連貫性,這對(duì)于應(yīng)用到自動(dòng)摘要上是重要的。問(wèn)題在于他只輸出一個(gè)句子,若要輸出一篇摘要,至少是一段話??赡芸梢詮姆指钗恼潞蟾魃梢痪湓捵銎?。

作為一個(gè) recurrent 神經(jīng)網(wǎng)絡(luò)(recurrent 一詞有譯成“遞歸”的,但 recursive 才是遞歸)的最近皈依者,他在講座里也夾帶了些私貨。他認(rèn)為,向量不足以表達(dá)復(fù)雜的結(jié)構(gòu)。要是訓(xùn)練個(gè)神經(jīng)網(wǎng)絡(luò),不是把什么都保存成一個(gè)向量的一堆數(shù)字,而是保存成“知識(shí)關(guān)系圖”(腦圖,我想也不錯(cuò))之類的,那該多好呢。
這想法正合我意。有兩個(gè)直覺(jué)在隱約地指導(dǎo)我這些年的思路:(一)自然語(yǔ)言是基于一堆離散的概念符號(hào)的。人的思維本來(lái)是一片混沌,自從有了語(yǔ)言,就好像盤古開(kāi)天地,清晰起來(lái)了。用一些基本的概念,再組合出復(fù)雜的概念。這樣就方便了記憶、推理、交流和記錄,文明就發(fā)展起來(lái)了。沒(méi)有語(yǔ)言,人也有思維,但缺乏結(jié)構(gòu)。(二)自然語(yǔ)言處理,或者人工智能,最終一定要實(shí)現(xiàn)一個(gè)離散的符號(hào)體系跟連續(xù)的統(tǒng)計(jì)數(shù)據(jù)之間的大一統(tǒng)。單詞向量并不能自己說(shuō)明自己,比如“跑”有“移動(dòng)”、“快速”、“腳不同時(shí)著地”等特征,但現(xiàn)在還沒(méi)法從“跑”的向量里看出來(lái)。它只是記錄了“跑”常見(jiàn)的上下文,而這些特征需要從頻率數(shù)據(jù)里做反向推理才行。正面方向上,可以讓電腦程序像孩子一樣在模擬世界里學(xué)會(huì)詞義,尤其是“從不說(shuō)出的常識(shí)”。這兩個(gè)方向的努力,不知道會(huì)在哪里相遇。
不過(guò),組里的教授歷來(lái)反對(duì)我的這些想法。我也不方便把這些哲學(xué)思想寫進(jìn)畢業(yè)論文里,就只寫我做了什么。尤其是那個(gè)用思維的“基本粒子”進(jìn)行組合的想法,他們認(rèn)為是早已被淘汰的理論——當(dāng)然要看是分成什么基本粒子了,分成金木水火土固然是錯(cuò),但分成原子、質(zhì)子、夸克,那就是正路了(嗎)。語(yǔ)言的組合問(wèn)題(compositionality),在鹿死誰(shuí)手之前先存?zhèn)€念想吧。