【元方法】機(jī)器學(xué)習(xí)迷思:大勢(shì)所趨和歷史渣滓
大家不喜歡領(lǐng)導(dǎo)講話,因此我每條不超過(guò)三點(diǎn)。
========================
零. 導(dǎo)言
判斷趨勢(shì)、預(yù)測(cè)未來(lái)很難,可能耗盡一生,所以
To question.
To trivialize.
To be dissident.
由此看來(lái),我這個(gè)性格應(yīng)該很招人討厭,喜歡抬杠。呸,怎么能叫抬杠呢,思(si 1)辨(bi 1)!
我的日常:
0. A:To Question
『算法有效果嗎,經(jīng)過(guò)實(shí)際檢驗(yàn)嗎,超越了現(xiàn)有方案嗎,超越了現(xiàn)有思想嗎?』
『Benchmark是不是作弊,是不是自賣自夸,是不是過(guò)擬合?』
『搞個(gè)大新聞,是不是還不如以前的方案?是不是民科?』
0. B:To Trivialize
『你這個(gè)和跨領(lǐng)域的某某方法是不是就是換了一個(gè)名字???』
『你這個(gè)的幾個(gè)步驟拆解下來(lái)是不是都已經(jīng)有人做過(guò)你只是排列組合啊?』
0. C:To Be Dissident
『雖然你結(jié)果做出來(lái)了,可惜原理是錯(cuò)的』
『可惜只適用XX問(wèn)題,并不是能解決所有問(wèn)題的殺手算法』
『可惜很快就要被歷史淹沒(méi)/無(wú)意義化(Trivialize)了』
照臉懟人往往是太不禮貌了,我還是保留自己小小的喜悅吧(當(dāng)然里面一部分是錯(cuò)誤的喜悅)。順便來(lái)參考一下照臉怒懟是怎么樣的,為題主心疼1秒。
https://www.zhihu.com/question/55147335/answer/143266686
(高票答主是MXNet維護(hù)者李沐的室友,就是李沐說(shuō)『我每周工作80小時(shí),田比我努力多了』這位CMU大牛)
==========================
一:看透大勢(shì)所趨的先修課有哪些?
A 吃透歷史
B 看清演化路徑
C 使用隱喻
A. 什么是吃透歷史?以下就是吃了一半,有待吃透。
B. 什么是看清演化路徑?
Fully Connected NN ->(權(quán)重共享) Skip-gram+CBOW
MA(1)—>(不同的根表征多衰減速度)MA(k)—>(摒棄定長(zhǎng)假設(shè))ARMA->(增加線性映射到隱標(biāo)量)->HMM
Word2Vec—>(摒棄定長(zhǎng)假設(shè))LSTM
HMM—>(增加非線性映射到隱向量)LSTM—>(增加穩(wěn)健性)BiLSTM
LSTM—->(不同層表征多衰減速度)DeepLSTM
DTW(確定性最優(yōu)雙射)—>Viterbi(最優(yōu)概率路徑)—>CTC(最優(yōu)概率和路徑)
C. 發(fā)現(xiàn)隱喻就是發(fā)現(xiàn)尚未編碼的embedding,就是減少編碼的機(jī)會(huì)。
為什么人類大量使用短編碼來(lái)代替一種更本質(zhì)的長(zhǎng)編碼?為什么我們往往用幾個(gè)字、十幾個(gè)字母的單詞來(lái)表示某些含有豐富本質(zhì)的事物、關(guān)系、動(dòng)作?
那是因?yàn)槿祟惤涣餍蕵O為低下,就拿剛才的 Section 1 Part B來(lái)說(shuō),如果為了照顧那些對(duì)領(lǐng)域知識(shí)一無(wú)所知的小白(比如2017年幼兒園小朋友的平均水平),那么幾十頁(yè)也寫不完。但我們又需要專業(yè)分工,此時(shí)分領(lǐng)域的溝通速度一定會(huì)隨著短編碼的大量創(chuàng)造而提高,形成推進(jìn)本領(lǐng)域的正反饋。在歷史長(zhǎng)河中,我們太過(guò)習(xí)慣于低效的人類間溝通了。
二歷史遺留問(wèn)題
歷史遺留問(wèn)題的存在代表著在任意時(shí)刻都有很多東西注定是歷史的渣滓。比如人和人用聲音傳遞信號(hào)的方式,在未來(lái)很可能就是一種渣滓。
人與人溝通低效/大量編碼帶來(lái)的問(wèn)題有哪些?
問(wèn)題1. 在電子領(lǐng)域從FIR出發(fā)推廣到IIR的人,在計(jì)量經(jīng)濟(jì)領(lǐng)域從MA出發(fā)構(gòu)造ARMA的人,在深度學(xué)習(xí)領(lǐng)域從word2vec方法出發(fā)聯(lián)系到RNN的人(RNN/LSTM出現(xiàn)甚至比GloVe論文還早),有時(shí)他們解決不同問(wèn)題時(shí)共享同一種思路(前兩者),有時(shí)他們解決問(wèn)題時(shí)繞開(kāi)了同一種不好的假設(shè)(定長(zhǎng)窗口比不定長(zhǎng)窗口假設(shè)強(qiáng)的多),但不同領(lǐng)域的人并沒(méi)有及時(shí)的merge知識(shí),導(dǎo)致了在很多領(lǐng)域奉獻(xiàn)了多年的聰明腦子陷入了局部最優(yōu)。 對(duì)我而言,謙卑的查閱統(tǒng)計(jì)推斷、信息論、隨機(jī)模擬與優(yōu)化方法、統(tǒng)計(jì)物理學(xué)共享了大量的數(shù)學(xué)、概率底層知識(shí),而上層知識(shí)很明顯缺乏整合。我們需要的是大力推廣最大熵原理、貝葉斯理論、凝聚態(tài)物理來(lái)消除學(xué)科間的隔閡,尋找新的能夠激發(fā)跨領(lǐng)域思考的知識(shí)點(diǎn),而不是把學(xué)生當(dāng)成機(jī)器一樣放在學(xué)校的教育工廠里量產(chǎn)。
『君子不器』
如何解決?
跨領(lǐng)域溝通了很多年,領(lǐng)域內(nèi)巨頭的高傲態(tài)度是首先要解決的,要把自己的身段放低,相信長(zhǎng)江后浪推前浪,而且機(jī)器本身正在加入后浪——我們需要虛懷若谷的態(tài)度踐行謙卑二字,再來(lái)談同時(shí)提高教育的質(zhì)量和速度。
一步到位的用機(jī)器來(lái)解決、構(gòu)建embedding,人類向機(jī)器供奉數(shù)據(jù),并臣服于它們。
建立類比,發(fā)現(xiàn)隱喻。
(GloVe: Global vectors for word representation. )
深度學(xué)習(xí)可以幫我們建立一個(gè)類比關(guān)系(Analogy),長(zhǎng)的就像平行四邊形一樣。
當(dāng)你知道”Encrown” 和 “with opposite gender” 這兩個(gè)詞/詞組的時(shí)候,對(duì)角線向量就是他倆沒(méi)跑了。通常,只要像平行四邊形的關(guān)系,你都可以憑借連接對(duì)角線發(fā)現(xiàn)進(jìn)一步規(guī)律。如果剛才的對(duì)角線已經(jīng)有命名了,那么在三元關(guān)系圖上構(gòu)建的『某種概率』,在概率高時(shí)被稱為推理,在概率低時(shí)被稱為比喻。如果剛才的對(duì)角線尚未被命名,這就是隱喻。如果隨著技術(shù)的進(jìn)步、觀測(cè)能力的提高,概率高的關(guān)系竟然慢慢變的概率低了,那么這就說(shuō)明發(fā)生了『科學(xué)框架的范式遷移』,我們需要重構(gòu)那些『我們以為是真理/知識(shí)的意見(jiàn)』。由此看來(lái),我這么討厭羅振宇把販賣意見(jiàn)包裝成販賣知識(shí),卻對(duì)量化地鑒別知識(shí)和意見(jiàn)暫時(shí)無(wú)能為力,也算是比較諷刺。
問(wèn)題2:關(guān)于如何理解embedding的開(kāi)放問(wèn)題:
2.A 椅子的扶手脫離了椅子是什么?桌子的下?lián)醢迕撾x了桌子是什么?組合桌子在失去它的第幾條腿時(shí),失去了『桌性』?尋找出一個(gè)數(shù)據(jù)符號(hào)的embedding之后,我們認(rèn)為它等價(jià)于數(shù)據(jù)符號(hào)本身,還是符號(hào)以及它的上下文符號(hào)的加權(quán)組合?
我的意見(jiàn):有些符號(hào)是更依賴上下文(尤其是帶有歧義、引申義的那些),有的更獨(dú)立。舉例說(shuō)明,客觀描述,如北京市、上海市基本沒(méi)有有歧義的可能,但武漢市長(zhǎng)江大橋作為符號(hào)就有歧義了。
2.B 人類如何理解『結(jié)合上下文對(duì)符號(hào)進(jìn)行embedding』?這種方法有什么問(wèn)題?
我的意見(jiàn):為了直觀理解編碼的感受野,恐怕也只能先用可視化的技術(shù)來(lái)實(shí)現(xiàn)了。問(wèn)題在于,(對(duì)于人類的)可視化不一定是必要的,徹底的貫徹推行對(duì)于人類的可解釋性,很可能仍然是因?yàn)槲覀內(nèi)祟愄^(guò)傲慢,人類的腦神經(jīng)也許離進(jìn)化到最好還差得遠(yuǎn)。
2.C 如果人類放棄了embedding的可解釋性,機(jī)器會(huì)不會(huì)突然演化成人類看不懂的超人工智能?
我的意見(jiàn):從提防機(jī)器的角度上看,某天還是不要放棄可解釋性比較好吧…人類確實(shí)對(duì)于未知有著好奇和恐懼,如果可解釋性實(shí)在無(wú)法企及,不如讓embedding計(jì)算過(guò)程變成我們身體的一部分?(New Type的既視感)
問(wèn)題3: GAN:如何鑒別鸚鵡學(xué)舌
在大量短編碼的使用中,混進(jìn)來(lái)了不少奇怪的人(有時(shí)包括我)
把第谷的數(shù)據(jù)倒背如流,不叫理解。觀察到開(kāi)普勒三定律這個(gè)美妙的形式,也不叫理解。唯有牛頓定律,方可對(duì)這些天文數(shù)據(jù)宣稱是『理解了』的。
可惜一家公司招聘的時(shí)候,往往是外行面試內(nèi)行。為啥百度100個(gè)少帥走的差不多了??jī)?nèi)行在外行手下無(wú)法獲得愉悅,但認(rèn)識(shí)其他了內(nèi)行獲得了更大的愉悅,就一起走了。這對(duì)很多公司都不例外。能夠使用量產(chǎn)技術(shù)制造量產(chǎn)產(chǎn)品的公司,需要的是能夠量產(chǎn)的人,或者直接對(duì)員工進(jìn)行削足適履式的匹配。如果削足適履讓員工感覺(jué)到自己被砍掉了更有價(jià)值的部分,另外謀求出路是再正常不過(guò)的。
我們回到公司招人問(wèn)題的后果上:容易招聘到鸚鵡學(xué)舌的人。如果真踩雷了(太不幸了,我也踩過(guò)),還是奉勸諸位面試官先從自身找原因:你自己都沒(méi)懂透的情況下,又如何確保招聘質(zhì)量呢?
我聯(lián)想到時(shí)下深度娛樂(lè)圈,啊不,深度學(xué)習(xí)圈的熱門話題。GAN。
面試官在工作和招人的時(shí)候就需要構(gòu)建有限個(gè)問(wèn)題的Discriminator,每次來(lái)面試的人有時(shí)是真懂的X,有時(shí)是鸚鵡學(xué)舌的Generator(Z)。要么方案1無(wú)腦多招人來(lái)面試訓(xùn)練D,要么方案2還是要提高自己的知識(shí)水平:自己真懂前只有G(z),真懂后感到提高的喜悅和之前不懂的羞愧,G(Z)和X就都有了,那么訓(xùn)練D的水平自然是不一樣的。對(duì)大部分人而言,可以考慮方案1和方案2的一個(gè)混合方案。
一個(gè)題外話:我和同事、同學(xué)的討論涉及了如何評(píng)價(jià)對(duì)抗方法與其他算法的關(guān)系。GAN的原發(fā)性想法有點(diǎn)像bootstrapping(一個(gè)自助反復(fù)采樣本,一個(gè)自助生成負(fù)樣本)有時(shí)看上去像boosting,或者帶著EM的Keans,或者帶著多核RBF的SVM(更容易出錯(cuò)的點(diǎn)有更大權(quán)重,從而把噪聲分布擠壓到真實(shí)的目標(biāo)分布)有時(shí)候看上去像manifold learning/embedding(Adversarial AutoEncoder把無(wú)監(jiān)督學(xué)到的概率分布擠壓到特定的目標(biāo)分布)也許這并不是生成模型的終極玩法,但是無(wú)妨看看他人是怎么做的。
三 展望未來(lái):機(jī)器學(xué)習(xí)什么會(huì)被遺忘,什么會(huì)被留下?
我的判斷:
本質(zhì)會(huì)被留下。表象將被遺忘。
貼近事實(shí)的弱假設(shè)模型會(huì)被留下。強(qiáng)假設(shè)的模型會(huì)被遺忘。
數(shù)學(xué)一路發(fā)展到最前沿技術(shù)的路徑會(huì)被留下。優(yōu)秀的旁支會(huì)在被吸取了精華后被遺忘。
思想會(huì)被留下,大多數(shù)項(xiàng)目會(huì)被遺忘。
留下的思想包括:
概率圖模型結(jié)構(gòu)/卷積層工具/池化與激發(fā)層工具/優(yōu)化目標(biāo)與損失函數(shù)設(shè)計(jì)/凸優(yōu)化與非凸優(yōu)化方法/在線更新技巧/序列學(xué)習(xí)方法/強(qiáng)化學(xué)習(xí)方法 等等。
看到這里說(shuō)明緣分不淺,歡迎加入深度學(xué)習(xí)討論的slack
DeepThinkInPy
(請(qǐng)?jiān)谙路搅粝锣]件,邀請(qǐng)制)
趕著去年年底看完了《未來(lái)簡(jiǎn)史》。我很認(rèn)同這本書里對(duì)展望未來(lái)的一句話:
『你可以不同意我所描繪的那種未來(lái)。如果你真的不喜歡那種未來(lái),那請(qǐng)你努力改造現(xiàn)在的世界吧!』(大意)