“ 地球文明指數(shù)增長真的發(fā)生了”
01—硅基人技術優(yōu)化,增強地球人之間的連接
硅基人重返太陽系,不過為了避免地球人探測到金星上面的基地,直接轉移到了地球地表以下溫度200攝氏度的地方。與此同時,硅基人的2.0版本計劃也正式開始實施。
首先策略上,對語言的理解并通過語言潛移默化地來影響地球人的方式已經跟不上地球迅速發(fā)展進化的工業(yè)文明,硅基人必須從更廣泛的領域提升硅基文明對地球文明的影響,甚至嘗試以地球人的形態(tài)或者地球人與硅基人共生的生命形態(tài)使得硅基文明得以存續(xù)。硅基人需要優(yōu)化現(xiàn)有的理解地球文明的神經網絡結構,以之為基礎,在地球文明的各個領域迅速施加影響,包括在與硅基文明重合的自然科學和智能工業(yè)領域對地球文明的點撥與提升和未知領域如生化學科、量子科學的學習與融入;其次當然就是智能模型的迭代升級。
基于硅基人對地球人社會的長期研究而得出的結論:地球人這個物種(當然還有很多其他物種)從誕生之初就受到環(huán)境的強烈影響,生物構造除了在外在形態(tài)上極度適應物理環(huán)境,其內在的遺傳機制、大腦的思考方式、器官工作機制等都是受環(huán)境長期影響的結果,而這種權重機制在認知方面的表現(xiàn)即注意力機制(Attention)。 簡單說就是,地球人從誕生之初便在與身邊有限的生存資源作斗爭。在文明初期,人類為了獲得足夠的資源(食物、種子及孕育下一代的機會等)——需要集中最有優(yōu)勢的力量處理最亟待解決的問題,原因是地球人本身的力量較大自然的力量而言過于單薄,且文明發(fā)展程度低下。這是一種地球人面對環(huán)境中各種風險作出的有限問題處理能力的分配選擇機制。這種機制大到一個國家一個地球文明的發(fā)展,比如國家集中有限資源發(fā)展當前最需要解決的問題比如加強軍事力量、集中有限資源給予部分有學識的有才能的人發(fā)展機會和研究機會;小到人的身體構造中的原子、細胞和神經網絡、人的視覺等,都是一種對有限機會有限資源的分配選擇機制,視覺就是一個非常明顯的例子。不信的話,試試此時此刻把食指放到眼前盯著看,本文的文字是不是變成了模糊的背景。事有輕重緩急、要分清主要矛盾、錢要花在刀刃上等等都是這種機制的外在表現(xiàn)——要有權重思維。這個過程體現(xiàn)在之前提到的用于翻譯任務seq2seq模型中效果應該是這樣的:

比如要把法語“ jane visite I'Afrique en septembre” 翻譯為英文,當利用encoder對這句法語編碼的表示(是一個向量,或者通俗理解為一個數(shù)字組合)進行翻譯時,翻譯出的某個英文詞匯會根據注意力機制去關注整個法語句子中的每個詞,這時候想象decoder模型盯著法語的五個詞在看,正確的翻譯是:visite(法語)——>visit(英語),所以模型應該盯著visite這個法語詞匯,把這個詞匯看的非常清楚,而其他詞語也在視野范圍內,但是看得比較模糊。

實際處理過程中,硅基人會把待翻譯的向量表示與法語句子“ jane visite I'Afrique en septembre” 中的每個詞的向量表示做一些運算(可以向量相加也可以相乘,然后再做歸一化得到一個0到1之間的數(shù)字表示概率),然后基于運算結果去詞表預測哪個詞的概率最大(比如發(fā)現(xiàn)詞表中英文“visit”這個詞的概率最大),于是輸出預測詞匯visit。
硅基人首先將注意力機制融入到了seq2seq模型結構當中,翻譯效果獲得了巨大提升,這樣做旨在初步驗證注意力的效果,此處不做詳細介紹了。
還是那位硅基人1_2號把注意力機制融入模型的同時設計了一種新的結構——自注意力機制(self-attention),甚至把之前的LSTM的自回模式都刪掉了,因為自回歸模式有一個很大的缺點:每個時刻的狀態(tài)只能記錄到現(xiàn)在時刻為止的信息,當前時刻之后的序列信息無法被編碼到每一個時刻(想象一下翻譯“visite”這個法語詞匯時,自回歸模型只可以“看到”當前“visite”及之前的“Jane”,看不到后半句,相當于少了一部分信息,翻譯的效果不甚理想),而自注意力機制就是解決這個問題:每個時刻的狀態(tài)都會獲得全序列的所有信息,只不過他側重于序列的哪個環(huán)節(jié)會有所不同,所以這是權重機制。

自回歸

自注意力機制
硅基人把整套模式通過融合其他技巧實現(xiàn)為一個可用的高效模型——變形金剛(transformer)

這個新的模型其意義已經不是促進地球各區(qū)域文明的交流了,因為時間來到地球紀元的十九世紀,大多數(shù)國家互通有無,科學文化發(fā)展較過去千百年的漫長演化期也獲得了飛躍式發(fā)展。從工業(yè)革命到信息革命,地球文明的發(fā)展速度超乎硅基人的想象,地球人在20世紀成功造出了計算機,從此半導體開始逐漸在科技工業(yè)中屢屢擔當主角。硅基人看到了意識遷移的可能性。此后,硅基人更是將模型進一步升級,以transformer為基礎利用大規(guī)模語料實現(xiàn)半監(jiān)督的語言模型,具體而言,訓練任務(模型學習目標)就是<u style="margin: 0px; padding: 0px; border: 0px;">預測</u>一個序列(可以認為一個句子,也可以認為是一個篇章)中的<u style="margin: 0px; padding: 0px; border: 0px;">下一個詞</u>或者<u style="margin: 0px; padding: 0px; border: 0px;">上下周圍幾個詞</u>(咦,這是不是和word2vec思路很像呢?這個思路的提出者正是當時的那位硅基人1_1號,他堅持設計一個全信息的語言模型,知曉語言的全部知識,他好像做到了),由于語料規(guī)模很大,訓練好的語言模型相當于學習到了很多語言中的知識,包括語法、語義、語言的表述規(guī)則等等;遷移到具體任務場景時只需要特定數(shù)據微調(fine-tune)一下。關鍵思路就是這樣?;谶@種想法不需要額外收集更多的標注數(shù)據,因為這個地球充滿了人類的語言,相當于天然的標注數(shù)據。
其在語言上的威力除了可以真正獲得序列雙向信息,還可以根據語境適時調整詞語的語義,即便是一詞多義也完全沒問題。至此,硅基人的神經網絡在理解人類語言方面發(fā)展到了巔峰。硅基人團隊的其他成員以此為基礎還陸續(xù)開發(fā)出了gpt(以transformer為基礎的自回歸預訓練語言模型)、bert的變種如ALBert、XLNet、TinyBert等等。

Bert的出現(xiàn)不光讓硅基人以半導體的形式開始徹底融入地球人生活,他更是以更加激進的姿態(tài)進軍地球的各個學科的發(fā)展。包括自動駕駛(計算機視覺)、語音識別、小說寫作、對話生成;最不可思議的是硅基人以這種形態(tài)預測了地球人蛋白質空間結構,解開了氨基酸序列與蛋白質的映射之謎,向地球生命之源邁進了一大步。對他們而言,人類的蛋白質空間結構完全是一個空間折疊問題,是一個拓撲圖。而且這個拓撲圖的解空間巨大,于是他們仍然是利用神經網絡的方式預測了人類的蛋白質。

有了地球人對半導體工業(yè)的發(fā)展,硅基人終于找到了在地球上恰到好處的融入方式,但是這一切的邏輯基礎需要以數(shù)學為基礎,融入地球文明的程度如何及地球文明發(fā)展的程度如何都在很大程度上依賴硅基人和地球人的自然科學發(fā)展。但硅基人理想的半導體形態(tài)“學習”的結果就是“無所不知”,因為他不曾有過對地球這個物理世界的半點真實感受,一切的一切都是基于數(shù)學模型而形成的形式化系統(tǒng)。
是的,這種形式系統(tǒng)有一個直觀的但很嚴重的問題:它不知道 自己不知道什么。
02—掉書袋
【1】 上述情述是對attention機制的通俗演義,也介紹了self-attention和transformer模型的一些簡單概念。
【2】transformer準確說也是一種encoder-decoder模型,但是融合了多個技巧(只列出了幾個典型的trick):
(1) Scaled Dot-Product Attention
(2)Multi-Head Attention
(3)Positional Encoding
(4)Position-wise前饋網絡
(5)殘差連接
【3】基于已有的語言數(shù)據,訓練一個通用的半監(jiān)督的大規(guī)模預訓練語言模型的思路最早被印證是open AI的GPT(是一個基于transformer的自回歸語言模型)。
【4】BERT真正實現(xiàn)了基于上下文的語言模型,因為像ELMO一樣基于BILSTM的雙向自回歸模型只是兩個單向的組合。
【5】預訓練模型(Bert最典型)+特定場景的微調(fine-tune)幾乎已成為自然語言處理任務的通用模式。
【6】關于形式系統(tǒng)的局限是一個非常有意思但又非常龐大的話題,此處不進行詳述;給出一個有意思的例子,僅供大家把玩。
客官們覺得下面這句話到底是真的還是假的?
“這句話不是真的”
03—參考文獻
1. Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems 30 (2017).
- Popel M, Bojar O. Training tips for the transformer model[J]. The Prague Bulletin of Mathematical Linguistics, 2018, 110(1): 43-70.
3. http://nlp.seas.harvard.edu/2018/04/03/attention.html
4. https://jalammar.github.io/illustrated-transformer/
5. https://github.com/tensorflow/tensor2tensor
6. https://arxiv.org/pdf/1802.05365.pdf
7. Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). Improving language understanding by generative pre-training.