From Distill 《Using Artificial Intelligence to Augment Human Intelligence》
讀什么樣的文章感覺最棒?
我會回答,大部分內容沒超出我理解范圍,同時又能從熟悉的內容得出讓人深思,又出乎意料的想法。比如之前Andrej Karpathy的《軟件2.0》那篇文章。感覺有點像是推理小說吧。
這篇文章也是如此,想提出一個新的領域。原文很長,其實主要觀點就一個,AI技術可以用來生成包含各種認知原型的界面,這種界面可以幫組人們更高效的思考。
時代造電腦
不同時代對電腦的用途有不同的看法,而不同看法也反過來促使人們改變使用電腦的方式,開發(fā)出滿足自己需求的電腦。
比如說早期,大家只把計算機當做是計算工具,之后才提出計算機能夠用來增強人類智能。這樣的思想影響了一代人,比如喬幫主,反過來影響了現在的計算系統(tǒng)還有很多其他領域。
過去,AI總會和IA搶資源,但最近的一些諸如生成模型方面的研究顯示,完全可以利用AI來發(fā)展IA,所以提出一個新的領域,AIA (Artificial Intelligence Augment)。
凡事都要從舉栗子開始

最初展示的是字體的例子,如下圖。左邊是各種字體,中間是一個界面,有三個條,分別調節(jié)粗細、斜度、還有寬窄。

自己試著調節(jié)一下之后,會得到這樣的效果。
| BOLD | ![]() |
![]() |
|---|---|---|
| ITALIC | ![]() |
![]() |
| CONDENSED | ![]() |
![]() |
其實看到這,可能會想變粗細的工具不早就有了嗎,這有什么稀奇。
當然這里之所以比較特別是因為,這個界面的底層,并不是普通設計出來的算法而是用了一些特殊技巧的神經網絡,而且和一般調節(jié)屬性不同的是,這里的調節(jié)屬性是連續(xù)的,而不是離散的,比如只有小中大三個選項。
還有很重要的一點是,在實際中,設計師設計加粗等變化時,并不是想當然的把線加粗就好了。這里面還涉及到很多小的設計技巧,才能夠保證可讀性。如下圖所示,想當然的加粗法和真正加粗方法的對比。
而底層的神經網絡神奇地把這種小技巧也都學會了。

這里用到的技術很大程度與隱空間這個概念有關。
穿梭于隱空間之間
什么是隱空間 (Latent Space)?
我們直接接觸到的數據,一般處理起來都會比較困難,而且會有很多冗余,比如說MNIST的圖片,每張圖片有256個像素,但僅僅表示10個數字。
這時候可以把這個顯的圖片,投影到一個隱空間中去,可能只需要更少的數據來表示,比如說20個數據點。有時也希望把在實際表示大大不同的數據投影到隱空間之后,使得相似概念的物體互相比較接近。
比如下圖,如果比較像素的話,兩個椅子還有兩個桌子會有很大不同,但是投影到隱空間之后它們互相就會靠得比較近了。其實可以說人腦中就有一個隱空間。

同理,對于字體問題來說,如果我們把普通字體和粗字體投影到隱空間后,那么普通字體就會和普通字體在一塊,而粗字體則在另一個塊。

因為每個數據在隱空間中是一個點,這時比較有趣的問題是,如何把非粗體的點變成粗體的點。如果學過線性代數的話,那么就會知道,從一個點到另一個點只需要加一個向量。
也就是說在隱空間中,可以用非粗體點,加上一個粗體向量,然后就可以得到粗體點。一個很簡單的加法問題。
反過來說,如果有大量的非粗體和粗體數據,首先分別將它們投影到隱空間,之后對每一部分求平均得到一個平均點坐標,然后用粗體點坐標減非粗體點坐標,就可以得到所謂的粗體向量了。
之后對任何字體進行加粗,只需要加上粗體向量就可以了。而要加多少,則可以自己調節(jié),比如說一半,把粗體向量乘上0.5加上去就可以了。上一節(jié)中可以調節(jié)的界面,也是基于這個原理,不過是在調節(jié)粗體向量、斜體向量、寬窄向量前的系數。
上面提到的三個向量,可以叫做屬性向量,可以利用它們來賦予屬性。

在隱空間中加上屬性向量之后,只需要從隱空間還原回去就好了。而一般我們都會搭建上面這樣的結構,來編碼進隱空間,以及解碼還原成現實數據。
更多的應用
基于同樣的原理,也可以發(fā)掘出其他一些屬性向量,比如說笑容向量。

句子長度向量。

甚至延遲熒光衰減率(delayed fluorescence decay rate).

也可以自己開腦洞,比如說,找來大量高質量美顏前和美顏后的照片,投影到隱空間,之后就能夠得到美顏向量。之后如果要給自己P圖的話就可以直接做出一個進度條,調節(jié)自己的美顏值,而不用像現在很多軟件,調節(jié)各種膚色,眼睛大小...
繼續(xù)開腦洞,還能弄出透視攝像頭,這個就自己想吧。
除了上面這個利用隱空間的屬性向量來制作屬性條,還可以通過隱空間的一些操作來輔助設計還有畫圖。

可以利用簡單的繪畫來暗示想要的屬性,比如說顏色,鞋跟,款式... 之后界面就會自動在隱空間中,找到滿足這些屬性約束條件的點,然后還原回來,得到想要設計的鞋款了。這樣子的話,即使并不是設計方面的專家,也能根據自己的感覺設計出來鞋款。
當然從圖片也可以看出,上面這些應用目前其實還是很粗糙,還有很多需要完善的地方。而且為了說明本文的主要idea,這部分并不是很重要。
思想認知原型(primitive)
前面提到的字體設計小技巧,比如說Geogia這類的字體加粗時,保持細邊不變,而粗邊加粗。這些設計的技巧可以說就是一個個的認知原型。
更復雜點的認知原型,比如說數學里的符號,物理里的費曼圖表示,還有畢加索風格。這些都是某領域頂尖大師,將自己的思想表示出來,提出的思想原型。每一個這樣的思想原型的產生,都是人類文明的一次躍進,后人還能夠利用這些原型加速文明的發(fā)展。
語言學家沃爾夫說過:“人的語言決定了人的思維能力?!?/p>

我更愿意把這里面說的語言,看做是認知原型。這句話什么意思呢,一定的認知原型決定著某種知識的發(fā)展速度。
比如說,牛頓和萊布尼茨同時發(fā)明微積分,但是為什么之后英國這方面發(fā)展更快,而德國遲遲不前,很大程度上和牛頓用的表示系統(tǒng)有關。
會不會阻礙創(chuàng)新
因為認知原型界面都是人類已發(fā)明出的原型,之后如果習慣于直接拿來就用,大家也就不愿去思考新的原型,這樣會不會阻礙人類的創(chuàng)新呢。
這里要提一下創(chuàng)新的兩種方式。
第一種創(chuàng)新,是通過把之前的各種思想原型進行重組的創(chuàng)新。比如說字體設計師,很多工作就是對現有的很多最佳設計技巧進行適當重組。主要涉及到很多創(chuàng)造性的選擇,來達到預期目標,并沒有發(fā)展關鍵的基礎原理。
第二種創(chuàng)新,則是一般想的根本性的創(chuàng)新,發(fā)展新原理,提出新思想原型。
所以可想而知,使用上述說的認知原型界面,不光不會阻礙第一種創(chuàng)新,反而會加速它的發(fā)展。
那有沒有辦法利用這樣的AIA技術來影響第二種創(chuàng)新呢,就目前來說已經有些潛在的方法表明是可能的。
因為隱空間是廣闊的,除了通過訓練已有的數據獲得已有的原型。我們也可以故意地制造一些錯誤,來探索隱空間,從而得到之前從未存在過,新的原型。

比如說藝術家 Mario Klingemann 和 Mike Tyka 就在用生成對抗性網絡(GAN)來創(chuàng)造有意思的藝術作品。他們故意使用了有缺陷的GAN,從而獲得從新的從沒見過的處理。
良性循環(huán)
最后,作者呼吁我們應該重視AIA界面設計,因為最深刻的界面設計意味著人類認知基本原型的組合。
有了這些認知原型界面的幫組,人們就可以把這些認知原型內化,從而擁有更加強大的思考方式。之后還可以反過來利用強大的思維方式來幫助開發(fā)更好的AI系統(tǒng)。

我的看法
然而我的看法是,雖然這里說是人工智能增強(AIA)。但實際上主要提及的是,如何使用AI技術來建立一個更加廣泛意義上的人機交互界面,而這個界面是由所謂的認知原形(Cognitive Primitives)組成。
我認為IA應該是一個更廣泛的話題,智能增強也應當包括人機之間的合作,而不僅僅是生成更高層抽象概念的用戶界面。
比如說,如果律師利用一個AI系統(tǒng)來幫助自己工作,它并不一定要取代律師的工作,而是可以來請求它們來幫忙查找文獻,進行繁瑣的資料搜尋工作,也應當算是IA。就像如今的搜索引擎,無疑使得我們可以把大量知識直接存儲在網上就好了。





