機器學習簡史【譯】

原文:Brief History of Machine Learning

第一次看到這篇文章應該是在去年,覺得很不錯。收藏了很久,最近才想到把它翻譯成中文。文中沒有太多理論和技術(shù)的細節(jié),對機器學習和人工智能感興趣的可以當作茶余飯后的消遣了解一下。本文沒有包括參考文獻,如需要,請閱讀原文。水平有限,歡迎指正。

我的機器學習時間線,[這里](http://upload-images.jianshu.io/upload_images/1182935-54c5e8779defa331.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)看大圖

自從科技和人工智能發(fā)源以來,科學家們追隨帕斯卡和萊布尼茨的腳步,思考著機器是否能像人類一樣具備智能這一命題。儒勒·凡爾納、法蘭克·鮑姆(《綠野仙蹤》)、瑪麗·雪萊(《弗蘭肯斯坦》)、喬治·盧卡斯(《星球大戰(zhàn)》)都設(shè)想了能夠模仿人類行為,甚至在不同情境下都具備類人技能的人造物。

帕斯卡的加減法器 - 1642

機器學習是實現(xiàn)人工智能的一個重要途徑,如今在學術(shù)界和工業(yè)界都是炙手可熱。公司和高校都投入了大量資源來拓展這一領(lǐng)域的知識。最新的成果在多種不同任務(wù)中都表現(xiàn)非常不錯,足以媲美人類(識別交通標志的準確率高達98.80%,超過了人類)。

我接下來要講的,是機器學習發(fā)展歷程的一條粗略時間線,我會指出其中一些具有里程碑意義的節(jié)點,但這并不是全部。另外,在文中每個觀點的前面,都應該加上“據(jù)我所知”四個字。

1949年,Hebb在一個神經(jīng)心理學學習方程的基礎(chǔ)上,向如今盛行于世的機器學習邁出了第一步。該理論被稱為“赫布理論”。簡單來講,赫布理論研究的是循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network)中節(jié)點之間的相關(guān)性。RNN在網(wǎng)絡(luò)中記憶共性特征,起到類似記憶的作用。赫布理論的形式化表述如下:

假定反射行為的持續(xù)和重復(或稱作“痕跡”)能夠引起細胞的永久改變,進而提高該行為的穩(wěn)定性...如果細胞A的軸突距離近到可以激發(fā)細胞B,并且反復或持續(xù)的參與到細胞B的激活中,兩個細胞其中之一或者兩者皆會進行增長或發(fā)生代謝性變化,使得A激活B的效率得到提升。

Arthur Samuel

1952年,IBM的Arthur Samuel開發(fā)了一個玩西洋跳棋的程序。這個程序可以觀察棋子的位置并構(gòu)建一個隱式的模型,用來改進之后下棋的策略。Samuel和這個程序玩了很多局,發(fā)現(xiàn)它隨著時間的推移玩得越來越好。

Samuel用這個程序推翻了機器的能力不能超越其代碼且不能像人類一樣學習的論斷。他以如下方式定義了“機器學習”這一概念:

不需要顯式編程就可以賦予機器某項能力的研究領(lǐng)域。

F. Rosenblatt

1957年,同樣具備神經(jīng)科學背景的Rosenblatt提出了第二個模型:感知機(Perceptron),它更接近如今的機器學習模型。這在當時是一個讓人激動的發(fā)現(xiàn),實際上感知機也比赫布的理論更加容易應用。Rosenblatt是這樣介紹感知機的:

感知機用來從總體上描述智能系統(tǒng)的一些基本屬性,而不必過多糾纏于具體生物組織的那些特殊的、通常未知的條件。

3年之后,Widrow提出了差量學習規(guī)則,隨即被用于感知機的訓練。這也被稱為“最小平方”問題。結(jié)合感知機和差量學習,可以創(chuàng)建出很好的線性分類器。然而,Minsky在1969年給感知機的熱潮潑了一盆冷水。他提出了著名的“異或”問題,指出感知機無法處理像這樣線性不可分的數(shù)據(jù)分布。這是Minsky對神經(jīng)網(wǎng)絡(luò)社區(qū)的致命一擊。此后,神經(jīng)網(wǎng)絡(luò)研究陷入停滯直到80年代。

數(shù)據(jù)線性不可分的“異或問題”

盡管Linnainmaa在1970年曾以 “ reverse mode of automatic differentiation ” 這個名字提出過反向傳播的想法,但是并沒有得到太多關(guān)注,直到Werbos在1981年提出了多層感知機(Multi-Layer Perceptron)的設(shè)想和針對神經(jīng)網(wǎng)絡(luò)的反向傳播算法(Backpropagation)。反向傳播至今仍是神經(jīng)網(wǎng)絡(luò)架構(gòu)的關(guān)鍵算法。有了這些想法,神經(jīng)網(wǎng)絡(luò)的研究再次提速。1985到1986年之間,多位研究者先后提出了MLP的想法和具有使用價值的BP算法。

來自Hetch和Nielsen的論文

與此同時,J. R. Quinlan在1986年提出了一個非常著名的機器學習算法,我們稱之為“決策樹”,具體來講就是ID3算法。這是機器學習另一個主流分支的起點。不僅如此, 作為一個發(fā)行軟件 ,ID3的簡單規(guī)則和清晰預測可以找到更具實際意義的使用場景,這點不同于還是黑盒的神經(jīng)網(wǎng)絡(luò)模型。

在ID3之后,研究社區(qū)提出了很多變體和改進(例如ID4、回歸樹、CART等等),至今仍是機器學習領(lǐng)域里的一個活躍分支。

來自Quinlan的論文

機器學習的最重要的突破之一是Vapnik和Cortes在1995年提出的支持向量機(Support Vector Machine),它同時具備堅實的理論基礎(chǔ)和亮眼的實驗結(jié)果。從那時開始,機器學習社區(qū)分裂成了擁護神經(jīng)網(wǎng)絡(luò)和SVM的兩個派別。然而,當SVM的核化版本在2000年左右被提出之后(我找不到第一篇關(guān)于這個話題的論文了),神經(jīng)網(wǎng)絡(luò)開始在競爭中處于下風。SVM在此前被神經(jīng)網(wǎng)絡(luò)模型占據(jù)的很多任務(wù)中都取得了最佳成績。并且,SVM可以利用在凸優(yōu)化、綜合邊際理論和核函數(shù)方面的豐富研究成果來超越神經(jīng)網(wǎng)絡(luò)。因此,它可以從不同學科汲取養(yǎng)分從而極大的推動了理論和實踐的發(fā)展。

來自Vapnik和Cortes的論文

Hochreiter在1991年的學位論文和2001年發(fā)表的論文又給了神經(jīng)網(wǎng)絡(luò)沉重的一擊,這些論文表明,應用BP學習在神經(jīng)網(wǎng)絡(luò)的單元飽和時將遭遇梯度損失。簡而言之,由于單元會飽和,在超過一定循環(huán)次數(shù)之后繼續(xù)訓練神經(jīng)網(wǎng)絡(luò)是畫蛇添足的,因為神經(jīng)網(wǎng)絡(luò)很可能在少數(shù)訓練循環(huán)之后就產(chǎn)生了過擬合。

在此之前不久,F(xiàn)reund和Schapire在1997年提出了另一個有效的機器學習模型,這種名為Adaboost的模型組合多個弱分類器來提升性能。這項研究在當時為作者贏得了Godel獎。Adaboost構(gòu)建一組易于訓練的弱分類器,同時對其中相對較難訓練的個體賦予較高的重要性。這一模型現(xiàn)在也是很多不同任務(wù)的基礎(chǔ),比如面部識別和檢測。它也是“可能近似正確”(PAC)學習理論的實現(xiàn)。一般來講,所謂的弱分類器被選作簡單的決策樁(決策樹中的單個節(jié)點)。他們?nèi)绱私榻BAdaboost:

我們研究的模型可以被解釋為在一般決策場景下對已經(jīng)充分研究的在線預測模型的一種廣泛的、抽象的擴展。

Breiman在2001年研究了另一種使用多個決策樹的組合模型,其中每棵樹都是用訓練樣例的一個隨機子集訓練得到的,樹的每個節(jié)點都來自一組隨機選擇的特征子集。由于這一特點,該算法被稱作“隨機森林(Random Forest)”。理論和實踐都證明RF可以避免過擬合。AdaBoost在面臨過擬合和異常數(shù)據(jù)時表現(xiàn)不佳,但是RF在這方面這更加健壯。(RF的更多細節(jié)請參考我以前的文章)。RF在Kaggle競賽等很多任務(wù)上都有不錯的表現(xiàn)。

隨機森林是一組樹形預測器的組合,每棵樹取決于獨立隨機采樣的向量值且該向量值對森林中所有樹具有相同分布。當森林中樹的數(shù)目很大時,泛化誤差收斂于某個極限值。

時至今日,神經(jīng)網(wǎng)絡(luò)已經(jīng)進入了“深度學習”的新時代?!吧疃葘W習”一詞是指具備多個級聯(lián)層次的神經(jīng)網(wǎng)絡(luò)模型。2005年前后,依靠Hinton、LeCun、Bengio、Andrew Ng以及其他很多資深研究人員在以往和當時的各種研究成果,神經(jīng)網(wǎng)絡(luò)開始了第三次崛起。我列出了其中一些重要的標題(我想我以后可能會專門寫篇文章討論深度學習)。

  • GPU編程
  • 卷積神經(jīng)網(wǎng)絡(luò)(CNN)
    • Deconvolutional Networks
  • 最優(yōu)化算法
    • 隨機梯度下降(Stochastic Gradient Descent)
    • BFGS和L-BFGS
    • 共軛梯度下降(Conjugate Gradient Descent)
    • 反向傳播
  • 整流單元(Rectifier Units)
  • 稀疏性(Sparsity)
  • Dropout網(wǎng)絡(luò)
    • Maxout Nets
  • 無監(jiān)督神經(jīng)網(wǎng)絡(luò)
    • 深度置信網(wǎng)絡(luò)(Deep Belief Networks)
    • Stacked Auto-Encoders
    • Denoising NN models

基于這些以及其他沒有列出的成果,神經(jīng)網(wǎng)絡(luò)模型在諸多不同任務(wù)上都擊敗了當時最先進的算法,例如物體識別,語音識別,自然語言處理等等。然而,值得說明的是,這絕不表示機器學習的其他分支就此終結(jié)。盡管深度學習聲名鵲起,對這些模型仍然有很多關(guān)于訓練成本和外生參數(shù)調(diào)優(yōu)的批評。同時,SVM憑借其簡潔性仍然得到了更多的應用。(據(jù)說如此,但存在爭議)。

結(jié)束本文之前,我想談?wù)剻C器學習領(lǐng)域里另一個相對新興的研究趨勢。隨著萬維網(wǎng)和社交媒體的增長,大數(shù)據(jù)這個新概念開始嶄露頭角并且對機器學習的研究產(chǎn)生了重大影響。由大數(shù)據(jù)引發(fā)的大問題,讓很多強大的機器學習算法在現(xiàn)實系統(tǒng)中毫無用武之地(當然,科技巨頭們除外)。因此,研究人員提出了一類被稱為“土匪算法”(官方名稱是“在線學習”)的簡單模型,這讓學習變得更加簡單以適應大規(guī)模問題。

這篇不成熟的機器學習簡史就到此為止了。如果你發(fā)現(xiàn)了錯誤,不足和沒有引用文獻的地方,歡迎不擇手段的向我發(fā)出警告。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 機器學習(Machine Learning)&深度學習(Deep Learning)資料(Chapter 1) 注...
    Albert陳凱閱讀 22,845評論 9 477
  • 現(xiàn)在是2017年 我在夏天等待冬天的雪花。 現(xiàn)在是2017年 我十八歲,回憶著童年,恐懼著未來。 現(xiàn)在是2017年...
    何東東yeah閱讀 330評論 1 4
  • 北方的天氣,干燥涼爽的夏天,吹干了我眼眶里一半的眼淚。 打開電腦,網(wǎng)頁還顯示的是在公寓里窗臺邊搜索的內(nèi)容,感覺心里...
    歲月白貓閱讀 779評論 2 7
  • 曉明(我還沒想好今后怎么稱呼你),因為我,你今天一天都很難受,對不起,我會用心去對你好,請相信我,其實我也不知道該...
    我期待的是閱讀 149評論 0 0
  • #玩卡不卡·每日一抽# 每一位都可以通過這張卡片覺察自己: 1、直覺他叫什么名字?我 2、他幾歲了? 40 3、他...
    深海觀魚閱讀 286評論 0 0

友情鏈接更多精彩內(nèi)容