? 上一期,我們講述了人工智能的兩大核心是大數(shù)據(jù)和算法,今天,我們來介紹兩個(gè)知名的概念:機(jī)器學(xué)習(xí)和深度學(xué)習(xí)。
?
? 什么是機(jī)器學(xué)習(xí)?
? 我們用“啤酒與尿布”的經(jīng)典商業(yè)案例來說明。
?
?
? 在上個(gè)世紀(jì)90年代,沃爾瑪超市已經(jīng)是美國最大的零售企業(yè),擁有大量的顧客資源。它采用了先進(jìn)的計(jì)算機(jī)技術(shù),隨時(shí)記錄著每天眾多顧客購物車中所挑選的商品明細(xì)。
? 有一天,沃爾瑪?shù)募夹g(shù)專家發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:經(jīng)過大量的顧客購買記錄數(shù)據(jù)分析顯示,在購物籃中“啤酒”與“尿布”這兩件看上去毫無關(guān)系的商品會經(jīng)常出現(xiàn)在一起;于是沃爾瑪嘗試把超市的啤酒和尿布兩種商品擺在相鄰的柜臺,結(jié)果實(shí)行以后銷售額得到了顯著提升。啤酒和尿布的故事也從此廣為流傳,成為了商業(yè)界和科技界津津樂道的成功典范。
? 后來經(jīng)過調(diào)查才發(fā)現(xiàn),這種現(xiàn)象出現(xiàn)在年輕的父親身上。因?yàn)樵诿绹袐雰旱募彝ブ?,一般是母親在家中照看嬰兒,年輕的父親前去超市購買尿布;父親在購買尿布的同時(shí),往往會順便為自己購買啤酒,這樣就會出現(xiàn)啤酒與尿布這兩件看上去不相干的商品經(jīng)常會出現(xiàn)在同一個(gè)購物籃的現(xiàn)象。
? 在啤酒與尿布的案例中,沃爾瑪所使用的是一種叫做Apriori的機(jī)器學(xué)習(xí)算法,它可以揭示出了機(jī)器學(xué)習(xí)的核心思想:讓計(jì)算機(jī)程序隨著數(shù)據(jù)樣本積累,自動獲得精確的判斷和歸納能力。其中,提供給機(jī)器分析的大量數(shù)據(jù),在專業(yè)領(lǐng)域叫做機(jī)器學(xué)習(xí)的訓(xùn)練集;把現(xiàn)象經(jīng)過分析、歸納出結(jié)果的過程,叫做訓(xùn)練。
?
? 什么是深度學(xué)習(xí)?
? 深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中的一個(gè)分支,它們之間的關(guān)系可以用下圖來展示。我們同樣用一個(gè)例子來說明。
?
?
? 如何教機(jī)器識別出一只貓?傳統(tǒng)的算法,是通過很多種特征的描述,來定義“貓”,比如大眼睛、有胡子、有花紋等;但即使制定這些規(guī)則之后,機(jī)器有時(shí)難以區(qū)分貓和老虎,甚至可能連狗和貓也分不出來。這就是傳統(tǒng)的人制定規(guī)則,機(jī)器學(xué)習(xí)的方法。
? 深度學(xué)習(xí)的方法是直接給機(jī)器數(shù)百萬張圖,告訴它這里有貓,再給它另外數(shù)百萬張圖,說這里沒貓,再通過這兩個(gè)訓(xùn)練集訓(xùn)練一個(gè)深度網(wǎng)絡(luò)。所謂深度網(wǎng)絡(luò),你可以理解為一個(gè)通過多層算法,每一層各自分工進(jìn)行計(jì)算,最后將各層計(jì)算結(jié)果合并為一個(gè)結(jié)論輸出的系統(tǒng)。例如深度網(wǎng)絡(luò)的最底層可以從訓(xùn)練集中的原始像素開始學(xué)習(xí),刻畫局部的邊緣和紋;中層可以把各種邊緣進(jìn)行組合,描述不同類型的貓的器官;最高層可以描述整個(gè)貓的全局特征,最后三層綜合分析,判斷出圖中是否有貓存在。
? 深度學(xué)習(xí)則徹底顛覆了“人造特征”的傳統(tǒng)機(jī)器學(xué)習(xí)方法,不再需要大量人工設(shè)計(jì)特征;開啟了數(shù)據(jù)驅(qū)動的“自我學(xué)習(xí)”范式——由數(shù)據(jù)自提取特征,計(jì)算機(jī)自己發(fā)現(xiàn)規(guī)則,進(jìn)行自學(xué)習(xí)。深度學(xué)習(xí)最大的優(yōu)勢在于可以減少參數(shù),因?yàn)樗軌蛑貜?fù)利用中間層的計(jì)算單元;但這也要去它需要超強(qiáng)的計(jì)算能力,以及海量數(shù)據(jù)的輸入。
? 斯坦福大學(xué)的計(jì)算機(jī)博士曾用托爾斯泰的小說《戰(zhàn)爭與和平》來訓(xùn)練深度網(wǎng)絡(luò),每訓(xùn)練100個(gè)回合,就叫它寫文章。100個(gè)回合后,機(jī)器知道要空格,但仍然有亂碼;500個(gè)回合后,能正確拼寫一些短單詞;1200個(gè)回合后,有標(biāo)點(diǎn)符號和長單詞;2000個(gè)回合后,已經(jīng)可以正確拼寫更復(fù)雜的語句。
? 我們之前介紹過什么是監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí),深度學(xué)習(xí)更偏向于無監(jiān)督學(xué)習(xí)中的一種(僅有少量的深度學(xué)習(xí)算法是監(jiān)督學(xué)習(xí))。它已經(jīng)在現(xiàn)實(shí)中摧枯拉朽般地實(shí)現(xiàn)了各種任務(wù),從Google AlphaGo,無人駕駛汽車,預(yù)防性醫(yī)療保健,到更好的電影推薦等,拓展了人工智能的領(lǐng)域范圍,未來將有希望替代監(jiān)督學(xué)習(xí)成為人工智能的主流算法派別。
?
? 小結(jié):
? 今天我們介紹了機(jī)器學(xué)習(xí)和深度學(xué)習(xí)。
? 機(jī)器學(xué)習(xí)是一類人工智能算法的統(tǒng)稱,它的核心思想是讓計(jì)算機(jī)程序隨著數(shù)據(jù)樣本積累,自動獲得精確的判斷和歸納能力。
? 深度學(xué)習(xí)是機(jī)器通過多層網(wǎng)絡(luò)計(jì)算,自提取數(shù)據(jù)特征,自己發(fā)現(xiàn)規(guī)則,進(jìn)行自學(xué)習(xí)的系統(tǒng)。它未來將有希望替代監(jiān)督學(xué)習(xí)成為人工智能的主流算法派別。
?
? 預(yù)告:
? 下一篇文章,我們會以AlphaGo為例子,介紹一下神經(jīng)網(wǎng)絡(luò)和蒙特卡洛算法,如果你感興趣,請留意關(guān)注微信公眾號:智能加研究院
?