2019-11-29 啥是強化學(xué)習(xí)

問題來源

昨天和同學(xué)一起去聽了一位老師的強化學(xué)習(xí)講座,老師從AlphaGo引起人們對強化學(xué)習(xí)的關(guān)注講起,一直講到OpenAI Five在Dota這一非完全信息場景下?lián)魯∪祟愴敿膺x手。接著,老師又從以強化學(xué)習(xí)的發(fā)展歷程為脈絡(luò)講述了其基本原理和當(dāng)下存在的主要問題以及解決方法。

講座結(jié)束后,和同學(xué)聊天時,說起強化學(xué)習(xí)與深度學(xué)習(xí)的區(qū)別是什么。我說了半天結(jié)果卻給同學(xué)造成了一個“強化學(xué)習(xí)和深度學(xué)習(xí)差不多”的印象?,F(xiàn)在想起來真是不如不解釋,不過確實也是自己對強化學(xué)習(xí)不夠了解,今天就來仔細(xì)分析一下強化學(xué)習(xí)是什么,以及他和深度學(xué)習(xí)的異同。

什么是強化學(xué)習(xí),和深度學(xué)習(xí)有啥區(qū)別?

強化學(xué)習(xí) 是機(jī)器學(xué)習(xí)中的一個領(lǐng)域,強調(diào)如何基于環(huán)境而行動,以取得最大化的預(yù)期利益。
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)的分支,是一種以人工神經(jīng)網(wǎng)絡(luò)為架構(gòu),對數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的算法。
對比兩者定義就知道這兩者的區(qū)別不是雞鴨的不同,而是老虎和海洋生物的區(qū)別。二者既沒有隸屬關(guān)系,也不是用相同的標(biāo)準(zhǔn)進(jìn)行比較。
二者同屬于機(jī)器學(xué)習(xí)的范疇內(nèi),與強化學(xué)習(xí)對應(yīng)的是監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、特征學(xué)習(xí)、異常檢測等問題在同一層面,而深度學(xué)習(xí)則是一種機(jī)器學(xué)習(xí)的算法,是神經(jīng)網(wǎng)絡(luò)的一種,與SVM、MLP等算法處于同一層面。

強化學(xué)習(xí)自然可以和深度學(xué)習(xí)相結(jié)合,他們愛情結(jié)晶的名字叫做深度強化學(xué)習(xí)。你看,既有深度又經(jīng)過強化一看就很厲害是不是 \( ̄▽ ̄)/

AlphaGo以及OpenAI Five都應(yīng)用了深度強化學(xué)習(xí)算法,誰讓原有的強化學(xué)習(xí)表格法能力太弱還不能處理連續(xù)狀態(tài)空間和連續(xù)動作空間呢。這里要說強化學(xué)習(xí)和深度學(xué)習(xí)有什么區(qū)別也不太好比較,怎么看都是風(fēng)馬牛不相及的兩個東西。

那么強化學(xué)習(xí)和監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)還有那一大堆有什么區(qū)別呢?

這個問題問的好?。▌e夸自己了)

監(jiān)督學(xué)習(xí)的定義是從給定的訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)出一個函數(shù),當(dāng)新的數(shù)據(jù)到來時,可以根據(jù)這個函數(shù)預(yù)測結(jié)果。監(jiān)督學(xué)習(xí)的訓(xùn)練集要求是包括輸入和輸出,也可以說是特征和目標(biāo)。訓(xùn)練集中的目標(biāo)是由人標(biāo)注的。

無監(jiān)督學(xué)習(xí)與監(jiān)督學(xué)習(xí)相比,訓(xùn)練集沒有人為標(biāo)注的結(jié)果。

根據(jù)兩者的定義,監(jiān)督學(xué)習(xí)等是需要一個訓(xùn)練數(shù)據(jù)集的,目的是得到一個網(wǎng)絡(luò),等到新數(shù)據(jù)進(jìn)入后通過這個網(wǎng)絡(luò)可以給出期望的預(yù)測結(jié)果。監(jiān)督學(xué)習(xí)主要包括訓(xùn)練數(shù)據(jù)、訓(xùn)練數(shù)據(jù)標(biāo)簽、算法、優(yōu)化算法幾個部分,而強化學(xué)習(xí)主要包括五個要素:Agent(一般翻譯成智能體),Environment(環(huán)境)、Observation(觀測)、Action(行動)、Reward(回報)。強化學(xué)習(xí)各個要素間的關(guān)系如圖1所示。

圖1 強化學(xué)習(xí)結(jié)構(gòu)

如果要比較強化學(xué)習(xí)和監(jiān)督學(xué)習(xí)的區(qū)別的話,那么可以說監(jiān)督學(xué)習(xí)的大部分算法更像一錘子買賣。比如用深度學(xué)習(xí)檢測圖片,那么這一幀給一只狗在夜晚房門前的照片,下一幀給一只貓在白天海邊的照片都應(yīng)該得出一樣的結(jié)果。但是在強化學(xué)習(xí)的訓(xùn)練中,算法需要從環(huán)境中感知一些信息,才能評價上一步的動作效果。換言之,強化學(xué)習(xí)注重通過智能體與環(huán)境進(jìn)行交互,并以此獲得觀測值,對上一步的動作進(jìn)行評價,并給出下一步的動作。

小結(jié)

這里胡亂講了許多,主要說的還是強化學(xué)習(xí)在思想上和其他方法的異同。在具體概念上,連最基礎(chǔ)的馬爾科夫決策過程都沒有提及,如果對強化()學(xué)習(xí)方法感興趣,可以移步Sutton老爺子的Reinforcement Learning: An Introduction這本書在2018年做了一次版本更新,代替了98年的第一版。

參考資料

[1]維基百科編者. 機(jī)器學(xué)習(xí)[G/OL]. 維基百科, 2019(20190724)[2019-07-24]. https://zh.wikipedia.org/w/index.php?title=%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0&oldid=55351718.
[2]維基百科編者. 強化學(xué)習(xí)[G/OL]. 維基百科, 2019(20191021)[2019-10-21]. https://zh.wikipedia.org/w/index.php?title=%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0&oldid=56563604.

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容