迷霧探險(xiǎn)1 | 強(qiáng)化學(xué)習(xí)的開始學(xué)習(xí)

目前搜到的資料匯總

視頻教程

李宏毅機(jī)器學(xué)習(xí)課程第28講 ,深度強(qiáng)化學(xué)習(xí)入門課程相關(guān)PPT鏈接 密碼:77u5
李飛飛、吳恩達(dá)、Bengio等人的頂級(jí)深度學(xué)習(xí)課程 需要翻墻

一些概念掃盲

  1. 機(jī)器學(xué)習(xí)的四種主要類型
    (1)監(jiān)督機(jī)器學(xué)習(xí)(如回歸,分類):使用打了標(biāo)簽的數(shù)據(jù)給程序“訓(xùn)練”。用于進(jìn)行預(yù)測(cè)。
    (2)半監(jiān)督機(jī)器學(xué)習(xí)(如聚類,降維):一部分“訓(xùn)練”數(shù)據(jù),一部分“產(chǎn)出”數(shù)據(jù)。
    (3)無監(jiān)督機(jī)器學(xué)習(xí):沒有任何輸入的訓(xùn)練數(shù)據(jù)。使用“聚類”算法和“關(guān)聯(lián)”算法找到同模式的數(shù)據(jù)并排序。沒有標(biāo)簽與數(shù)據(jù)點(diǎn)相關(guān)聯(lián)。這些ML算法將數(shù)據(jù)組織成一組簇。此外,它需要描述其結(jié)構(gòu),使復(fù)雜的數(shù)據(jù)看起來簡(jiǎn)單,有條理,便于分析。
    (4)增強(qiáng)機(jī)器學(xué)習(xí):提供規(guī)則,使其尋找符合規(guī)則的最佳算法,輸入的數(shù)據(jù)僅有“是否勝利”,國(guó)際象棋是這種算法一個(gè)很好的例子。使用這些算法來選擇動(dòng)作,一段時(shí)間后,算法改變其策略以更好地學(xué)習(xí)。
    (5)深度學(xué)習(xí):更深層次,靈感來源于大腦的工作方式,使用端到端的方式來解決問題,輸入的數(shù)據(jù)和訓(xùn)練的時(shí)間越多,算法效果越好。

機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的區(qū)別
(1)深度學(xué)習(xí)數(shù)據(jù)依賴更多,數(shù)據(jù)量小的時(shí)候深度學(xué)習(xí)反而表現(xiàn)不佳。
(2)深度學(xué)習(xí)依賴于高端機(jī)器,而傳統(tǒng)學(xué)習(xí)依賴于低端機(jī)器。因此,深度學(xué)習(xí)要求包括GPU進(jìn)行大量的矩陣乘法。
(3)深度學(xué)習(xí)算法中有太多參數(shù),需要更多的執(zhí)行處理時(shí)間。機(jī)器學(xué)習(xí)只花需要更少的時(shí)間進(jìn)行訓(xùn)練。
(4)普通神經(jīng)網(wǎng)絡(luò)由于訓(xùn)練代價(jià)較高,一般只有3-4層,而深度神經(jīng)網(wǎng)絡(luò)由于采用了特殊的訓(xùn)練方法加上一些小trick,可以達(dá)到8-10層。深度神經(jīng)網(wǎng)絡(luò)能夠捕捉到數(shù)據(jù)中的深層聯(lián)系,從而能夠得到更精準(zhǔn)的模型,而這些聯(lián)系不容易被普通的機(jī)器學(xué)習(xí)方法所發(fā)覺。

深度學(xué)習(xí)和機(jī)器學(xué)習(xí)對(duì)數(shù)據(jù)量的依賴和效果
  1. 增強(qiáng)學(xué)習(xí):
    Reinforcementlearning, RL,又叫做強(qiáng)化學(xué)習(xí):基本概念

Reinforcement learning is learning what to do ----how to map situations to actions ---- so as to maximize a numerical reward signal.

也就是說增強(qiáng)學(xué)習(xí)關(guān)注的是智能體如何在環(huán)境中采取一系列行為,從而獲得最大的累積回報(bào)。


強(qiáng)化學(xué)習(xí)涉及的基本元素和思想.png
  • 環(huán)境(E):智能體所處的物理世界;
  • 狀態(tài)(S):智能體目前的狀態(tài);
  • 獎(jiǎng)勵(lì)(R):從環(huán)境中得到的反饋;
  • 方案:將智能體狀態(tài)映射到行動(dòng)的方法;
  • 價(jià)值(V):智能體在特定狀態(tài)下執(zhí)行某項(xiàng)行動(dòng)獲取未來的獎(jiǎng)勵(lì)。

通過增強(qiáng)學(xué)習(xí),一個(gè)智能體應(yīng)該知道在什么狀態(tài)下應(yīng)該采取什么行為。RL是從環(huán)境狀態(tài)到動(dòng)作的映射的學(xué)習(xí),我們把這個(gè)映射稱為策略。

增強(qiáng)學(xué)習(xí)和監(jiān)督學(xué)習(xí)的區(qū)別主要有以下兩點(diǎn)(增強(qiáng)學(xué)習(xí)更接近生物學(xué)習(xí)的本質(zhì)):

(1) 增強(qiáng)學(xué)習(xí)是試錯(cuò)學(xué)習(xí)(Trail-and-error),由于沒有直接的指導(dǎo)信息,智能體要以不斷與環(huán)境進(jìn)行交互,通過試錯(cuò)的方式來獲得最佳策略。
(2)延遲回報(bào),增強(qiáng)學(xué)習(xí)的指導(dǎo)信息很少,而且往往是在事后(最后一個(gè)狀態(tài))才給出的,這就導(dǎo)致了一個(gè)問題,就是獲得正回報(bào)或者負(fù)回報(bào)以后,如何將回報(bào)分配給前面的狀態(tài)。
(3)有監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)都會(huì)明確指出輸入和輸出之間的映射關(guān)系,但不同點(diǎn)在于,有監(jiān)督學(xué)習(xí)給智能體的反饋是執(zhí)行正確任務(wù)的行為集合,而強(qiáng)化學(xué)習(xí)反饋的則將獎(jiǎng)勵(lì)和懲罰轉(zhuǎn)為積極和消極行為的信號(hào)進(jìn)行反饋。
(4)對(duì)于無監(jiān)督學(xué)習(xí),強(qiáng)化學(xué)習(xí)的目標(biāo)顯得更加難以實(shí)現(xiàn)。無監(jiān)督學(xué)習(xí)的目標(biāo)僅僅是找到數(shù)據(jù)之間的相似和不同,而強(qiáng)化學(xué)習(xí)的目標(biāo)卻是找到一個(gè)能最大化智能體總累計(jì)獎(jiǎng)勵(lì)的模型。

增強(qiáng)學(xué)習(xí)最早的成功例子:Tesauro(1995)描述的TD-Gammon程序,使用增強(qiáng)學(xué)習(xí)成為了世界級(jí)的西洋雙陸棋選手。這個(gè)程序經(jīng)過150萬個(gè)自生成的對(duì)弈訓(xùn)練后,已經(jīng)近似達(dá)到了人類最佳選手的水平,并在和人類頂級(jí)高手的較量中取得40 盤僅輸1盤的好成績(jī)。

強(qiáng)化學(xué)習(xí)的主要模型和算法

1 MPD

對(duì)強(qiáng)化學(xué)習(xí)的研究可以從MPD(Markov desicion processes)開始。非確定的馬爾科夫決策過程
馬爾可夫決策過程(MDP)是所有強(qiáng)化學(xué)習(xí)環(huán)境的數(shù)學(xué)框架,幾乎所有強(qiáng)化學(xué)習(xí)問題都可以使用MDP來搭建模型。一個(gè)MDP過程包含一個(gè)環(huán)境集合(S),每個(gè)狀態(tài)中包含一個(gè)可能的行動(dòng)集合(A),還包含一個(gè)實(shí)值獎(jiǎng)勵(lì)函數(shù)R(s)和一個(gè)轉(zhuǎn)移矩陣P(s',s | a)。不過,現(xiàn)實(shí)世界的環(huán)境中,環(huán)境動(dòng)態(tài)的先驗(yàn)信息可能是未知的,在這種情況下,運(yùn)用“不理解環(huán)境強(qiáng)化學(xué)習(xí)”算法(model-free RL)去進(jìn)行預(yù)測(cè)會(huì)更加方便、好用。

Q-learning模型就是一種應(yīng)用廣泛的不理解環(huán)境強(qiáng)化學(xué)習(xí)模型,因此可以用它來模擬PacMan智能體。Q-learning模型的規(guī)則是,在狀態(tài)S下執(zhí)行行動(dòng)a,不停更新Q值,而迭代更新變量值算法就是該算法的核心。

Reinforcement Learning Update Rule

一個(gè)深度強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)PacMan游戲

2 不理解環(huán)境強(qiáng)化學(xué)習(xí)算法

  • Q-learning:一種離線學(xué)習(xí)算法,智能體需要從另一項(xiàng)方案中學(xué)習(xí)到行為a*的價(jià)值;Q-learning的一個(gè)極簡(jiǎn)的例子
  • SARSA:一種在線學(xué)習(xí)算法,智能體可從現(xiàn)有方案指定的當(dāng)前行為來學(xué)習(xí)價(jià)值

這兩種探索原理不同,但是開發(fā)原理相似。優(yōu)點(diǎn):容易實(shí)現(xiàn)。缺點(diǎn):缺乏一般性,無法預(yù)估未知狀態(tài)的值。一些更高級(jí)的算法可以解決這個(gè)問題。

  • DQN算法(Deep Q-Networks):原理為利用神經(jīng)網(wǎng)絡(luò)來估計(jì)Q值。缺點(diǎn):只能應(yīng)用在離散的低維動(dòng)作空間中。
  • DDPG(深度確定性策略梯度算法)則是一個(gè)理解環(huán)境的、在線的算法,它基于行動(dòng)者-評(píng)論家(Actor-Critic AC)框架,可用于解決連續(xù)動(dòng)作空間上的深度強(qiáng)化學(xué)習(xí)問題。


    DDPG

強(qiáng)化學(xué)習(xí)的應(yīng)用

  • 最適用于模擬數(shù)據(jù)領(lǐng)域,如游戲、機(jī)器人等
  • 廣泛應(yīng)用于設(shè)計(jì)游戲中的AI玩家:如AlphaGo Zero
  • 搭建一個(gè)高效的自適應(yīng)控制系統(tǒng):如DeepMind關(guān)于“帶有異步策略更新的機(jī)器人操縱的深度強(qiáng)化學(xué)習(xí)youtube視頻

如何開始強(qiáng)化學(xué)習(xí)

還沒閱讀的:https://www.cnblogs.com/NaughtyBaby/p/5438013.html

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容