目前搜到的資料匯總

視頻教程

李宏毅機(jī)器學(xué)習(xí)課程第28講，深度強(qiáng)化學(xué)習(xí)入門課程相關(guān)PPT鏈接密碼：77u5
李飛飛、吳恩達(dá)、Bengio等人的頂級(jí)深度學(xué)習(xí)課程需要翻墻

一些概念掃盲

機(jī)器學(xué)習(xí)的四種主要類型：
（1）監(jiān)督機(jī)器學(xué)習(xí)（如回歸，分類）：使用打了標(biāo)簽的數(shù)據(jù)給程序“訓(xùn)練”。用于進(jìn)行預(yù)測(cè)。
（2）半監(jiān)督機(jī)器學(xué)習(xí)（如聚類，降維）：一部分“訓(xùn)練”數(shù)據(jù)，一部分“產(chǎn)出”數(shù)據(jù)。
（3）無監(jiān)督機(jī)器學(xué)習(xí)：沒有任何輸入的訓(xùn)練數(shù)據(jù)。使用“聚類”算法和“關(guān)聯(lián)”算法找到同模式的數(shù)據(jù)并排序。沒有標(biāo)簽與數(shù)據(jù)點(diǎn)相關(guān)聯(lián)。這些ML算法將數(shù)據(jù)組織成一組簇。此外，它需要描述其結(jié)構(gòu)，使復(fù)雜的數(shù)據(jù)看起來簡(jiǎn)單，有條理，便于分析。
（4）增強(qiáng)機(jī)器學(xué)習(xí)：提供規(guī)則，使其尋找符合規(guī)則的最佳算法，輸入的數(shù)據(jù)僅有“是否勝利”，國(guó)際象棋是這種算法一個(gè)很好的例子。使用這些算法來選擇動(dòng)作，一段時(shí)間后，算法改變其策略以更好地學(xué)習(xí)。
（5）深度學(xué)習(xí)：更深層次，靈感來源于大腦的工作方式，使用端到端的方式來解決問題，輸入的數(shù)據(jù)和訓(xùn)練的時(shí)間越多，算法效果越好。

機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的區(qū)別
（1）深度學(xué)習(xí)數(shù)據(jù)依賴更多，數(shù)據(jù)量小的時(shí)候深度學(xué)習(xí)反而表現(xiàn)不佳。
（2）深度學(xué)習(xí)依賴于高端機(jī)器，而傳統(tǒng)學(xué)習(xí)依賴于低端機(jī)器。因此，深度學(xué)習(xí)要求包括GPU進(jìn)行大量的矩陣乘法。
（3）深度學(xué)習(xí)算法中有太多參數(shù)，需要更多的執(zhí)行處理時(shí)間。機(jī)器學(xué)習(xí)只花需要更少的時(shí)間進(jìn)行訓(xùn)練。
（4）普通神經(jīng)網(wǎng)絡(luò)由于訓(xùn)練代價(jià)較高，一般只有3-4層，而深度神經(jīng)網(wǎng)絡(luò)由于采用了特殊的訓(xùn)練方法加上一些小trick，可以達(dá)到8-10層。深度神經(jīng)網(wǎng)絡(luò)能夠捕捉到數(shù)據(jù)中的深層聯(lián)系，從而能夠得到更精準(zhǔn)的模型，而這些聯(lián)系不容易被普通的機(jī)器學(xué)習(xí)方法所發(fā)覺。

深度學(xué)習(xí)和機(jī)器學(xué)習(xí)對(duì)數(shù)據(jù)量的依賴和效果

增強(qiáng)學(xué)習(xí)：
Reinforcementlearning, RL，又叫做強(qiáng)化學(xué)習(xí)：基本概念

Reinforcement learning is learning what to do ----how to map situations to actions ---- so as to maximize a numerical reward signal.

也就是說增強(qiáng)學(xué)習(xí)關(guān)注的是智能體如何在環(huán)境中采取一系列行為，從而獲得最大的累積回報(bào)。

強(qiáng)化學(xué)習(xí)涉及的基本元素和思想.png

環(huán)境（E）：智能體所處的物理世界；
狀態(tài)（S）：智能體目前的狀態(tài)；
獎(jiǎng)勵(lì)（R）：從環(huán)境中得到的反饋；
方案：將智能體狀態(tài)映射到行動(dòng)的方法；
價(jià)值（V）：智能體在特定狀態(tài)下執(zhí)行某項(xiàng)行動(dòng)獲取未來的獎(jiǎng)勵(lì)。

通過增強(qiáng)學(xué)習(xí)，一個(gè)智能體應(yīng)該知道在什么狀態(tài)下應(yīng)該采取什么行為。RL是從環(huán)境狀態(tài)到動(dòng)作的映射的學(xué)習(xí)，我們把這個(gè)映射稱為策略。

增強(qiáng)學(xué)習(xí)和監(jiān)督學(xué)習(xí)的區(qū)別主要有以下兩點(diǎn)（增強(qiáng)學(xué)習(xí)更接近生物學(xué)習(xí)的本質(zhì)）：

（1）增強(qiáng)學(xué)習(xí)是試錯(cuò)學(xué)習(xí)(Trail-and-error)，由于沒有直接的指導(dǎo)信息，智能體要以不斷與環(huán)境進(jìn)行交互，通過試錯(cuò)的方式來獲得最佳策略。
（2）延遲回報(bào)，增強(qiáng)學(xué)習(xí)的指導(dǎo)信息很少，而且往往是在事后（最后一個(gè)狀態(tài)）才給出的，這就導(dǎo)致了一個(gè)問題，就是獲得正回報(bào)或者負(fù)回報(bào)以后，如何將回報(bào)分配給前面的狀態(tài)。
（3）有監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)都會(huì)明確指出輸入和輸出之間的映射關(guān)系，但不同點(diǎn)在于，有監(jiān)督學(xué)習(xí)給智能體的反饋是執(zhí)行正確任務(wù)的行為集合，而強(qiáng)化學(xué)習(xí)反饋的則將獎(jiǎng)勵(lì)和懲罰轉(zhuǎn)為積極和消極行為的信號(hào)進(jìn)行反饋。
（4）對(duì)于無監(jiān)督學(xué)習(xí)，強(qiáng)化學(xué)習(xí)的目標(biāo)顯得更加難以實(shí)現(xiàn)。無監(jiān)督學(xué)習(xí)的目標(biāo)僅僅是找到數(shù)據(jù)之間的相似和不同，而強(qiáng)化學(xué)習(xí)的目標(biāo)卻是找到一個(gè)能最大化智能體總累計(jì)獎(jiǎng)勵(lì)的模型。

增強(qiáng)學(xué)習(xí)最早的成功例子：Tesauro(1995)描述的TD-Gammon程序，使用增強(qiáng)學(xué)習(xí)成為了世界級(jí)的西洋雙陸棋選手。這個(gè)程序經(jīng)過150萬個(gè)自生成的對(duì)弈訓(xùn)練后，已經(jīng)近似達(dá)到了人類最佳選手的水平，并在和人類頂級(jí)高手的較量中取得40 盤僅輸1盤的好成績(jī)。

強(qiáng)化學(xué)習(xí)的主要模型和算法

1 MPD

對(duì)強(qiáng)化學(xué)習(xí)的研究可以從MPD(Markov desicion processes)開始。非確定的馬爾科夫決策過程
馬爾可夫決策過程（MDP）是所有強(qiáng)化學(xué)習(xí)環(huán)境的數(shù)學(xué)框架，幾乎所有強(qiáng)化學(xué)習(xí)問題都可以使用MDP來搭建模型。一個(gè)MDP過程包含一個(gè)環(huán)境集合（S），每個(gè)狀態(tài)中包含一個(gè)可能的行動(dòng)集合（A），還包含一個(gè)實(shí)值獎(jiǎng)勵(lì)函數(shù)R（s）和一個(gè)轉(zhuǎn)移矩陣P（s'，s | a）。不過，現(xiàn)實(shí)世界的環(huán)境中，環(huán)境動(dòng)態(tài)的先驗(yàn)信息可能是未知的，在這種情況下，運(yùn)用“不理解環(huán)境強(qiáng)化學(xué)習(xí)”算法（model-free RL）去進(jìn)行預(yù)測(cè)會(huì)更加方便、好用。

Q-learning模型就是一種應(yīng)用廣泛的不理解環(huán)境強(qiáng)化學(xué)習(xí)模型，因此可以用它來模擬PacMan智能體。Q-learning模型的規(guī)則是，在狀態(tài)S下執(zhí)行行動(dòng)a，不停更新Q值，而迭代更新變量值算法就是該算法的核心。

Reinforcement Learning Update Rule

一個(gè)深度強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)PacMan游戲

2 不理解環(huán)境強(qiáng)化學(xué)習(xí)算法

Q-learning：一種離線學(xué)習(xí)算法，智能體需要從另一項(xiàng)方案中學(xué)習(xí)到行為a*的價(jià)值；Q-learning的一個(gè)極簡(jiǎn)的例子
SARSA：一種在線學(xué)習(xí)算法，智能體可從現(xiàn)有方案指定的當(dāng)前行為來學(xué)習(xí)價(jià)值

這兩種探索原理不同，但是開發(fā)原理相似。優(yōu)點(diǎn)：容易實(shí)現(xiàn)。缺點(diǎn)：缺乏一般性，無法預(yù)估未知狀態(tài)的值。一些更高級(jí)的算法可以解決這個(gè)問題。

DQN算法（Deep Q-Networks）：原理為利用神經(jīng)網(wǎng)絡(luò)來估計(jì)Q值。缺點(diǎn)：只能應(yīng)用在離散的低維動(dòng)作空間中。
DDPG（深度確定性策略梯度算法）則是一個(gè)理解環(huán)境的、在線的算法，它基于行動(dòng)者-評(píng)論家(Actor-Critic AC)框架，可用于解決連續(xù)動(dòng)作空間上的深度強(qiáng)化學(xué)習(xí)問題。

DDPG

強(qiáng)化學(xué)習(xí)的應(yīng)用

最適用于模擬數(shù)據(jù)領(lǐng)域，如游戲、機(jī)器人等
廣泛應(yīng)用于設(shè)計(jì)游戲中的AI玩家：如AlphaGo Zero
搭建一個(gè)高效的自適應(yīng)控制系統(tǒng)：如DeepMind關(guān)于“帶有異步策略更新的機(jī)器人操縱的深度強(qiáng)化學(xué)習(xí)youtube視頻”

如何開始強(qiáng)化學(xué)習(xí)

電子書：Reinforcement Learning-An Introduction 作者：強(qiáng)化學(xué)習(xí)之父Richard Sutton和他的博士生導(dǎo)師Andrew Barto
視頻：強(qiáng)化學(xué)習(xí)的基礎(chǔ) 作者：David Silver
電子書：technical tutoria
實(shí)踐：開始構(gòu)建和測(cè)試第一個(gè)RL代理，來源于Andrej Karpathy的博客，講述了如何用原始像素的策略梯度來訓(xùn)練神經(jīng)網(wǎng)絡(luò)ATARI Pong智能體，并提供了130行python代碼來幫助你建立你的第一個(gè)強(qiáng)化學(xué)習(xí)智能體。
開源的3D游戲式平臺(tái)：DeepMind Lab，為機(jī)遇智能體可以的人工智能研究提供豐富的模擬環(huán)境
基礎(chǔ)AI研究的在線平臺(tái)：Project Malmo
構(gòu)建和比較強(qiáng)化學(xué)習(xí)算法的工具包：OpenAI gym

還沒閱讀的：https://www.cnblogs.com/NaughtyBaby/p/5438013.html

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

迷霧探險(xiǎn)1 | 強(qiáng)化學(xué)習(xí)的開始學(xué)習(xí)

迷霧探險(xiǎn)1 | 強(qiáng)化學(xué)習(xí)的開始學(xué)習(xí)

目前搜到的資料匯總

一些概念掃盲

強(qiáng)化學(xué)習(xí)的主要模型和算法

1 MPD

2 不理解環(huán)境強(qiáng)化學(xué)習(xí)算法

強(qiáng)化學(xué)習(xí)的應(yīng)用

如何開始強(qiáng)化學(xué)習(xí)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

迷霧探險(xiǎn)1 | 強(qiáng)化學(xué)習(xí)的開始學(xué)習(xí)

目前搜到的資料匯總

一些概念掃盲

強(qiáng)化學(xué)習(xí)的主要模型和算法

1 MPD

2 不理解環(huán)境強(qiáng)化學(xué)習(xí)算法

強(qiáng)化學(xué)習(xí)的應(yīng)用

如何開始強(qiáng)化學(xué)習(xí)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av