色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

<menuitem id="vjjwd"><dd id="vjjwd"><acronym id="vjjwd"></acronym></dd></menuitem>

<option id="vjjwd"><form id="vjjwd"></form></option>

登錄注冊(cè)寫(xiě)文章

#David Silver Reinforcement Learning # 筆記3-DP

#David Silver Reinforcement Learning # 筆記3-DP

這節(jié)主要講了動(dòng)態(tài)規(guī)劃在強(qiáng)化學(xué)習(xí)中的用法。

image.png

引入兩個(gè)問(wèn)題的定義，Prediction，Control。
Prediction：

image.png

預(yù)測(cè)問(wèn)題，MDP的信息都知道，policy也知道。輸出該策略下的V。
Control：

image.png

控制問(wèn)題，MDP的信息都知道，但是不知道policy，輸出最優(yōu)情況下的，V和policy。

對(duì)于Prediction問(wèn)題，只需要根據(jù)policy求出最優(yōu)的value就行。
對(duì)于control問(wèn)題，有兩個(gè)方法，第一種是Policy Iteration。

Policy Iteration

隨機(jī)初始化Value（一般全置0），然后隨機(jī)初始化Policy。
貪心的優(yōu)化Policy
然后依據(jù)新的Policy繼續(xù)求Value。然后繼續(xù)優(yōu)化Policy，依次迭代。

image.png

image.png

Value Iteration

另一種方法是值迭代。根據(jù)bellman方程，迭代優(yōu)化值函數(shù)，而不管policy，直到最后，得到最優(yōu)的value。

image.png

我們可以將這個(gè)迭代公式分成兩步：
第一步遍歷所有的動(dòng)作a得到不同動(dòng)作a所對(duì)應(yīng)的一個(gè)值函數(shù)更新，即：

$[\upsilon_{l+1}\left(s,a\right)=R_{s}^{a}+\gamma\sum_{s'\in S}{P_{ss'}^{a}\upsilon_l\left(s'\right)}]$

[\upsilon_{l+1}\left(s,a\right)=R_{s}^{a}+\gamma\sum_{s'\in S}{P_{ss'}^{a}\upsilon_l\left(s'\right)}]

（2.3）

第二步，對(duì)動(dòng)作a進(jìn)行遍歷，找到最大的

$\upsilon_{l+1}\left(s,a\right)$

\upsilon_{l+1}\left(s,a\right)

，即：

$[\upsilon_{l+1}\left(s\right)=\underset{a}{\max}\upsilon_{l+1}\left(s,a\right)]$

[\upsilon_{l+1}\left(s\right)=\underset{a}{\max}\upsilon_{l+1}\left(s,a\right)]

（2.4）

https://www.bilibili.com/video/av9930653/
https://zhuanlan.zhihu.com/p/27330154
http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching_files/DP.pdf

最后編輯于：2017.12.10 06:05:50

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成，瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點(diǎn)，簡(jiǎn)書(shū)系信息發(fā)布平臺(tái)，僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

增強(qiáng)學(xué)習(xí)（一）
一. 增強(qiáng)學(xué)習(xí)簡(jiǎn)介 1.1 什么是增強(qiáng)學(xué)習(xí)？機(jī)器學(xué)習(xí)的算法可以分為三類(lèi)：監(jiān)督學(xué)習(xí)，非監(jiān)督學(xué)習(xí)和增強(qiáng)學(xué)習(xí)。增強(qiáng)學(xué)...
阿阿阿阿毛閱讀 31,677評(píng)論 0贊 25
#02 - 卷積神經(jīng)網(wǎng)絡(luò)
介紹先前的教程展示了一個(gè)簡(jiǎn)單的線(xiàn)性模型，對(duì)MNIST數(shù)據(jù)集中手寫(xiě)數(shù)字的識(shí)別率達(dá)到了91%。在這個(gè)教程中，我們會(huì)...
Kimichen7764閱讀 1,712評(píng)論 0贊 7

Loadrunner之異常處理總結(jié) by--BruceWong
一：LoadRunner常見(jiàn)問(wèn)題整理1.LR 腳本為空的解決方法：1.去掉ie設(shè)置中的第三方支持取消掉2.在系統(tǒng)屬...
0100閱讀 4,629評(píng)論 0贊 11
Deep Reinforcement Learning Papers
Deep Reinforcement Learning Papers A list of recent paper...
西方失敗9527閱讀 1,077評(píng)論 0贊 1
【雞湯插畫(huà)170】什么是理想生活?
有志同道合伴侶，有可愛(ài)孩子，豐衣足食，足以。
蘇蘇21閱讀 213評(píng)論 2贊 3

友情鏈接更多精彩內(nèi)容

贊1贊

贊賞

手機(jī)看全文

汉源县| 西贡区| 石柱| 安陆市| 灌阳县| 鄂州市| 大安市| 津南区| 山东| 抚松县| 荔浦县| 天水市| 宁国市| 涪陵区| 天长市| 丹棱县| 安西县| 民勤县| 乐山市| 开阳县| 弥渡县| 碌曲县| 云龙县| 宁陵县| 拜泉县| 嘉善县| 南和县| 商水县| 桓仁| 陕西省| 德庆县| 德江县| 化隆| 包头市| 玉龙| 徐水县| 西青区| 尖扎县| 开远市| 阿瓦提县| 江华|

<option id="nxjie"><form id="nxjie"></form></option>