欧么日韩一本黄,夜色美女福利网,老阿姨探花

書籍主頁(yè)：http://incompleteideas.net/book/the-book.html
原書鏈接：http://incompleteideas.net/book/RLbook2018.pdf
Github翻譯主頁(yè)：https://rl.qiwihui.com/zh_CN/latest/
官方翻譯豆瓣主頁(yè)：https://book.douban.com/subject/34809689/
注：本文并不完全是對(duì)原文的翻譯，而是結(jié)合了部分個(gè)人理解的產(chǎn)物。

當(dāng)我們思考學(xué)習(xí)的本質(zhì)的時(shí)候，最容易出現(xiàn)在我們腦海中的想法就是通過(guò)與環(huán)境進(jìn)行互動(dòng)。當(dāng)我們還是小嬰兒的時(shí)候，揮舞手臂引起父母注意，拍打玩具讓它們發(fā)出聲響，很容易就能得到直接的感知反饋。在成長(zhǎng)過(guò)程中，不斷的練習(xí)這樣的“行動(dòng)→反饋”機(jī)制，我們就學(xué)到了這些行為會(huì)帶來(lái)的結(jié)果，以及想要達(dá)到某些目標(biāo)的話應(yīng)該怎樣去做。

這本書就是在探討這樣一種從互動(dòng)中學(xué)習(xí)的計(jì)算方法，也就是強(qiáng)化學(xué)習(xí)（Reinforcement Learning）。不過(guò)這并不是關(guān)于人和動(dòng)物是怎樣學(xué)習(xí)的理論，而是通過(guò)AI研究人員或者工程師的視角，來(lái)探討在理想環(huán)境下如何評(píng)估不同學(xué)習(xí)算法的有效性。強(qiáng)化學(xué)習(xí)的主要關(guān)注在于，如何在目標(biāo)導(dǎo)向的情況下，從與環(huán)境的互動(dòng)中進(jìn)行學(xué)習(xí)，這也是它和其它機(jī)器學(xué)習(xí)算法的一個(gè)主要不同點(diǎn)。

強(qiáng)化學(xué)習(xí) Reinforcement Learning

目標(biāo)

強(qiáng)化學(xué)習(xí)的目標(biāo)是學(xué)習(xí)在當(dāng)前環(huán)境中采取什么樣的行動(dòng)才能使最終的收益最大化，也即學(xué)習(xí)“situations→actions”的映射。學(xué)習(xí)者不會(huì)被告知應(yīng)該采取哪個(gè)action的任何信息，而是需要通過(guò)嘗試，自己去發(fā)現(xiàn)哪個(gè)action能夠帶來(lái)最大的reward。在更加有趣也更有挑戰(zhàn)性的情況下，action不僅會(huì)影響當(dāng)下即時(shí)的reward，還會(huì)影響后續(xù)一系列的reward。試錯(cuò)搜索（trial-and-error search）和延遲獎(jiǎng)勵(lì)（delayed reward）是強(qiáng)化學(xué)習(xí)最重要的兩個(gè)特點(diǎn)。

定義

那么什么是強(qiáng)化學(xué)習(xí)呢？
和很多以“ing”結(jié)尾的topic相同，比如“Machine Learning”、“Mountaineering”等，它同時(shí)可以表示：

一類問(wèn)題，a problem；
一類可以很好地解決此問(wèn)題的解決方法，a class of solution methods that work well on the problem；
一個(gè)研究此問(wèn)題及其解決方法的研究領(lǐng)域，the ?eld that studies this problem and its solution methods。

使用一個(gè)名詞來(lái)指代上述三種概念是很方便的，但對(duì)它們進(jìn)行區(qū)分也非常重要。在強(qiáng)化學(xué)習(xí)中，對(duì)問(wèn)題和解決方法的混淆容易引發(fā)很多理解上的問(wèn)題。

問(wèn)題定義

我們可以使用Dynamical systems theory中的觀點(diǎn)來(lái)更正式的定義強(qiáng)化學(xué)習(xí)問(wèn)題，特別是，可以將其視作一個(gè)不完全已知的馬爾可夫決策過(guò)程的最優(yōu)控制問(wèn)題（the optimal control of incompletely-known Markov decision processes，更詳細(xì)的內(nèi)容參見(jiàn)第三章）。
一個(gè)學(xué)習(xí)中的agent必須要有：

對(duì)其周圍環(huán)境狀態(tài)（the state of its environment）的感知能力，
采取一些行動(dòng)（action）來(lái)影響環(huán)境的狀態(tài)的能力，
一個(gè)或者多個(gè)和環(huán)境狀態(tài)有關(guān)的目標(biāo)（goal）。

馬爾可夫決策過(guò)程最簡(jiǎn)單的形式就包含了這三個(gè)要素：sensation，action，goal。任何適用于解決此類問(wèn)題的方法都可以被歸為強(qiáng)化學(xué)習(xí)方法。

強(qiáng)化學(xué)習(xí)和監(jiān)督學(xué)習(xí)的區(qū)別

監(jiān)督學(xué)習(xí)（Supervised Learning），是一種從有標(biāo)簽訓(xùn)練樣本中進(jìn)行學(xué)習(xí)的算法。其中每一個(gè)樣本都包括了對(duì)situation的描述和在當(dāng)前situation下所應(yīng)該采取action的標(biāo)簽。監(jiān)督學(xué)習(xí)的目標(biāo)是泛化該系統(tǒng)，使其在面臨未出現(xiàn)在訓(xùn)練集中的情境時(shí)可以做出正確的決策。這是一種重要的學(xué)習(xí)方法，但是它無(wú)法通過(guò)互動(dòng)來(lái)進(jìn)行學(xué)習(xí)。
此外，在可交互問(wèn)題中，獲得具有正確又對(duì)situation有表達(dá)性的behavior訓(xùn)練樣本往往是不切實(shí)際的。因此，在某些未知的領(lǐng)域，agent必須要有從自己的經(jīng)驗(yàn)中進(jìn)行學(xué)習(xí)的能力。

強(qiáng)化學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)的區(qū)別

無(wú)監(jiān)督學(xué)習(xí)（Unsupervised Learning）的目標(biāo)是在無(wú)標(biāo)簽數(shù)據(jù)中發(fā)現(xiàn)隱藏的數(shù)據(jù)結(jié)構(gòu)。盡管有人可能會(huì)認(rèn)為強(qiáng)化學(xué)習(xí)是一種無(wú)監(jiān)督學(xué)習(xí)，因?yàn)樗灰蕾嚲哂姓_行為標(biāo)簽的訓(xùn)練樣本，但強(qiáng)化學(xué)習(xí)的目標(biāo)是最大化目標(biāo)收益而不是尋找隱藏結(jié)構(gòu)。
了解agent的交互經(jīng)驗(yàn)中的隱藏結(jié)構(gòu)自然有利于強(qiáng)化學(xué)習(xí)，但它并沒(méi)有解決以最大化收益為目標(biāo)的強(qiáng)化學(xué)習(xí)問(wèn)題。因此，我們認(rèn)為強(qiáng)化學(xué)習(xí)是與監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)等并列的第三個(gè)機(jī)器學(xué)習(xí)課題。

強(qiáng)化學(xué)習(xí)特有的挑戰(zhàn)

一個(gè)強(qiáng)化學(xué)習(xí)特有的挑戰(zhàn)，是關(guān)于探索（exploration）和利用（exploitation）的trade-off。

一方面，為了獲得盡可能高的reward，RL agent需要盡量去執(zhí)行那些它曾經(jīng)嘗試過(guò)且獲得最高回報(bào)的action——也就是exploitation；
另一方面，為了發(fā)現(xiàn)能夠帶來(lái)高回報(bào)的action，從而在未來(lái)的決策中能夠選取更好的action，RL agent也需要多去嘗試那些它之前從沒(méi)有執(zhí)行過(guò)的action——也就是exploration。

這其中的困境就在于，exploration和exploitation都可能會(huì)導(dǎo)致目標(biāo)的失敗。Agent必須要大量的探索一系列不同的action，并循序漸進(jìn)的更多去執(zhí)行那些表現(xiàn)最佳的action。在隨機(jī)任務(wù)（stochastic task）中，需要多次執(zhí)行同一個(gè)action以獲得對(duì)其expected reward的可靠估計(jì)。
關(guān)于exploration和exploitation的平衡問(wèn)題被數(shù)學(xué)家們研究了數(shù)十年，然而依舊沒(méi)有被解決。就目前而言，我們只是注意到，在監(jiān)督和無(wú)監(jiān)督學(xué)習(xí)中，至少在它們的最純粹形式下，完全沒(méi)有出現(xiàn)關(guān)于exploration和exploitation的平衡問(wèn)題。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

《Reinforcement Learning: An Introduction》讀書筆記1 - Introduction(1)

《Reinforcement Learning: An Introduction》讀書筆記1 - Introduction(1)

強(qiáng)化學(xué)習(xí) Reinforcement Learning

目標(biāo)

定義

問(wèn)題定義

強(qiáng)化學(xué)習(xí)和監(jiān)督學(xué)習(xí)的區(qū)別

強(qiáng)化學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)的區(qū)別

強(qiáng)化學(xué)習(xí)特有的挑戰(zhàn)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

《Reinforcement Learning: An Introduction》讀書筆記1 - Introduction(1)

強(qiáng)化學(xué)習(xí) Reinforcement Learning

目標(biāo)

定義

問(wèn)題定義

強(qiáng)化學(xué)習(xí)和監(jiān)督學(xué)習(xí)的區(qū)別

強(qiáng)化學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)的區(qū)別

強(qiáng)化學(xué)習(xí)特有的挑戰(zhàn)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av