《Reinforcement Learning: An Introduction》讀書筆記1 - Introduction(1)

書籍主頁(yè):http://incompleteideas.net/book/the-book.html
原書鏈接:http://incompleteideas.net/book/RLbook2018.pdf
Github翻譯主頁(yè):https://rl.qiwihui.com/zh_CN/latest/
官方翻譯豆瓣主頁(yè):https://book.douban.com/subject/34809689/
注:本文并不完全是對(duì)原文的翻譯,而是結(jié)合了部分個(gè)人理解的產(chǎn)物。

當(dāng)我們思考學(xué)習(xí)的本質(zhì)的時(shí)候,最容易出現(xiàn)在我們腦海中的想法就是通過(guò)與環(huán)境進(jìn)行互動(dòng)。當(dāng)我們還是小嬰兒的時(shí)候,揮舞手臂引起父母注意,拍打玩具讓它們發(fā)出聲響,很容易就能得到直接的感知反饋。在成長(zhǎng)過(guò)程中,不斷的練習(xí)這樣的“行動(dòng)→反饋”機(jī)制,我們就學(xué)到了這些行為會(huì)帶來(lái)的結(jié)果,以及想要達(dá)到某些目標(biāo)的話應(yīng)該怎樣去做。

這本書就是在探討這樣一種從互動(dòng)中學(xué)習(xí)的計(jì)算方法,也就是強(qiáng)化學(xué)習(xí)(Reinforcement Learning)。不過(guò)這并不是關(guān)于人和動(dòng)物是怎樣學(xué)習(xí)的理論,而是通過(guò)AI研究人員或者工程師的視角,來(lái)探討在理想環(huán)境下如何評(píng)估不同學(xué)習(xí)算法的有效性。強(qiáng)化學(xué)習(xí)的主要關(guān)注在于,如何在目標(biāo)導(dǎo)向的情況下,從與環(huán)境的互動(dòng)中進(jìn)行學(xué)習(xí),這也是它和其它機(jī)器學(xué)習(xí)算法的一個(gè)主要不同點(diǎn)。

強(qiáng)化學(xué)習(xí) Reinforcement Learning

目標(biāo)

強(qiáng)化學(xué)習(xí)的目標(biāo)是學(xué)習(xí)在當(dāng)前環(huán)境中采取什么樣的行動(dòng)才能使最終的收益最大化,也即學(xué)習(xí)“situations→actions”的映射。學(xué)習(xí)者不會(huì)被告知應(yīng)該采取哪個(gè)action的任何信息,而是需要通過(guò)嘗試,自己去發(fā)現(xiàn)哪個(gè)action能夠帶來(lái)最大的reward。在更加有趣也更有挑戰(zhàn)性的情況下,action不僅會(huì)影響當(dāng)下即時(shí)的reward,還會(huì)影響后續(xù)一系列的reward。試錯(cuò)搜索(trial-and-error search)延遲獎(jiǎng)勵(lì)(delayed reward)是強(qiáng)化學(xué)習(xí)最重要的兩個(gè)特點(diǎn)。

定義

那么什么是強(qiáng)化學(xué)習(xí)呢?
和很多以“ing”結(jié)尾的topic相同,比如“Machine Learning”、“Mountaineering”等,它同時(shí)可以表示:

  • 一類問(wèn)題,a problem;
  • 一類可以很好地解決此問(wèn)題的解決方法,a class of solution methods that work well on the problem;
  • 一個(gè)研究此問(wèn)題及其解決方法的研究領(lǐng)域,the ?eld that studies this problem and its solution methods。

使用一個(gè)名詞來(lái)指代上述三種概念是很方便的,但對(duì)它們進(jìn)行區(qū)分也非常重要。在強(qiáng)化學(xué)習(xí)中,對(duì)問(wèn)題和解決方法的混淆容易引發(fā)很多理解上的問(wèn)題。

問(wèn)題定義

我們可以使用Dynamical systems theory中的觀點(diǎn)來(lái)更正式的定義強(qiáng)化學(xué)習(xí)問(wèn)題, 特別是,可以將其視作一個(gè)不完全已知的馬爾可夫決策過(guò)程最優(yōu)控制問(wèn)題(the optimal control of incompletely-known Markov decision processes,更詳細(xì)的內(nèi)容參見(jiàn)第三章)。
一個(gè)學(xué)習(xí)中的agent必須要有:

  1. 對(duì)其周圍環(huán)境狀態(tài)(the state of its environment)的感知能力,
  2. 采取一些行動(dòng)(action)來(lái)影響環(huán)境的狀態(tài)的能力,
  3. 一個(gè)或者多個(gè)和環(huán)境狀態(tài)有關(guān)的目標(biāo)(goal)。

馬爾可夫決策過(guò)程最簡(jiǎn)單的形式就包含了這三個(gè)要素:sensation,action,goal。任何適用于解決此類問(wèn)題的方法都可以被歸為強(qiáng)化學(xué)習(xí)方法。

強(qiáng)化學(xué)習(xí)和監(jiān)督學(xué)習(xí)的區(qū)別

監(jiān)督學(xué)習(xí)(Supervised Learning),是一種從有標(biāo)簽訓(xùn)練樣本中進(jìn)行學(xué)習(xí)的算法。其中每一個(gè)樣本都包括了對(duì)situation的描述和在當(dāng)前situation下所應(yīng)該采取action的標(biāo)簽。監(jiān)督學(xué)習(xí)的目標(biāo)是泛化該系統(tǒng),使其在面臨未出現(xiàn)在訓(xùn)練集中的情境時(shí)可以做出正確的決策。這是一種重要的學(xué)習(xí)方法,但是它無(wú)法通過(guò)互動(dòng)來(lái)進(jìn)行學(xué)習(xí)。
此外,在可交互問(wèn)題中,獲得具有正確又對(duì)situation有表達(dá)性的behavior訓(xùn)練樣本往往是不切實(shí)際的。因此,在某些未知的領(lǐng)域,agent必須要有從自己的經(jīng)驗(yàn)中進(jìn)行學(xué)習(xí)的能力。

強(qiáng)化學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)的區(qū)別

無(wú)監(jiān)督學(xué)習(xí)(Unsupervised Learning)的目標(biāo)是在無(wú)標(biāo)簽數(shù)據(jù)中發(fā)現(xiàn)隱藏的數(shù)據(jù)結(jié)構(gòu)。盡管有人可能會(huì)認(rèn)為強(qiáng)化學(xué)習(xí)是一種無(wú)監(jiān)督學(xué)習(xí),因?yàn)樗灰蕾嚲哂姓_行為標(biāo)簽的訓(xùn)練樣本,但強(qiáng)化學(xué)習(xí)的目標(biāo)是最大化目標(biāo)收益而不是尋找隱藏結(jié)構(gòu)。
了解agent的交互經(jīng)驗(yàn)中的隱藏結(jié)構(gòu)自然有利于強(qiáng)化學(xué)習(xí),但它并沒(méi)有解決以最大化收益為目標(biāo)的強(qiáng)化學(xué)習(xí)問(wèn)題。因此,我們認(rèn)為強(qiáng)化學(xué)習(xí)是與監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)等并列的第三個(gè)機(jī)器學(xué)習(xí)課題。

強(qiáng)化學(xué)習(xí)特有的挑戰(zhàn)

一個(gè)強(qiáng)化學(xué)習(xí)特有的挑戰(zhàn),是關(guān)于探索(exploration)和利用(exploitation)的trade-off。

  • 一方面,為了獲得盡可能高的reward,RL agent需要盡量去執(zhí)行那些它曾經(jīng)嘗試過(guò)且獲得最高回報(bào)的action——也就是exploitation;
  • 另一方面,為了發(fā)現(xiàn)能夠帶來(lái)高回報(bào)的action,從而在未來(lái)的決策中能夠選取更好的action,RL agent也需要多去嘗試那些它之前從沒(méi)有執(zhí)行過(guò)的action——也就是exploration。

這其中的困境就在于,exploration和exploitation都可能會(huì)導(dǎo)致目標(biāo)的失敗。Agent必須要大量的探索一系列不同的action,并循序漸進(jìn)的更多去執(zhí)行那些表現(xiàn)最佳的action。在隨機(jī)任務(wù)(stochastic task)中,需要多次執(zhí)行同一個(gè)action以獲得對(duì)其expected reward的可靠估計(jì)。
關(guān)于exploration和exploitation的平衡問(wèn)題被數(shù)學(xué)家們研究了數(shù)十年,然而依舊沒(méi)有被解決。就目前而言,我們只是注意到,在監(jiān)督和無(wú)監(jiān)督學(xué)習(xí)中,至少在它們的最純粹形式下,完全沒(méi)有出現(xiàn)關(guān)于exploration和exploitation的平衡問(wèn)題。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容