第10-11章 稀疏獎(jiǎng)勵(lì)與模仿學(xué)習(xí)

稀疏獎(jiǎng)勵(lì)(Sparse Reward)

Agent無(wú)法得到足夠多的,有效的獎(jiǎng)勵(lì),或者說(shuō)Agent得到的是稀疏獎(jiǎng)勵(lì),進(jìn)而導(dǎo)致Agent學(xué)習(xí)緩慢甚至無(wú)法進(jìn)行有效學(xué)習(xí)。
三個(gè)方向來(lái)解決稀疏獎(jiǎng)勵(lì)的問(wèn)題:

Reward Sampling

  • 設(shè)計(jì)了一些Reward來(lái)引導(dǎo)Agent
  • 缺陷:需要Domain Knowledge

Curiosity Driven

  • Intrinsic Curiosity Module,ICM
    • 如果未來(lái)的State越難被預(yù)測(cè),得到的Reward越大,鼓勵(lì)Machine冒險(xiǎn),傾向于采取一些風(fēng)險(xiǎn)比較大的Action
    • 光有好奇心不夠,要知道哪些事情是重要的。訓(xùn)練Feature Extractor來(lái)過(guò)濾不重要事情
Intrinsic Curiosity Module

Curriculum Learning

  • 給Machine規(guī)劃從最簡(jiǎn)單的到最難的課程

Reverse Curriculum Generation

  • 一開(kāi)始有一個(gè)Goal States_g,是最理想的結(jié)果
  • 采樣一些比較接近s_g的State
  • 從這些State開(kāi)始,最終得到Reward

Hierarchical Reinforcement Learning

  • 將一個(gè)復(fù)雜的強(qiáng)化學(xué)習(xí)問(wèn)題分解成多個(gè)簡(jiǎn)單的子問(wèn)題
  • 一些Agent負(fù)責(zé)訂目標(biāo),再分配任務(wù)給其他的Agent執(zhí)行完成:
Hierarchical Reinforcement Learning

模仿學(xué)習(xí)(Imitation Learning,IL)

  • 沒(méi)辦法得到獎(jiǎng)勵(lì),通過(guò)收集專家的示范進(jìn)行學(xué)習(xí)
  • 也叫做:
    • 示范學(xué)習(xí)(Learning from Demonstration)
    • 學(xué)徒學(xué)習(xí)(Apprenticeship Learning)
    • 觀察學(xué)習(xí)(Learning by Watching)
  • 兩個(gè)方法:
    • 行為克?。˙ehavior Cloning,BC)
    • 逆強(qiáng)化學(xué)習(xí)(Inverse Reinforcement Learning,IRL)或逆最優(yōu)控制(Inverse Optimal Control)

行為克隆

  • 監(jiān)督學(xué)習(xí)
  • 數(shù)據(jù)集聚合(Dataset Aggregation,DAgger)
    • 采取的動(dòng)作會(huì)影響接下來(lái)的狀態(tài)
    • 機(jī)器沒(méi)有辦法完全復(fù)制專家的行為,它復(fù)制差一點(diǎn),得到的結(jié)果或許會(huì)差很多

逆強(qiáng)化學(xué)習(xí)

  • 專家得到的分?jǐn)?shù)要比演員得到的分?jǐn)?shù)高
Inverse Reinforcement Learning
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容