稀疏獎(jiǎng)勵(lì)(Sparse Reward)
Agent無(wú)法得到足夠多的,有效的獎(jiǎng)勵(lì),或者說(shuō)Agent得到的是稀疏獎(jiǎng)勵(lì),進(jìn)而導(dǎo)致Agent學(xué)習(xí)緩慢甚至無(wú)法進(jìn)行有效學(xué)習(xí)。
三個(gè)方向來(lái)解決稀疏獎(jiǎng)勵(lì)的問(wèn)題:
Reward Sampling
- 設(shè)計(jì)了一些Reward來(lái)引導(dǎo)Agent
- 缺陷:需要Domain Knowledge
Curiosity Driven
- Intrinsic Curiosity Module,ICM
- 如果未來(lái)的State越難被預(yù)測(cè),得到的Reward越大,鼓勵(lì)Machine冒險(xiǎn),傾向于采取一些風(fēng)險(xiǎn)比較大的Action
- 光有好奇心不夠,要知道哪些事情是重要的。訓(xùn)練Feature Extractor來(lái)過(guò)濾不重要事情

Intrinsic Curiosity Module
Curriculum Learning
- 給Machine規(guī)劃從最簡(jiǎn)單的到最難的課程
Reverse Curriculum Generation
- 一開(kāi)始有一個(gè)Goal State
,是最理想的結(jié)果
- 采樣一些比較接近
的State
- 從這些State開(kāi)始,最終得到Reward
Hierarchical Reinforcement Learning
- 將一個(gè)復(fù)雜的強(qiáng)化學(xué)習(xí)問(wèn)題分解成多個(gè)簡(jiǎn)單的子問(wèn)題
- 一些Agent負(fù)責(zé)訂目標(biāo),再分配任務(wù)給其他的Agent執(zhí)行完成:

Hierarchical Reinforcement Learning
模仿學(xué)習(xí)(Imitation Learning,IL)
- 沒(méi)辦法得到獎(jiǎng)勵(lì),通過(guò)收集專家的示范進(jìn)行學(xué)習(xí)
- 也叫做:
- 示范學(xué)習(xí)(Learning from Demonstration)
- 學(xué)徒學(xué)習(xí)(Apprenticeship Learning)
- 觀察學(xué)習(xí)(Learning by Watching)
- 兩個(gè)方法:
- 行為克?。˙ehavior Cloning,BC)
- 逆強(qiáng)化學(xué)習(xí)(Inverse Reinforcement Learning,IRL)或逆最優(yōu)控制(Inverse Optimal Control)
行為克隆
- 監(jiān)督學(xué)習(xí)
- 數(shù)據(jù)集聚合(Dataset Aggregation,DAgger)
- 采取的動(dòng)作會(huì)影響接下來(lái)的狀態(tài)
- 機(jī)器沒(méi)有辦法完全復(fù)制專家的行為,它復(fù)制差一點(diǎn),得到的結(jié)果或許會(huì)差很多
逆強(qiáng)化學(xué)習(xí)
- 專家得到的分?jǐn)?shù)要比演員得到的分?jǐn)?shù)高

Inverse Reinforcement Learning