稀疏獎(jiǎng)勵(lì)（Sparse Reward）

Agent無(wú)法得到足夠多的，有效的獎(jiǎng)勵(lì)，或者說(shuō)Agent得到的是稀疏獎(jiǎng)勵(lì)，進(jìn)而導(dǎo)致Agent學(xué)習(xí)緩慢甚至無(wú)法進(jìn)行有效學(xué)習(xí)。
三個(gè)方向來(lái)解決稀疏獎(jiǎng)勵(lì)的問(wèn)題：

Reward Sampling

設(shè)計(jì)了一些Reward來(lái)引導(dǎo)Agent
缺陷：需要Domain Knowledge

Curiosity Driven

Intrinsic Curiosity Module，ICM
- 如果未來(lái)的State越難被預(yù)測(cè)，得到的Reward越大，鼓勵(lì)Machine冒險(xiǎn)，傾向于采取一些風(fēng)險(xiǎn)比較大的Action
- 光有好奇心不夠，要知道哪些事情是重要的。訓(xùn)練Feature Extractor來(lái)過(guò)濾不重要事情

Intrinsic Curiosity Module

Curriculum Learning

給Machine規(guī)劃從最簡(jiǎn)單的到最難的課程

Reverse Curriculum Generation

一開(kāi)始有一個(gè)Goal State $s_g$ ，是最理想的結(jié)果
采樣一些比較接近 $s_g$ 的State
從這些State開(kāi)始，最終得到Reward

Hierarchical Reinforcement Learning

將一個(gè)復(fù)雜的強(qiáng)化學(xué)習(xí)問(wèn)題分解成多個(gè)簡(jiǎn)單的子問(wèn)題
一些Agent負(fù)責(zé)訂目標(biāo)，再分配任務(wù)給其他的Agent執(zhí)行完成：

Hierarchical Reinforcement Learning

模仿學(xué)習(xí)（Imitation Learning，IL）

沒(méi)辦法得到獎(jiǎng)勵(lì)，通過(guò)收集專家的示范進(jìn)行學(xué)習(xí)
也叫做：
- 示范學(xué)習(xí)（Learning from Demonstration）
- 學(xué)徒學(xué)習(xí)（Apprenticeship Learning）
- 觀察學(xué)習(xí)（Learning by Watching）
兩個(gè)方法：
- 行為克?。˙ehavior Cloning，BC）
- 逆強(qiáng)化學(xué)習(xí)（Inverse Reinforcement Learning，IRL）或逆最優(yōu)控制（Inverse Optimal Control）

行為克隆

監(jiān)督學(xué)習(xí)
數(shù)據(jù)集聚合（Dataset Aggregation，DAgger）
- 采取的動(dòng)作會(huì)影響接下來(lái)的狀態(tài)
- 機(jī)器沒(méi)有辦法完全復(fù)制專家的行為，它復(fù)制差一點(diǎn)，得到的結(jié)果或許會(huì)差很多

逆強(qiáng)化學(xué)習(xí)

專家得到的分?jǐn)?shù)要比演員得到的分?jǐn)?shù)高

Inverse Reinforcement Learning

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

第10-11章稀疏獎(jiǎng)勵(lì)與模仿學(xué)習(xí)

第10-11章稀疏獎(jiǎng)勵(lì)與模仿學(xué)習(xí)

稀疏獎(jiǎng)勵(lì)（Sparse Reward）

Reward Sampling

Curiosity Driven

Curriculum Learning

Reverse Curriculum Generation

Hierarchical Reinforcement Learning

模仿學(xué)習(xí)（Imitation Learning，IL）

行為克隆

逆強(qiáng)化學(xué)習(xí)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

第10-11章 稀疏獎(jiǎng)勵(lì)與模仿學(xué)習(xí)

稀疏獎(jiǎng)勵(lì)（Sparse Reward）

Reward Sampling

Curiosity Driven

Curriculum Learning

Reverse Curriculum Generation

Hierarchical Reinforcement Learning

模仿學(xué)習(xí)（Imitation Learning，IL）

行為克隆

逆強(qiáng)化學(xué)習(xí)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

第10-11章稀疏獎(jiǎng)勵(lì)與模仿學(xué)習(xí)

模仿學(xué)習(xí)（Imitation Learning，IL）