強化學習---筆記

The idea behind Reinforcement Learning is that an agent will learn from the environment by interacting with it and receiving rewards for performing actions.


1. 強化學習的過程

強化學習過程可以看做是如下的循環(huán):

1. Agent從Environment接受到state S0(例如從游戲(environment)中獲得了第一幀(state))

2. 根據(jù)S0,agent進行action A0操作

3. Environment轉換到新的state S1(new frame)

4. Environment給Agent一個reward R1(not dead: +1)

RL loop輸出state,action和reward的序列,agent的目的是最大化預計累計獎勵(expected cumulative reward)


2. Reward Hypothesis

強化學習是基于reward hypothesis的,所有的目標都是最大化預計累計獎勵。每一步的累計獎勵如下:

cumulative reward

然而實際中,越到后面可能得到reward的概率減少,因為難度的增加,因此增加discount rate gamma,值在0到1之間。gamma值越大,discount越少,代表learning agent更關注長期reward,然而如果gamma值越小,discount越大,表示agent更關注短期reward。

cumulative reward with discount rate gamma


3. 兩類任務:Episodic or Continuing tasks

1. Episodic

有開始和結束(a starting point and an ending point(a terminal state)),產(chǎn)生an episode:a list of States, Actions, Rewards, and New States.

2. Continuous tasks

沒有結束(no terminal state), 一直持續(xù)的任務,例如一個agent做自動的股票交易,直到我們手動停止它,agent才會停下來。


4. Monte Carlo vs TD Learning methods

有兩種學習的方式:

一種是在episode的結束點收集rewards然后計算maximum expected future reward: Monte carlo Approach

另一種是在每一步估計reward:Temporal Difference Learning

1) Monte Carlo

在蒙特卡洛方法中,reward只在游戲結束的時候獲得,在一次游戲結束后進行下一次時,會加入一些新的知識,agent可以在每次迭代過程中做出更優(yōu)的決定。


2)Temporal Difference Learning:learning at each time step



5. Exploration/Exploitation trade off

Exploration is finding more information about the environment. 探索

Exploitation is exploiting known information to maximum the reward. 開發(fā)


6. Three approaches to Reinforcement learning

6.1 Value Based

目標是優(yōu)化value function V(s),value function是一個函數(shù),會告訴我們最大的expected future reward,agent在每一步都會獲得。


6.2 Policy Based

直接優(yōu)化policy function?

action = policy(state)

有兩類policy:

Deterministic: a policy at a given state will always return the same action.

Stochastic: output a distribution probability over actions.



6.3 Model Based

模擬環(huán)境,意味著我們創(chuàng)建了一個環(huán)境行為模型,問題是每個環(huán)境都需要一個不同的模型表示




?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

  • 強化學習(Reinforcement Learing),機器學習重要分支,解決連續(xù)決策問題。強化學習問題三概念,環(huán)...
    利炳根閱讀 3,844評論 0 4
  • 一. 增強學習簡介 1.1 什么是增強學習? 機器學習的算法可以分為三類:監(jiān)督學習,非監(jiān)督學習和增強學習。 增強學...
    阿阿阿阿毛閱讀 31,670評論 0 25
  • 每個人在做一件事的時候,都需要先進行思考。清醒的思考,才能避免昨天那樣,被外界因素影響導致非理智決策。那么,決策的...
    宵汀閱讀 321評論 0 1
  • 敬畏—進入—體驗—交給—持續(xù) 1,缺啥補啥,怕啥練啥; 2,一切為我所用,所用為團隊家; 3,我想變,我要變,我...
    京心達閱讀 124評論 0 0
  • 找到自己最適合的方法和節(jié)奏最重要。最近在參加李參老師的《21天時間管理訓練營》課程,雖然之前也已經(jīng)跟隨老師學了...
    博子閱讀 189評論 0 0

友情鏈接更多精彩內(nèi)容