The idea behind Reinforcement Learning is that an agent will learn from the environment by interacting with it and receiving rewards for performing actions.
1. 強化學習的過程
強化學習過程可以看做是如下的循環(huán):
1. Agent從Environment接受到state S0(例如從游戲(environment)中獲得了第一幀(state))
2. 根據(jù)S0,agent進行action A0操作
3. Environment轉換到新的state S1(new frame)
4. Environment給Agent一個reward R1(not dead: +1)
RL loop輸出state,action和reward的序列,agent的目的是最大化預計累計獎勵(expected cumulative reward)
2. Reward Hypothesis
強化學習是基于reward hypothesis的,所有的目標都是最大化預計累計獎勵。每一步的累計獎勵如下:

然而實際中,越到后面可能得到reward的概率減少,因為難度的增加,因此增加discount rate gamma,值在0到1之間。gamma值越大,discount越少,代表learning agent更關注長期reward,然而如果gamma值越小,discount越大,表示agent更關注短期reward。

3. 兩類任務:Episodic or Continuing tasks
1. Episodic
有開始和結束(a starting point and an ending point(a terminal state)),產(chǎn)生an episode:a list of States, Actions, Rewards, and New States.
2. Continuous tasks
沒有結束(no terminal state), 一直持續(xù)的任務,例如一個agent做自動的股票交易,直到我們手動停止它,agent才會停下來。
4. Monte Carlo vs TD Learning methods
有兩種學習的方式:
一種是在episode的結束點收集rewards然后計算maximum expected future reward: Monte carlo Approach
另一種是在每一步估計reward:Temporal Difference Learning
1) Monte Carlo
在蒙特卡洛方法中,reward只在游戲結束的時候獲得,在一次游戲結束后進行下一次時,會加入一些新的知識,agent可以在每次迭代過程中做出更優(yōu)的決定。

2)Temporal Difference Learning:learning at each time step

5. Exploration/Exploitation trade off
Exploration is finding more information about the environment. 探索
Exploitation is exploiting known information to maximum the reward. 開發(fā)
6. Three approaches to Reinforcement learning
6.1 Value Based
目標是優(yōu)化value function V(s),value function是一個函數(shù),會告訴我們最大的expected future reward,agent在每一步都會獲得。

6.2 Policy Based
直接優(yōu)化policy function?

有兩類policy:
Deterministic: a policy at a given state will always return the same action.
Stochastic: output a distribution probability over actions.

6.3 Model Based
模擬環(huán)境,意味著我們創(chuàng)建了一個環(huán)境行為模型,問題是每個環(huán)境都需要一個不同的模型表示
