在之前的幾篇文章中，我們介紹了基于價值Value的強化學習算法Deep Q Network。有關DQN算法以及各種改進算法的原理和實現，可以參考之前的文章：

實戰(zhàn)深度強化學習DQN-理論和實踐：http://www.itdecent.cn/p/10930c371cac
DQN三大改進(一)-Double DQN：http://www.itdecent.cn/p/fae51b5fe000
DQN三大改進(二)-Prioritised replay：http://www.itdecent.cn/p/db14fdc67d2c
DQN三大改進(三)-Dueling Network：http://www.itdecent.cn/p/b421c85796a2

基于值的強化學習算法的基本思想是根據當前的狀態(tài)，計算采取每個動作的價值，然后根據價值貪心的選擇動作。如果我們省略中間的步驟，即直接根據當前的狀態(tài)來選擇動作，也就引出了強化學習中的另一種很重要的算法，即策略梯度(Policy Gradient)。這篇文章，我們就來介紹這種算法的最基礎的版本以及其簡單的實現。

本篇文章的大部分內容均學習自莫煩老師的強化學習課程，大家可以在b站上找到相關的視頻：https://www.bilibili.com/video/av16921335/#page=22

1、什么是 Policy Gradients

其實在引言部分我們已經介紹了策略梯度的基本思想，就是直接根據狀態(tài)輸出動作或者動作的概率。那么怎么輸出呢，最簡單的就是使用神經網絡啦！
我們使用神經網絡輸入當前的狀態(tài)，網絡就可以輸出我們在這個狀態(tài)下采取每個動作的概率，那么網絡應該如何訓練來實現最終的收斂呢？
我們之前在訓練神經網絡時，使用最多的方法就是反向傳播算法，我們需要一個誤差函數，通過梯度下降來使我們的損失最小。但對于強化學習來說，我們不知道動作的正確與否，只能通過獎勵值來判斷這個動作的相對好壞?；谏厦娴南敕?，我們有個非常簡單的想法：

如果一個動作得到的reward多，那么我們就使其出現的概率增加，如果一個動作得到的reward少，我們就使其出現的概率減小。

根據這個思想，我們構造如下的損失函數：loss= -log(prob)*vt

我們簡單用白話介紹一下上面這個損失函數的合理性，那么至于從數學角度上為什么要使用上面的損失函數，可以參考：Why we consider log likelihood instead of Likelihood in Gaussian Distribution。

上式中l(wèi)og(prob)表示在狀態(tài) s 對所選動作 a 的吃驚度, 如果概率越小, 反向的log(prob) 反而越大. 而vt代表的是當前狀態(tài)s下采取動作a所能得到的獎勵，這是當前的獎勵和未來獎勵的貼現值的求和。也就是說，我們的策略梯度算法必須要完成一個完整的eposide才可以進行參數更新，而不是像值方法那樣，每一個(s,a,r,s')都可以進行參數更新。如果在prob很小的情況下, 得到了一個大的Reward, 也就是大的vt, 那么-log(prob)*vt就更大, 表示更吃驚, (我選了一個不常選的動作, 卻發(fā)現原來它能得到了一個好的 reward, 那我就得對我這次的參數進行一個大幅修改)。

這就是 -log(prob)*vt的物理意義啦.Policy Gradient的核心思想是更新參數時有兩個考慮：如果這個回合選擇某一動作，下一回合選擇該動作的概率大一些，然后再看獎懲值，如果獎懲是正的，那么會放大這個動作的概率，如果獎懲是負的，就會減小該動作的概率。

策略梯度的過程如下圖所示：

我們在介紹代碼實戰(zhàn)之前，最后在強調Policy Gradient的一些細節(jié)：

算法輸出的是動作的概率，而不是Q值。
損失函數的形式為：loss= -log(prob)*vt
需要一次完整的episode才可以進行參數的更新

2、Policy Gradient算法實現

我們通過Policy Gradient算法來實現讓鐘擺倒立的過程。

本文的代碼地址在：https://github.com/princewen/tensorflow_practice/tree/master/Basic-Policy-Network

本文的代碼思路完全按照policy gradient的過程展開。

定義參數
首先，我們定義了一些模型的參數：

self.ep_obs,self.ep_as,self.ep_rs分別存儲了當前episode的狀態(tài)，動作和獎勵。

self.n_actions = n_actions
self.n_features = n_features
self.lr = learning_rate
self.gamma = reward_decay

self.ep_obs,self.ep_as,self.ep_rs = [],[],[]

定義模型輸入
模型的輸入包括三部分，分別是觀察值，動作和獎勵值。

with tf.name_scope('inputs'):
    self.tf_obs = tf.placeholder(tf.float32,[None,self.n_features],name='observation')
    self.tf_acts = tf.placeholder(tf.int32,[None,],name='actions_num')
    self.tf_vt = tf.placeholder(tf.float32,[None,],name='actions_value')

構建模型
我們的模型定義了兩層的神經網絡，網絡的輸入是每次的觀測值，而輸出是該狀態(tài)下采取每個動作的概率，這些概率在最后會經過一個softmax處理

layer = tf.layers.dense(
    inputs = self.tf_obs,
    units = 10,
    activation= tf.nn.tanh,
    kernel_initializer=tf.random_normal_initializer(mean=0,stddev=0.3),
    bias_initializer= tf.constant_initializer(0.1),
    name='fc1'
)

all_act = tf.layers.dense(
    inputs = layer,
    units = self.n_actions,
    activation = None,
    kernel_initializer=tf.random_normal_initializer(mean=0,stddev=0.3),
    bias_initializer = tf.constant_initializer(0.1),
    name='fc2'
)

self.all_act_prob = tf.nn.softmax(all_act,name='act_prob')

模型的損失
我們之前介紹過了，模型的損失函數計算公式為：loss= -log(prob)*vt，我們可以直接使用tf.nn.sparse_softmax_cross_entropy_with_logits 來計算前面一部分，即-log(prob)，不過為了更清楚的顯示我們的計算過程，我們使用了如下的方式：

with tf.name_scope('loss'):
    #neg_log_prob = tf.nn.sparse_softmax_cross_entropy_with_logits(logits=self.all_act_prob,labels =self.tf_acts)

    neg_log_prob = tf.reduce_sum(-tf.log(self.all_act_prob) * tf.one_hot(indices=self.tf_acts,depth=self.n_actions),axis=1)
    loss = tf.reduce_mean(neg_log_prob * self.tf_vt)

而我們選擇AdamOptimizer優(yōu)化器進行參數的更新：

with tf.name_scope('train'):
    self.train_op = tf.train.AdamOptimizer(self.lr).minimize(loss)

動作選擇
我們這里動作的選擇不再根據貪心的策略來選擇了，而是根據輸出動作概率的softmax值：

def choose_action(self,observation):
    prob_weights = self.sess.run(self.all_act_prob,feed_dict={self.tf_obs:observation[np.newaxis,:]})
    action = np.random.choice(range(prob_weights.shape[1]),p=prob_weights.ravel())
    return action

存儲經驗
之前說過，policy gradient是在一個完整的episode結束后才開始訓練的，因此，在一個episode結束前，我們要存儲這個episode所有的經驗，即狀態(tài)，動作和獎勵。

def store_transition(self,s,a,r):
    self.ep_obs.append(s)
    self.ep_as.append(a)
    self.ep_rs.append(r)

計算獎勵的貼現值
我們之前存儲的獎勵是當前狀態(tài)s采取動作a獲得的即時獎勵，而當前狀態(tài)s采取動作a所獲得的真實獎勵應該是即時獎勵加上未來直到episode結束的獎勵貼現和。

def _discount_and_norm_rewards(self):
    discounted_ep_rs = np.zeros_like(self.ep_rs)
    running_add = 0
    # reserved 返回的是列表的反序，這樣就得到了貼現求和值。
    for t in reversed(range(0,len(self.ep_rs))):
        running_add = running_add * self.gamma + self.ep_rs[t]
        discounted_ep_rs[t] = running_add

    discounted_ep_rs -= np.mean(discounted_ep_rs)
    discounted_ep_rs /= np.std(discounted_ep_rs)
    return discounted_ep_rs

模型訓練
在定義好上面所有的部件之后，我們就可以編寫模型訓練函數了，這里需要注意的是，我們喂給模型的并不是我們存儲的獎勵值，而是在經過上一步計算的獎勵貼現和。另外，我們需要在每一次訓練之后清空我們的經驗池。

def learn(self):
    discounted_ep_rs_norm = self._discount_and_norm_rewards()

    self.sess.run(self.train_op,feed_dict={
        self.tf_obs:np.vstack(self.ep_obs),
        self.tf_acts:np.array(self.ep_as),
        self.tf_vt:discounted_ep_rs_norm,
    })

    self.ep_obs,self.ep_as,self.ep_rs = [],[],[]
    return discounted_ep_rs_norm

好了，模型相關的代碼我們就介紹完了，如何調用這個模型的代碼相信大家一看便明白，我們就不再介紹啦。

有關強化學習中policy gradient的更多的改進我也會進一步學習和總結，希望大家持續(xù)關注！

參考資料

1 https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/4-4-gym/
2 https://papers.nips.cc/paper/1713-policy-gradient-methods-for-reinforcement-learning-with-function-approximation.pdf
3 https://zhuanlan.zhihu.com/p/21725498

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

深度強化學習-Policy Gradient基本實現

深度強化學習-Policy Gradient基本實現

1、什么是 Policy Gradients

2、Policy Gradient算法實現

參考資料

相關閱讀更多精彩內容

友情鏈接更多精彩內容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

深度強化學習-Policy Gradient基本實現

1、什么是 Policy Gradients

2、Policy Gradient算法實現

參考資料

相關閱讀更多精彩內容

友情鏈接更多精彩內容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

1、什么是 Policy Gradients

2、Policy Gradient算法實現