DeepCFR

使用神經(jīng)網(wǎng)絡(luò)擬合虛擬遺憾最小化算法

兩個神經(jīng)網(wǎng)絡(luò)：

虛擬遺憾估值網(wǎng)絡(luò)： $V:I\rightarrow R^{\vert A \vert }$ ，輸入一個狀態(tài)，輸出該狀態(tài)采用不同動作之后的遺憾值

策略網(wǎng)絡(luò)： $\Pi :I\rightarrow R^{\vert A \vert }$ 輸入一個狀態(tài)，輸出不同動作對應(yīng)的概率

DeepCFR神經(jīng)網(wǎng)絡(luò)更新

神經(jīng)網(wǎng)絡(luò)更新方法：執(zhí)行 $T$ 輪迭代，在每一輪迭代中，對每一個參與人 $p$ ，進(jìn)行 $K$ 次【模擬】，在模擬結(jié)束后，用 $M_{V,p}$ 中的數(shù)據(jù)訓(xùn)練一個新的神經(jīng)網(wǎng)絡(luò) $V_{p}^t$

在 $T$ 輪迭代之后，使用 $M_{\Pi }$ 中的數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò) $\Pi$

損失函數(shù)中 $\dot{t} \sum\nolimits_{a}$ 中的 $\dot{t}$ 表示懲罰隨著訓(xùn)練進(jìn)行而增大，體現(xiàn)為要求越來越嚴(yán)格

MCCFR樹搜索策略

MCCFR樹搜索策略是一個迭代算法，接受輸入【狀態(tài) $h$ ，遍歷者 $p$ ，每個參與人的虛擬遺憾網(wǎng)絡(luò) $V_{p}^{t-1}$ ， $M_{V,p}$ 和 $M_{\Pi }$ ，迭代輪數(shù) $t$ 】

如果狀態(tài) $h$ 是一個葉子節(jié)點(diǎn)，則向根節(jié)點(diǎn)返回該葉子節(jié)點(diǎn)的收益

如果狀態(tài) $h$ 是一個機(jī)會節(jié)點(diǎn)，則依照該機(jī)會節(jié)點(diǎn)的概率分布選擇一個動作向下遍歷

如果狀態(tài) $h$ 是遍歷者 $p$ 行動的節(jié)點(diǎn)，則使用 $V_{p}^{t-1}$ 預(yù)測該節(jié)點(diǎn)的動作概率分布，然后依次遍歷每一個動作，得到每個動作的價值，并計(jì)算每個動作的后悔值，把【狀態(tài) $h$ ，迭代輪數(shù) $t$ ，每個動作的后悔值 $\tilde{r} (I,a)$ 】存入 $M_{V,p}$ ，向根節(jié)點(diǎn)返回每個動作的價值的加權(quán)之和

如果狀態(tài)h是其他玩家行動的節(jié)點(diǎn)，則使用 $V_{-p}^{t-1}$ 預(yù)測該節(jié)點(diǎn)的動作概率分布 $\sigma ^{t}(I)$ ，把【狀態(tài) $h$ ，迭代輪數(shù) $t$ ， $\sigma ^{t}(I)$ 】存入 $M_{\Pi }$ ，并依照該概率分布選擇一個動作向下執(zhí)行

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

DeepCFR總結(jié)

DeepCFR總結(jié)

DeepCFR

使用神經(jīng)網(wǎng)絡(luò)擬合虛擬遺憾最小化算法

兩個神經(jīng)網(wǎng)絡(luò)：

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

DeepCFR總結(jié)

DeepCFR

使用神經(jīng)網(wǎng)絡(luò)擬合虛擬遺憾最小化算法

兩個神經(jīng)網(wǎng)絡(luò)：

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av