DeepCFR總結(jié)

DeepCFR

使用神經(jīng)網(wǎng)絡(luò)擬合虛擬遺憾最小化算法

兩個神經(jīng)網(wǎng)絡(luò):

虛擬遺憾估值網(wǎng)絡(luò):V:I\rightarrow R^{\vert A \vert },輸入一個狀態(tài),輸出該狀態(tài)采用不同動作之后的遺憾值

策略網(wǎng)絡(luò):\Pi :I\rightarrow R^{\vert A \vert }輸入一個狀態(tài),輸出不同動作對應(yīng)的概率

DeepCFR神經(jīng)網(wǎng)絡(luò)更新

神經(jīng)網(wǎng)絡(luò)更新方法:執(zhí)行T輪迭代,在每一輪迭代中,對每一個參與人p,進(jìn)行K次【模擬】,在模擬結(jié)束后,用M_{V,p} 中的數(shù)據(jù)訓(xùn)練一個新的神經(jīng)網(wǎng)絡(luò)V_{p}^t

T輪迭代之后,使用M_{\Pi }中的數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)\Pi

損失函數(shù)中\dot{t} \sum\nolimits_{a}中的\dot{t} 表示懲罰隨著訓(xùn)練進(jìn)行而增大,體現(xiàn)為要求越來越嚴(yán)格

MCCFR樹搜索策略

MCCFR樹搜索策略是一個迭代算法,接受輸入【狀態(tài)h,遍歷者p,每個參與人的虛擬遺憾網(wǎng)絡(luò)V_{p}^{t-1}M_{V,p}M_{\Pi },迭代輪數(shù)t

如果狀態(tài)h是一個葉子節(jié)點(diǎn),則向根節(jié)點(diǎn)返回該葉子節(jié)點(diǎn)的收益

如果狀態(tài)h是一個機(jī)會節(jié)點(diǎn),則依照該機(jī)會節(jié)點(diǎn)的概率分布選擇一個動作向下遍歷

如果狀態(tài)h是遍歷者p行動的節(jié)點(diǎn),則使用V_{p}^{t-1}預(yù)測該節(jié)點(diǎn)的動作概率分布,然后依次遍歷每一個動作,得到每個動作的價值,并計(jì)算每個動作的后悔值,把【狀態(tài)h,迭代輪數(shù)t,每個動作的后悔值\tilde{r} (I,a)】存入M_{V,p},向根節(jié)點(diǎn)返回每個動作的價值的加權(quán)之和

如果狀態(tài)h是其他玩家行動的節(jié)點(diǎn),則使用V_{-p}^{t-1}預(yù)測該節(jié)點(diǎn)的動作概率分布\sigma ^{t}(I),把【狀態(tài)h,迭代輪數(shù)t,\sigma ^{t}(I)】存入M_{\Pi },并依照該概率分布選擇一個動作向下執(zhí)行

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容