DeepCFR
使用神經(jīng)網(wǎng)絡(luò)擬合虛擬遺憾最小化算法
兩個神經(jīng)網(wǎng)絡(luò):
虛擬遺憾估值網(wǎng)絡(luò):,輸入一個狀態(tài),輸出該狀態(tài)采用不同動作之后的遺憾值
策略網(wǎng)絡(luò):輸入一個狀態(tài),輸出不同動作對應(yīng)的概率

神經(jīng)網(wǎng)絡(luò)更新方法:執(zhí)行輪迭代,在每一輪迭代中,對每一個參與人
,進(jìn)行
次【模擬】,在模擬結(jié)束后,用
中的數(shù)據(jù)訓(xùn)練一個新的神經(jīng)網(wǎng)絡(luò)
在輪迭代之后,使用
中的數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)
損失函數(shù)中中的
表示懲罰隨著訓(xùn)練進(jìn)行而增大,體現(xiàn)為要求越來越嚴(yán)格

MCCFR樹搜索策略是一個迭代算法,接受輸入【狀態(tài),遍歷者
,每個參與人的虛擬遺憾網(wǎng)絡(luò)
,
和
,迭代輪數(shù)
】
如果狀態(tài)是一個葉子節(jié)點(diǎn),則向根節(jié)點(diǎn)返回該葉子節(jié)點(diǎn)的收益
如果狀態(tài)是一個機(jī)會節(jié)點(diǎn),則依照該機(jī)會節(jié)點(diǎn)的概率分布選擇一個動作向下遍歷
如果狀態(tài)是遍歷者
行動的節(jié)點(diǎn),則使用
預(yù)測該節(jié)點(diǎn)的動作概率分布,然后依次遍歷每一個動作,得到每個動作的價值,并計(jì)算每個動作的后悔值,把【狀態(tài)
,迭代輪數(shù)
,每個動作的后悔值
】存入
,向根節(jié)點(diǎn)返回每個動作的價值的加權(quán)之和
如果狀態(tài)h是其他玩家行動的節(jié)點(diǎn),則使用預(yù)測該節(jié)點(diǎn)的動作概率分布
,把【狀態(tài)
,迭代輪數(shù)
,
】存入
,并依照該概率分布選擇一個動作向下執(zhí)行