使用的游戲是《雷神之錘III競(jìng)技場(chǎng)》,CTF(Capture The Flag)的游戲規(guī)則很簡(jiǎn)單,但是過(guò)程很復(fù)雜。游戲雙方分成藍(lán)紅兩隊(duì)在指定地圖中對(duì)抗。對(duì)抗的目的是保持我方旗幟位于己方基地內(nèi),將敵方旗幟從其基地中帶到我方基地內(nèi),與我方旗幟接觸即得一分,在五分鐘里得分最多隊(duì)伍獲勝。雙方通過(guò)射擊消滅對(duì)方,碰觸己方旗幟可以使其回到己方基地。
Deep Mind 訓(xùn)練的AI名為“為了勝利”(For the Win,F(xiàn)TW),在運(yùn)行了45萬(wàn)場(chǎng)游戲后,F(xiàn)TW理解了如何有效地與人/其他的機(jī)器合作與競(jìng)爭(zhēng)。
研究人員對(duì)AI的唯一限定是,在5分鐘時(shí)間里盡可能取得多的旗幟。對(duì)戰(zhàn)的游戲地圖是隨機(jī)生成的,每場(chǎng)都會(huì)變,室內(nèi)與室外的地形也不相同。在訓(xùn)練過(guò)程中,AI發(fā)展出了自己的獎(jiǎng)勵(lì)機(jī)制,學(xué)會(huì)了基地防守、尾隨隊(duì)友,或者守在敵人營(yíng)地外偷襲等策略。
在驗(yàn)證AI效果時(shí),組隊(duì)的時(shí)候,AI可能與人組隊(duì),也可能與其他AI組隊(duì)。
DeepMind在他們今天發(fā)表的博客文章中寫(xiě)道,從多智能體的角度說(shuō),玩《雷神之錘III》這種多人視頻游戲,需要與隊(duì)友合作,與敵方競(jìng)爭(zhēng),還要對(duì)遭遇到的任何對(duì)戰(zhàn)風(fēng)格/策略保持魯棒性。
分析發(fā)現(xiàn),游戲中,AI在“tagging”(碰觸對(duì)方,將其送回地圖上的初始地點(diǎn))上比人類(lèi)更加高效,80%的情況下能夠成功(人類(lèi)為48%)。
而且有趣的是,對(duì)參與對(duì)戰(zhàn)的人類(lèi)玩家進(jìn)行調(diào)查后發(fā)現(xiàn),大家普遍認(rèn)為AI是更好的team player,更善于合作。
