常用的多智能體強(qiáng)化學(xué)習(xí)仿真環(huán)境

1. Gridworld環(huán)境

Pass (根據(jù)自己的需要寫,不會(huì)的話看教程 https://zhuanlan.zhihu.com/p/74565143
狀態(tài)信息主要為agent坐標(biāo)等,動(dòng)作可以是四向或者八向,render出來大概就這個(gè)樣子:

Gridworld.png

2. Multi-agent Reinforcement Learning 環(huán)境:

Link: https://github.com/Bigpig4396/Multi-Agent-Reinforcement-Learning-Environment

這里邊也是提供了多個(gè)基于python的grid world小環(huán)境,不想自己寫的童鞋可以找找這里的環(huán)境,看看哪個(gè)適合自己進(jìn)行算法驗(yàn)證,反正代碼也都不復(fù)雜,稍微改改可能就能用。render圖片如下:


Multi-agent Reinforcement Learning.png

3. Particle 環(huán)境:

Link:https://github.com/openai/multiagent-particle-envs

簡(jiǎn)稱小球環(huán)境,也是MADDPG用的環(huán)境,基本上可以看做是較為復(fù)雜的 gridworld 的環(huán)境。 在這個(gè)環(huán)境涵蓋了ma里的競(jìng)爭(zhēng)/協(xié)作/通訊場(chǎng)景,你可以根據(jù)你的需要設(shè)置agent的數(shù)量,選擇他們要完成的任務(wù),比如合作進(jìn)行相互抓捕,碰撞等,你也可以繼承某一個(gè)環(huán)境來改寫自己的任務(wù)。狀態(tài)信息主要包括agent坐標(biāo)/方向/速度等,這些小球的的原始動(dòng)作空間是連續(xù)型的,不過在類屬性里有個(gè)可以強(qiáng)制進(jìn)行離散的設(shè)置,可以把它打開以后小球的動(dòng)作就可以被離散為幾個(gè)方向的移動(dòng)了。此外,在這個(gè)環(huán)境中,小球之間的碰撞都都是模擬剛體的實(shí)際碰撞,通過計(jì)算動(dòng)量,受力等來計(jì)算速度和位移。這個(gè)環(huán)境render出來如下:

Particle .png

4. MAgent 環(huán)境:

Link:https://github.com/geek-ai/MAgent

這個(gè)是UCL汪軍老師團(tuán)隊(duì)Mean Field 論文里用到的環(huán)境,主要研究的是當(dāng)環(huán)境由大量智能體組成的時(shí)候的競(jìng)爭(zhēng)和協(xié)作問題。也可以看成是復(fù)雜的Grid World環(huán)境。Render如下:

MAgent .png

5. Pommerman 環(huán)境:

Link:https://www.pommerman.com/

這個(gè)炸彈人環(huán)境好像是NIPS18的比賽挑戰(zhàn)項(xiàng)目,可以組隊(duì)進(jìn)行參加。環(huán)境主要是2v2,每隊(duì)控制兩個(gè)agent,agent是partial observable,應(yīng)該是只能觀測(cè)到自己附近的環(huán)境。此外還有個(gè)場(chǎng)景可以進(jìn)行通訊。

Pommerman .png

6. Multiagent emergence 環(huán)境:

Link:https://github.com/openai/multi-agent-emergence-environments

這個(gè)環(huán)境是OpenAI 的捉迷藏環(huán)境,主要講的是兩隊(duì)開心的小朋友a(bǔ)gents在玩捉迷藏游戲中經(jīng)過訓(xùn)練逐漸學(xué)到的各種策略。看了一眼,這么有質(zhì)感的畫面居然是基于mujoco的。參見paper:https://arxiv.org/abs/1909.07528,blog:https://openai.com/blog/emergent-tool-use/。Render如下:

emergence.png

7. Quake III Arena Capture the Flag 環(huán)境:

Link:https://github.com/deepmind/lab

這個(gè)環(huán)境來自 DeepMind的lab環(huán)境https://arxiv.org/pdf/1612.03801.pdf,是其中一張雷神之錘III競(jìng)技場(chǎng)(Quake III Arena)的地圖。主要是兩隊(duì),每隊(duì)由兩個(gè)agent組成,在室內(nèi)和戶外兩個(gè)場(chǎng)景下以第一人稱視角競(jìng)爭(zhēng)玩奪旗的游戲。他們的論文成果發(fā)在了Science https://science.sciencemag.org/content/364/6443/859.fullijkey=rZC5DWj2KbwNk&keytype=ref&siteid=sci,Blog:https://deepmind.com/blog/article/capture-the-flag-science,Render如下:

Quake III Arena Capture the Flag.png

8. Google Research Football 環(huán)境:

Link:https://github.com/google-research/football

這個(gè)環(huán)境是google基于之前某個(gè)足球小游戲的環(huán)境進(jìn)行改動(dòng)和封裝出來的,主要可以分為11v11 single-agent場(chǎng)景(控制一個(gè)active player在11名球員中切換)和5v5 multi-agent場(chǎng)景(控制4名球員+1個(gè)守門員)。該環(huán)境支持self-play,有三種難度內(nèi)置AI可以打,你可以人肉去體驗(yàn)下,玩起來和實(shí)況,F(xiàn)IFA,綠茵之巔感覺都差不多。游戲狀態(tài)基于vector的主要是球員的坐標(biāo)/速度/角色/朝向/紅黃牌等,也可以用圖像輸入,但需要打開render,估計(jì)會(huì)略慢,動(dòng)作輸出有二十多維,包括不同方向/長短傳/加速等。此外環(huán)境還提供了所謂“football academy”,你可以自己進(jìn)行游戲場(chǎng)景和球員坐標(biāo)的初始化,相當(dāng)于可以進(jìn)行課程學(xué)習(xí)配置。Render如下:


Google Research Football.png

9. Neural MMOs 環(huán)境:

Link:https://github.com/openai/neural-mmo

Neural MMOs也是OpenAI開源的一個(gè)大型的復(fù)雜ma游戲場(chǎng)景,沒啥特別的特點(diǎn),就是大,畢竟是MMO。這張大地圖中,由于資源有限,agent要學(xué)著合作/競(jìng)爭(zhēng)活下去,據(jù)說科學(xué)家們都可以基于此來研究生物進(jìn)化,種群形成等很多社會(huì)性行為的形成過程。由于環(huán)境比較大,所以IO甚至都會(huì)有點(diǎn)比較大問題,這么多agent的狀態(tài)的獲取等都需要有特殊的方式來進(jìn)行優(yōu)化,他們的論文也講了不少工程方面的事情,中了今年的AAMAS20的短文。Render如下:


Neural MMOs.png

10. StarCraft II 環(huán)境:

Link:https://github.com/oxwhirl/smac

星際爭(zhēng)霸的環(huán)境大家應(yīng)該也已經(jīng)很熟悉了,作為即時(shí)策略的代表環(huán)境,DeepMind也研究了很長時(shí)間,AlphaStar也取得了很亮眼的表現(xiàn),另外今天國內(nèi)啟元的星際指揮官的挑戰(zhàn)賽,表現(xiàn)也不賴(雖然全屏 ),維京和多線用的666,血虐TIME。也有很多知名算法是基于星際環(huán)境,如大Qmix,COMA等。這個(gè)SMAC環(huán)境比DeepMind的pySC2 https://github.com/deepmind/pysc2 更側(cè)重decentralized場(chǎng)景和單元控制,更易去驗(yàn)證一些ma的算法。場(chǎng)景如下:

StarCraft.png

11. Unity ML-Agents Toolkit環(huán)境:

Link:https://github.com/Unity-Technologies/ml-agents

準(zhǔn)確來講,這并不僅僅是一個(gè)環(huán)境,這是一個(gè)游戲引擎。什么是游戲引擎呢?說通俗點(diǎn)就是用來做游戲的IDE。目前市場(chǎng)上有不少游戲都是基于Unity的,特別是手游。所以呢,理論上當(dāng)你掌握了unity,你就可以自己去寫任何你需要的炫酷模擬仿真環(huán)境,所以,不會(huì)用unity的調(diào)包俠不是好的煉丹師(手動(dòng)doge)。參見幾個(gè)他們論文中展示的環(huán)境:

Unity.png

12. Fever Basketball 環(huán)境:

Link:https://github.com/FuxiRL/Fever

國內(nèi)網(wǎng)易伏羲實(shí)驗(yàn)室將潮人籃球(https://chao.163.com/)環(huán)境開源。我們這里不僅有多種角色多種位置(PG,SG,C,PF,SF)可供選擇,更有多種場(chǎng)景(1v1,2v2,3v3)可供訓(xùn)練,還有不同難度的AI陪虐,當(dāng)然Self play也必須支持滴。

Fever Basketball.png

13. MaCA 環(huán)境:

Link: https://github.com/CETC-TFAI/MaCA
https://gitee.com/yangke066812/

Multi-agent Combat Arena (MaCA)是由 中國電子科技集團(tuán)公司信息科學(xué)研究院CETC-TFAI 團(tuán)隊(duì)制作的異構(gòu)多代理分布式?jīng)Q策和控制技術(shù)再集成平臺(tái)。它側(cè)重于人工智能技術(shù)的應(yīng)用,例如在多代理合作和對(duì)抗中加強(qiáng)學(xué)習(xí)。場(chǎng)景如下:

MaCA.png

14. Botzone 環(huán)境:

Link:https://www.botzone.org.cn/

該環(huán)境是北京大學(xué)人工智能實(shí)驗(yàn)室開放的2020IJCAI的比賽環(huán)境,內(nèi)有20多種游戲。

Botzone.png

15. gym環(huán)境:

Linkhttps://github.com/openai/gym/b

16. PettingZoo環(huán)境:

Linkhttps://www.pettingzoo.ml/#

https://github.com/PettingZoo-T

多智能體環(huán)境整合。包含pip安裝的MAgent等環(huán)境。

PettingZoo.png

參考鏈接https://www.zhihu.com/question/332942236/answer/2453680520?utm_source=qq&utm_medium=social&utm_oi=881118496048697344

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容