伊人网在线视频精品,.久久黄色,午夜国产一区在线久久

1. Gridworld環(huán)境

Pass (根據(jù)自己的需要寫，不會(huì)的話看教程 https://zhuanlan.zhihu.com/p/74565143）
狀態(tài)信息主要為agent坐標(biāo)等，動(dòng)作可以是四向或者八向，render出來大概就這個(gè)樣子：

Gridworld.png

2. Multi-agent Reinforcement Learning 環(huán)境：

Link: https://github.com/Bigpig4396/Multi-Agent-Reinforcement-Learning-Environment

這里邊也是提供了多個(gè)基于python的grid world小環(huán)境，不想自己寫的童鞋可以找找這里的環(huán)境，看看哪個(gè)適合自己進(jìn)行算法驗(yàn)證，反正代碼也都不復(fù)雜，稍微改改可能就能用。render圖片如下：

Multi-agent Reinforcement Learning.png

3. Particle 環(huán)境：

Link：https://github.com/openai/multiagent-particle-envs

簡(jiǎn)稱小球環(huán)境，也是MADDPG用的環(huán)境，基本上可以看做是較為復(fù)雜的 gridworld 的環(huán)境。在這個(gè)環(huán)境涵蓋了ma里的競(jìng)爭(zhēng)/協(xié)作/通訊場(chǎng)景，你可以根據(jù)你的需要設(shè)置agent的數(shù)量，選擇他們要完成的任務(wù)，比如合作進(jìn)行相互抓捕，碰撞等，你也可以繼承某一個(gè)環(huán)境來改寫自己的任務(wù)。狀態(tài)信息主要包括agent坐標(biāo)/方向/速度等，這些小球的的原始動(dòng)作空間是連續(xù)型的，不過在類屬性里有個(gè)可以強(qiáng)制進(jìn)行離散的設(shè)置，可以把它打開以后小球的動(dòng)作就可以被離散為幾個(gè)方向的移動(dòng)了。此外，在這個(gè)環(huán)境中，小球之間的碰撞都都是模擬剛體的實(shí)際碰撞，通過計(jì)算動(dòng)量，受力等來計(jì)算速度和位移。這個(gè)環(huán)境render出來如下：

Particle .png

4. MAgent 環(huán)境：

Link：https://github.com/geek-ai/MAgent

這個(gè)是UCL汪軍老師團(tuán)隊(duì)Mean Field 論文里用到的環(huán)境，主要研究的是當(dāng)環(huán)境由大量智能體組成的時(shí)候的競(jìng)爭(zhēng)和協(xié)作問題。也可以看成是復(fù)雜的Grid World環(huán)境。Render如下：

MAgent .png

5. Pommerman 環(huán)境：

Link：https://www.pommerman.com/

這個(gè)炸彈人環(huán)境好像是NIPS18的比賽挑戰(zhàn)項(xiàng)目，可以組隊(duì)進(jìn)行參加。環(huán)境主要是2v2，每隊(duì)控制兩個(gè)agent，agent是partial observable，應(yīng)該是只能觀測(cè)到自己附近的環(huán)境。此外還有個(gè)場(chǎng)景可以進(jìn)行通訊。

Pommerman .png

6. Multiagent emergence 環(huán)境：

Link：https://github.com/openai/multi-agent-emergence-environments

這個(gè)環(huán)境是OpenAI 的捉迷藏環(huán)境，主要講的是兩隊(duì)開心的小朋友a(bǔ)gents在玩捉迷藏游戲中經(jīng)過訓(xùn)練逐漸學(xué)到的各種策略。看了一眼，這么有質(zhì)感的畫面居然是基于mujoco的。參見paper：https://arxiv.org/abs/1909.07528，blog：https://openai.com/blog/emergent-tool-use/。Render如下：

emergence.png

7. Quake III Arena Capture the Flag 環(huán)境：

Link：https://github.com/deepmind/lab

這個(gè)環(huán)境來自 DeepMind的lab環(huán)境https://arxiv.org/pdf/1612.03801.pdf，是其中一張雷神之錘III競(jìng)技場(chǎng)(Quake III Arena)的地圖。主要是兩隊(duì)，每隊(duì)由兩個(gè)agent組成，在室內(nèi)和戶外兩個(gè)場(chǎng)景下以第一人稱視角競(jìng)爭(zhēng)玩奪旗的游戲。他們的論文成果發(fā)在了Science https://science.sciencemag.org/content/364/6443/859.fullijkey=rZC5DWj2KbwNk&keytype=ref&siteid=sci，Blog：https://deepmind.com/blog/article/capture-the-flag-science，Render如下：

Quake III Arena Capture the Flag.png

8. Google Research Football 環(huán)境：

Link：https://github.com/google-research/football

這個(gè)環(huán)境是google基于之前某個(gè)足球小游戲的環(huán)境進(jìn)行改動(dòng)和封裝出來的，主要可以分為11v11 single-agent場(chǎng)景（控制一個(gè)active player在11名球員中切換）和5v5 multi-agent場(chǎng)景（控制4名球員+1個(gè)守門員）。該環(huán)境支持self-play，有三種難度內(nèi)置AI可以打，你可以人肉去體驗(yàn)下，玩起來和實(shí)況，F(xiàn)IFA，綠茵之巔感覺都差不多。游戲狀態(tài)基于vector的主要是球員的坐標(biāo)/速度/角色/朝向/紅黃牌等，也可以用圖像輸入，但需要打開render，估計(jì)會(huì)略慢，動(dòng)作輸出有二十多維，包括不同方向/長短傳/加速等。此外環(huán)境還提供了所謂“football academy”，你可以自己進(jìn)行游戲場(chǎng)景和球員坐標(biāo)的初始化，相當(dāng)于可以進(jìn)行課程學(xué)習(xí)配置。Render如下：

Google Research Football.png

9. Neural MMOs 環(huán)境：

Link：https://github.com/openai/neural-mmo

Neural MMOs也是OpenAI開源的一個(gè)大型的復(fù)雜ma游戲場(chǎng)景，沒啥特別的特點(diǎn)，就是大，畢竟是MMO。這張大地圖中，由于資源有限，agent要學(xué)著合作/競(jìng)爭(zhēng)活下去，據(jù)說科學(xué)家們都可以基于此來研究生物進(jìn)化，種群形成等很多社會(huì)性行為的形成過程。由于環(huán)境比較大，所以IO甚至都會(huì)有點(diǎn)比較大問題，這么多agent的狀態(tài)的獲取等都需要有特殊的方式來進(jìn)行優(yōu)化，他們的論文也講了不少工程方面的事情，中了今年的AAMAS20的短文。Render如下：

Neural MMOs.png

10. StarCraft II 環(huán)境：

Link：https://github.com/oxwhirl/smac

星際爭(zhēng)霸的環(huán)境大家應(yīng)該也已經(jīng)很熟悉了，作為即時(shí)策略的代表環(huán)境，DeepMind也研究了很長時(shí)間，AlphaStar也取得了很亮眼的表現(xiàn)，另外今天國內(nèi)啟元的星際指揮官的挑戰(zhàn)賽，表現(xiàn)也不賴（雖然全屏），維京和多線用的666，血虐TIME。也有很多知名算法是基于星際環(huán)境，如大Qmix，COMA等。這個(gè)SMAC環(huán)境比DeepMind的pySC2 https://github.com/deepmind/pysc2 更側(cè)重decentralized場(chǎng)景和單元控制，更易去驗(yàn)證一些ma的算法。場(chǎng)景如下：

StarCraft.png

11. Unity ML-Agents Toolkit環(huán)境：

Link：https://github.com/Unity-Technologies/ml-agents

準(zhǔn)確來講，這并不僅僅是一個(gè)環(huán)境，這是一個(gè)游戲引擎。什么是游戲引擎呢？說通俗點(diǎn)就是用來做游戲的IDE。目前市場(chǎng)上有不少游戲都是基于Unity的，特別是手游。所以呢，理論上當(dāng)你掌握了unity，你就可以自己去寫任何你需要的炫酷模擬仿真環(huán)境，所以，不會(huì)用unity的調(diào)包俠不是好的煉丹師（手動(dòng)doge）。參見幾個(gè)他們論文中展示的環(huán)境：

Unity.png

12. Fever Basketball 環(huán)境：

Link：https://github.com/FuxiRL/Fever

國內(nèi)網(wǎng)易伏羲實(shí)驗(yàn)室將潮人籃球（https://chao.163.com/）環(huán)境開源。我們這里不僅有多種角色多種位置（PG，SG，C，PF，SF）可供選擇，更有多種場(chǎng)景（1v1，2v2，3v3）可供訓(xùn)練，還有不同難度的AI陪虐，當(dāng)然Self play也必須支持滴。

Fever Basketball.png

13. MaCA 環(huán)境：

Link: https://github.com/CETC-TFAI/MaCA
https://gitee.com/yangke066812/

Multi-agent Combat Arena (MaCA)是由中國電子科技集團(tuán)公司信息科學(xué)研究院CETC-TFAI 團(tuán)隊(duì)制作的異構(gòu)多代理分布式?jīng)Q策和控制技術(shù)再集成平臺(tái)。它側(cè)重于人工智能技術(shù)的應(yīng)用，例如在多代理合作和對(duì)抗中加強(qiáng)學(xué)習(xí)。場(chǎng)景如下：