中科院自動(dòng)化所蒲志強(qiáng)教授團(tuán)隊(duì),提出一種基于關(guān)系圖的深度強(qiáng)化學(xué)習(xí)方法,應(yīng)用于多目標(biāo)避碰包圍(MECA)問(wèn)題,使用NOKOV度量動(dòng)作捕捉系統(tǒng)獲取多機(jī)器人位置信息,驗(yàn)證了方法的有效性和適應(yīng)性。研究成果在2022年ICRA大會(huì)發(fā)表。
在多機(jī)器人系統(tǒng)的研究領(lǐng)域中,包圍控制是一個(gè)重要的課題。其在民用和軍事領(lǐng)域都有廣泛的應(yīng)用場(chǎng)景,包括協(xié)同護(hù)航、捕獲敵方目標(biāo)、偵察監(jiān)視、無(wú)人水面艦艇巡邏狩獵等。
這些應(yīng)用的核心問(wèn)題是如何控制一個(gè)多機(jī)器人系統(tǒng),涉及多目標(biāo)分配,同時(shí)解決目標(biāo)包圍和避碰子問(wèn)題。這是一個(gè)巨大的挑戰(zhàn),特別是對(duì)于分散的多機(jī)器人系統(tǒng)。
中科院自動(dòng)化所蒲志強(qiáng)教授團(tuán)隊(duì)在2022年ICRA大會(huì)發(fā)表論文,提出了一種基于關(guān)系圖的深度強(qiáng)化學(xué)習(xí)方法,對(duì)各種條件下的多目標(biāo)避碰包圍(MECA)問(wèn)題具有良好的適應(yīng)性。
定義任務(wù)
該研究定義了一個(gè)MECA任務(wù),即在具有L個(gè)靜態(tài)障礙物(黑色圓圈)的環(huán)境中,由N個(gè)機(jī)器人(綠色圓圈)組成的多機(jī)器人系統(tǒng),協(xié)同包圍K (1 < K < N)個(gè)靜止或運(yùn)動(dòng)的目標(biāo)(紅色圓圈)。
所有機(jī)器人需要自動(dòng)形成多組,包圍所有目標(biāo),每組需要形成圓形隊(duì)形,包圍一個(gè)獨(dú)立的目標(biāo),同時(shí)避免碰撞。這涉及到以下三個(gè)子問(wèn)題:
1) 動(dòng)態(tài)多目標(biāo)分配與分組
2) 每組分別包圍目標(biāo)
3) 相互之間避免碰撞
分散式多機(jī)器人系統(tǒng)的MECA圖解
方法框架
在MECA問(wèn)題中,存在三種類型的實(shí)體,即機(jī)器人、目標(biāo)和障礙物。不同的實(shí)體對(duì)機(jī)器人有不同的影響關(guān)系,例如避障、包圍目標(biāo)、與其他機(jī)器人合作等。
研究提出了一種基于機(jī)器人級(jí)和目標(biāo)級(jí)關(guān)系圖(RGs)的DRL分散方法,命名為MECA-DRL-RG方法。
具體而言:
1、利用圖注意網(wǎng)絡(luò)(GATs)對(duì)機(jī)器人級(jí)RGs進(jìn)行建模和學(xué)習(xí),該RGs由每個(gè)機(jī)器人與其他機(jī)器人、目標(biāo)和障礙物之間的三個(gè)異構(gòu)關(guān)系圖組成。
2、利用GAT構(gòu)建目標(biāo)級(jí)RG,構(gòu)建機(jī)器人與各目標(biāo)之間的空間關(guān)系。目標(biāo)的運(yùn)動(dòng)由目標(biāo)級(jí)RG建模,并通過(guò)監(jiān)督學(xué)習(xí)進(jìn)行學(xué)習(xí),以預(yù)測(cè)目標(biāo)的軌跡。
3、此外,定義了一個(gè)知識(shí)嵌入式復(fù)合獎(jiǎng)勵(lì)函數(shù),解決MECA中的多目標(biāo)問(wèn)題。采用基于集中式訓(xùn)練和去中心化執(zhí)行框架的演員-評(píng)論家訓(xùn)練算法對(duì)策略網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
MECA-DRL-RG方法的整體結(jié)構(gòu)
實(shí)驗(yàn)驗(yàn)證
研究團(tuán)隊(duì)分別進(jìn)行了仿真實(shí)驗(yàn)和真實(shí)環(huán)境實(shí)驗(yàn)。在真實(shí)實(shí)驗(yàn)中,情景設(shè)置為:6個(gè)機(jī)器人在有2個(gè)障礙物的環(huán)境中包圍2個(gè)移動(dòng)的目標(biāo)。機(jī)器人的位置和速度數(shù)據(jù)由NOKOV度量動(dòng)作捕捉系統(tǒng)提供。
6個(gè)機(jī)器人在有2個(gè)障礙物的環(huán)境中包圍2個(gè)移動(dòng)目標(biāo)
仿真實(shí)驗(yàn)和真實(shí)實(shí)驗(yàn)都驗(yàn)證了,相比于其他方法,MECA-DRL-RG方法使機(jī)器人能夠從周圍環(huán)境中,學(xué)習(xí)異構(gòu)空間關(guān)系圖,并預(yù)測(cè)目標(biāo)的軌跡,從而促進(jìn)每個(gè)機(jī)器人對(duì)其周圍環(huán)境的理解和預(yù)測(cè)。證實(shí)了MECA-DRL-RG方法的有效性。
并且,無(wú)論機(jī)器人、障礙物或目標(biāo)的數(shù)量增加,抑或是目標(biāo)的移動(dòng)速度加快,MECA-DRL-RG方法都表現(xiàn)出良好的性能,具有廣泛的適應(yīng)性。
MECA-DRL-RG方法訓(xùn)練曲線
參考文獻(xiàn):