清華新突破,360°REA重塑多智能體系統(tǒng):提升復(fù)雜任務(wù)表現(xiàn)

引言:多智能體系統(tǒng)的新篇章——360°REA框架

在多智能體系統(tǒng)的研究領(lǐng)域,最新的進(jìn)展揭示了一種全新的框架——360°REA(Reusable Experience Accumulation with 360° Assessment)。這一框架的提出,不僅是對(duì)現(xiàn)有系統(tǒng)的一次重大改進(jìn),也為未來(lái)的智能體系統(tǒng)設(shè)計(jì)提供了新的方向。360°REA框架的核心在于通過(guò)全方位的評(píng)估和經(jīng)驗(yàn)積累,提升智能體處理復(fù)雜任務(wù)的能力。它借鑒了現(xiàn)代企業(yè)組織中的績(jī)效評(píng)估和員工經(jīng)驗(yàn)積累機(jī)制,將其應(yīng)用于智能體的性能提升中。

標(biāo)題:360°REA: Towards A Reusable Experience Accumulation with 360° Assessment for Multi-Agent System

作者:Shen Gao1?, Hao Li2?, Zhengliang Shi2, Chengrui Huang1, Quan Tu3, Zhiliang Tian4*, Minlie Huang5, Shuo Shang1

論文鏈接:https://arxiv.org/pdf/2404.05569.pdf


360°REA框架概述:靈感來(lái)源與框架目標(biāo)

360°REA框架的靈感來(lái)源于企業(yè)組織中的360度績(jī)效評(píng)估方法。在企業(yè)管理中,績(jī)效評(píng)估不僅僅是為了打分或者獎(jiǎng)懲員工,更重要的是通過(guò)評(píng)估幫助員工反思工作,從而提升他們履行角色的能力。360度評(píng)估是一個(gè)全面的過(guò)程,涉及從同事、上司甚至外部來(lái)源收集對(duì)員工行為的評(píng)價(jià)。越來(lái)越多的商業(yè)組織將360度評(píng)估納入績(jī)效評(píng)價(jià)和雇傭決策中,如薪酬和晉升。

受此啟發(fā),360°REA框架旨在幫助智能體基于評(píng)估結(jié)果積累經(jīng)驗(yàn),使其在后續(xù)任務(wù)中表現(xiàn)更佳。這一設(shè)計(jì)原則強(qiáng)調(diào)了幫助智能體提升能力的重要性,而不僅僅是評(píng)估或從系統(tǒng)中移除表現(xiàn)不佳的智能體。因此,設(shè)計(jì)一種智能體評(píng)估和能力學(xué)習(xí)機(jī)制,成為多智能體系統(tǒng)設(shè)計(jì)中的一個(gè)挑戰(zhàn)。

360°REA框架的目標(biāo)是通過(guò)模仿組織結(jié)構(gòu)、員工績(jī)效評(píng)估和公司內(nèi)部的經(jīng)驗(yàn)積累,提升智能體處理復(fù)雜任務(wù)的性能??蚣懿捎昧藢蛹?jí)結(jié)構(gòu)來(lái)組織智能體,領(lǐng)導(dǎo)智能體負(fù)責(zé)分配任務(wù)和角色給執(zhí)行智能體,而執(zhí)行智能體協(xié)作完成給定任務(wù)。為了評(píng)估每個(gè)執(zhí)行智能體的表現(xiàn),360°REA引入了一種新穎的360度性能評(píng)估方法,該方法采用多維度評(píng)價(jià),從同伴層面和監(jiān)督層面對(duì)智能體進(jìn)行細(xì)粒度的評(píng)估。此外,為了實(shí)現(xiàn)更好的智能體性能,提出了雙層經(jīng)驗(yàn)池,幫助智能體在處理復(fù)雜任務(wù)時(shí)積累有用的經(jīng)驗(yàn)。


多維度性能評(píng)估:360°性能評(píng)估法的創(chuàng)新之處

1. 同伴評(píng)估與自我評(píng)估

在多維度性能評(píng)估的實(shí)踐中,360°性能評(píng)估法的創(chuàng)新之處在于它不僅僅依賴于自我評(píng)估,而是引入了同伴評(píng)估的維度。這種方法允許同一團(tuán)隊(duì)中的代理(crew agents)相互評(píng)價(jià),從而提供了一個(gè)更全面的性能反饋。每個(gè)代理在完成其子任務(wù)后,會(huì)接受來(lái)自其他代理的反饋,這些反饋將用于修正其對(duì)子任務(wù)的響應(yīng)。通過(guò)這種方式,代理能夠在多個(gè)回合中不斷完善其響應(yīng),從而提高其輸出的質(zhì)量。例如,在一個(gè)旅行規(guī)劃任務(wù)中,一個(gè)代理可能會(huì)評(píng)估另一個(gè)代理提出的旅行計(jì)劃,并給出建議,如何使計(jì)劃更符合特定的評(píng)估標(biāo)準(zhǔn),如個(gè)性化、新穎性和正確性。

2. 領(lǐng)導(dǎo)者評(píng)估的重要性

除了同伴評(píng)估,360°性能評(píng)估法還強(qiáng)調(diào)了領(lǐng)導(dǎo)者評(píng)估的重要性。在這個(gè)框架中,領(lǐng)導(dǎo)者代理(leader agent)負(fù)責(zé)對(duì)團(tuán)隊(duì)成員的表現(xiàn)進(jìn)行評(píng)估,并提供從全局視角出發(fā)的反饋。這種監(jiān)督層面的評(píng)估有助于代理從更宏觀的角度理解問(wèn)題,從而在解決復(fù)雜任務(wù)時(shí)提供更有價(jià)值的指導(dǎo)。例如,領(lǐng)導(dǎo)者代理可能會(huì)評(píng)估一個(gè)代理在處理子任務(wù)時(shí)的表現(xiàn),并根據(jù)任務(wù)指令提供反饋,幫助代理更好地理解其在整個(gè)任務(wù)中的角色和貢獻(xiàn)。


雙層經(jīng)驗(yàn)池的設(shè)計(jì):本地與全局經(jīng)驗(yàn)的積累

1. 本地經(jīng)驗(yàn)池的構(gòu)建與作用

本地經(jīng)驗(yàn)池是為每個(gè)代理個(gè)體設(shè)計(jì)的,它匯集了代理在完成當(dāng)前子任務(wù)過(guò)程中的經(jīng)驗(yàn)。這些經(jīng)驗(yàn)是基于360°性能評(píng)估的多輪反饋總結(jié)而來(lái)的,旨在幫助代理在下一個(gè)回合中取得更好的結(jié)果。例如,一個(gè)代理在接收到同伴的反饋后,會(huì)反思并總結(jié)出本地經(jīng)驗(yàn),這些經(jīng)驗(yàn)可能包括如何改進(jìn)其旅行計(jì)劃的個(gè)性化或如何確保計(jì)劃的可行性。

2. 全局經(jīng)驗(yàn)池的構(gòu)建與作用

全局經(jīng)驗(yàn)池則是為整個(gè)多代理系統(tǒng)設(shè)計(jì)的,它從每個(gè)代理的最終響應(yīng)和評(píng)估者的反饋中構(gòu)建可復(fù)用的經(jīng)驗(yàn)。這些經(jīng)驗(yàn)涵蓋了整個(gè)任務(wù)解決過(guò)程中的高層次技能,有助于整個(gè)團(tuán)隊(duì)在處理類似任務(wù)時(shí)的性能提升。例如,領(lǐng)導(dǎo)者代理在任務(wù)完成后,會(huì)從評(píng)估者的反饋中學(xué)習(xí)經(jīng)驗(yàn),總結(jié)出如何在未來(lái)的任務(wù)中更好地協(xié)調(diào)團(tuán)隊(duì),以及如何平衡任務(wù)的可行性和活動(dòng)的多樣性。


實(shí)驗(yàn)設(shè)計(jì)與數(shù)據(jù)集介紹:驗(yàn)證360°REA的有效性

為了驗(yàn)證360°REA框架的有效性,我們?cè)趦蓚€(gè)廣泛使用的復(fù)雜任務(wù)數(shù)據(jù)集上進(jìn)行了廣泛的實(shí)驗(yàn)。這些數(shù)據(jù)集包括創(chuàng)意寫(xiě)作和旅行計(jì)劃制定任務(wù)。在創(chuàng)意寫(xiě)作任務(wù)中,我們使用了Trivia Creative Writing數(shù)據(jù)集,該數(shù)據(jù)集要求生成一個(gè)故事來(lái)覆蓋所需的輸入。在旅行計(jì)劃制定任務(wù)中,我們使用了Trip Planning數(shù)據(jù)集,該數(shù)據(jù)集包含了50個(gè)世界著名景點(diǎn)的旅行計(jì)劃,這些計(jì)劃是基于目的地特點(diǎn)生成的具體要求。通過(guò)這些實(shí)驗(yàn),我們能夠展示360°REA在多個(gè)復(fù)雜任務(wù)上相較于現(xiàn)有基準(zhǔn)的優(yōu)勢(shì),同時(shí)也證實(shí)了綜合評(píng)估和經(jīng)驗(yàn)積累對(duì)于提升多代理系統(tǒng)性能的重要性。


綜合評(píng)估指標(biāo):如何衡量任務(wù)完成的質(zhì)量

在多代理系統(tǒng)中,衡量任務(wù)完成的質(zhì)量是一個(gè)復(fù)雜的過(guò)程,需要從多個(gè)維度進(jìn)行考量。360°REA框架通過(guò)引入360°績(jī)效評(píng)估方法,提供了一種全面的評(píng)價(jià)機(jī)制。這種評(píng)估方法不僅僅局限于自我反思,而是包括來(lái)自同伴和上級(jí)的評(píng)價(jià),從而提供了更有價(jià)值的反饋。具體來(lái)說(shuō),評(píng)估指標(biāo)包括以下幾個(gè)方面:

1. 自我評(píng)估(Self-level Assessment):代理根據(jù)自己的響應(yīng)進(jìn)行自我反思,以此來(lái)評(píng)估自己的表現(xiàn)。

2. 同伴評(píng)估(Peer-level Assessment):在基于LLM的多代理系統(tǒng)中,代理之間的合作是常見(jiàn)的。通過(guò)同伴評(píng)估,代理可以從其他任務(wù)的角度評(píng)價(jià)智能代理的表現(xiàn),從而獲得更全面的評(píng)價(jià)。

3. 上級(jí)評(píng)估(Supervisory-level Assessment):領(lǐng)導(dǎo)代理可以從更全局的角度評(píng)估每個(gè)代理完成子任務(wù)的表現(xiàn),并協(xié)助他們更好地解決問(wèn)題。

通過(guò)這三種評(píng)估方式,代理能夠從不同的角度獲得反饋,并據(jù)此改進(jìn)自己的表現(xiàn)。此外,360°REA還引入了雙層經(jīng)驗(yàn)池(dual-level experience pool),幫助代理基于評(píng)估結(jié)果收集有用的經(jīng)驗(yàn),從而在處理類似任務(wù)時(shí)表現(xiàn)得更好。


基線模型與對(duì)比實(shí)驗(yàn):360°REA與現(xiàn)有方法的比較

在進(jìn)行實(shí)驗(yàn)對(duì)比時(shí),我們選擇了幾種基線模型進(jìn)行比較,以驗(yàn)證360°REA的有效性。這些基線模型包括:

GPT-4:OpenAI的封閉源LLM,使用單一指令進(jìn)行上下文學(xué)習(xí)。

Mistral:開(kāi)源LLM,使用專家混合版本Mistral-medium。

OKR:一個(gè)層次化的多代理協(xié)作框架,通過(guò)分解目標(biāo)到多個(gè)子目標(biāo),并基于關(guān)鍵結(jié)果和代理責(zé)任分配新代理。

SPP:Solo Performance Prompting,將單一LLM轉(zhuǎn)化為通過(guò)多個(gè)角色進(jìn)行多輪自我協(xié)作的認(rèn)知協(xié)同者。

在對(duì)比實(shí)驗(yàn)中,360°REA展示了在處理復(fù)雜任務(wù)時(shí)的優(yōu)勢(shì)。通過(guò)在兩個(gè)廣泛使用的復(fù)雜任務(wù)數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn),360°REA在多個(gè)評(píng)估指標(biāo)上均優(yōu)于這些基線模型。


人類評(píng)估與消融研究:360°REA的實(shí)際效果分析

為了進(jìn)一步驗(yàn)證360°REA生成答案的有效性,我們還進(jìn)行了人類評(píng)估。在創(chuàng)意寫(xiě)作任務(wù)中,我們?cè)u(píng)估了故事的連貫性和創(chuàng)造性;在旅行計(jì)劃制作任務(wù)中,我們?cè)u(píng)估了計(jì)劃的正確性和定制性。通過(guò)雇傭具有學(xué)士學(xué)位的受過(guò)教育的注釋者進(jìn)行雙盲注釋,我們發(fā)現(xiàn)360°REA在所有方面都優(yōu)于強(qiáng)大的多代理基線SPP和GPT-4。

此外,我們還進(jìn)行了消融研究,以驗(yàn)證360°REA中每個(gè)模塊的有效性。通過(guò)移除雙層經(jīng)驗(yàn)池或不進(jìn)行所有層次的評(píng)估,我們發(fā)現(xiàn)這些變體模型的性能下降,這表明使用雙層經(jīng)驗(yàn)池和進(jìn)行全層次評(píng)估的必要性。

通過(guò)這些實(shí)驗(yàn),我們可以看到360°REA不僅在自動(dòng)評(píng)估指標(biāo)上表現(xiàn)出色,而且在人類評(píng)估中也得到了驗(yàn)證,證明了其在處理復(fù)雜任務(wù)時(shí)的實(shí)際效果。


案例研究:360°REA在創(chuàng)意寫(xiě)作任務(wù)中的應(yīng)用

在探索360°REA(Reusable Experience Accumulation with 360° Assessment)的實(shí)際應(yīng)用中,我們選擇了創(chuàng)意寫(xiě)作任務(wù)作為案例研究的對(duì)象。創(chuàng)意寫(xiě)作任務(wù)的復(fù)雜性在于它不僅需要語(yǔ)言模型生成連貫和吸引人的故事,還要求故事內(nèi)容能夠與特定的問(wèn)題或要求相匹配。

在這個(gè)案例中,我們使用了Trivia Creative Writing數(shù)據(jù)集,該數(shù)據(jù)集包含100個(gè)樣本,每個(gè)樣本都要求生成一個(gè)故事來(lái)覆蓋所需的輸入。360°REA的應(yīng)用展示了其在處理此類任務(wù)時(shí)的有效性。通過(guò)360°性能評(píng)估和雙層經(jīng)驗(yàn)池的結(jié)合,360°REA能夠幫助語(yǔ)言模型代理(agents)從評(píng)估反饋中積累經(jīng)驗(yàn),并在類似任務(wù)中表現(xiàn)出更好的性能。

在一個(gè)具體的創(chuàng)意寫(xiě)作任務(wù)中,360°REA框架的應(yīng)用涉及到了多個(gè)代理的協(xié)作。首先,領(lǐng)導(dǎo)代理(leader agent)根據(jù)用戶輸入的查詢分配任務(wù)和角色給執(zhí)行代理(crew agents)。執(zhí)行代理根據(jù)指令生成響應(yīng),然后通過(guò)360°性能評(píng)估進(jìn)行多輪迭代,以此改進(jìn)他們的輸出。在這個(gè)過(guò)程中,執(zhí)行代理不僅接受來(lái)自同伴的評(píng)價(jià),還會(huì)從領(lǐng)導(dǎo)代理那里獲得全局視角的反饋。

通過(guò)這種方式,每個(gè)代理都能夠在完成子任務(wù)時(shí)獲得更細(xì)致的反饋,并將這些反饋轉(zhuǎn)化為本地經(jīng)驗(yàn)(local experience),同時(shí)領(lǐng)導(dǎo)代理也會(huì)從最終結(jié)果中總結(jié)出全局經(jīng)驗(yàn)(global experience)。這些經(jīng)驗(yàn)被存儲(chǔ)在雙層經(jīng)驗(yàn)池中,供未來(lái)類似任務(wù)的解決方案使用。

案例中的一個(gè)具體故事生成任務(wù)要求代理圍繞《塞爾達(dá)傳說(shuō)》編寫(xiě)一個(gè)短小精悍的故事,并且要融合對(duì)以下五個(gè)問(wèn)題的回答:哪位英國(guó)君主著名地說(shuō)過(guò)“我不希望打開(kāi)人們靈魂的窗戶”?哪位英國(guó)歌手在1986年電影《迷宮》中扮演了Jareth the Goblin King?1987年的電影《自由之聲》是關(guān)于哪位南非民權(quán)領(lǐng)袖的傳記?。磕奈挥?guó)女演員在1997年電影《無(wú)言以對(duì)》中扮演了Valerie?1959年、1960年和1964年在溫布爾登女子單打決賽中獲勝的巴西選手叫什么名字?

通過(guò)360°REA框架,代理能夠生成一個(gè)包含了所有必要元素的連貫故事,同時(shí)也展示了它在提高故事情節(jié)豐富性、邏輯性和流暢性方面的優(yōu)勢(shì)。這個(gè)案例不僅證明了360°REA在創(chuàng)意寫(xiě)作任務(wù)中的有效性,也展示了其在提升語(yǔ)言模型處理復(fù)雜任務(wù)能力方面的潛力。


結(jié)論與未來(lái)展望:360°REA的意義與發(fā)展方向

360°REA代表了一個(gè)重要的步驟,它通過(guò)引入全面的代理性能評(píng)估策略和雙層經(jīng)驗(yàn)池,顯著提升了基于大型語(yǔ)言模型(LLM)代理在處理復(fù)雜任務(wù)方面的能力。與僅側(cè)重于團(tuán)隊(duì)優(yōu)化或自我反思的現(xiàn)有方法不同,360°REA提供了多視角和細(xì)粒度的反饋,使代理能夠從自我、同伴和監(jiān)督級(jí)別獲得寶貴的見(jiàn)解。

通過(guò)在復(fù)雜任務(wù)數(shù)據(jù)集上的實(shí)驗(yàn),360°REA展示了其在與最先進(jìn)基準(zhǔn)相比時(shí)的卓越性能。通過(guò)強(qiáng)調(diào)全面評(píng)估和經(jīng)驗(yàn)積累的重要性,360°REA為基于LLM的多代理系統(tǒng)的發(fā)展提供了一個(gè)實(shí)用且有影響力的框架,為解決復(fù)雜任務(wù)提供了一種新的方向。

盡管360°REA已經(jīng)取得了顯著的成果,但我們認(rèn)識(shí)到未來(lái)的發(fā)展方向還包括將多模態(tài)信息(如圖像和視頻)融入到框架中??紤]到現(xiàn)有的多模態(tài)LLM能夠理解文本和多模態(tài)信息,我們的多代理框架可以適應(yīng)許多復(fù)雜任務(wù)中的多模態(tài)輸入。因此,我們計(jì)劃在未來(lái)的工作中將多模態(tài)信息納入我們的框架。


安全性與倫理考量:人工審核與多模態(tài)數(shù)據(jù)的融合展望

在構(gòu)建基于LLM的多代理協(xié)作框架時(shí),我們必須考慮到安全性和倫理問(wèn)題。盡管LLM在通過(guò)人類反饋進(jìn)行強(qiáng)化學(xué)習(xí)(RLHF)階段已經(jīng)與人類價(jià)值觀和偏好對(duì)齊,從而降低了生成不道德內(nèi)容的可能性,但現(xiàn)有的LLM仍然無(wú)法完全防止生成有害內(nèi)容。因此,多代理協(xié)作框架生成的答案在使用前仍需要進(jìn)一步的人類專家驗(yàn)證。

展望未來(lái),我們認(rèn)識(shí)到在多模態(tài)數(shù)據(jù)日益普及的今天,人工審核與多模態(tài)數(shù)據(jù)的融合將成為一個(gè)重要的研究方向。我們將探索如何結(jié)合人工智能和人類智慧,以確保生成的內(nèi)容不僅在技術(shù)上先進(jìn),而且在倫理上負(fù)責(zé)任。這將涉及到開(kāi)發(fā)新的工具和方法,以便更好地理解和管理多模態(tài)數(shù)據(jù)中的復(fù)雜性,同時(shí)確保我們的技術(shù)創(chuàng)新能夠?yàn)樯鐣?huì)帶來(lái)積極的影響。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容