典型智能體框架介紹及實戰(zhàn)

原文地址:https://alphahinex.github.io/2024/08/18/popular-agent-frameworks/


description: "介紹了智能體及當(dāng)前流行的智能體框架,并提供了幾個實例"
date: 2024.08.18 10:34
categories:
- AI
tags: [AI Agent, AI]
keywords: Agent, Dify, Coze, LLM, workflow, RAG, FastGPT, DB-GPT, bisheng, ModelScope-Agent


對于智能體框架的理解

什么是智能體?

智能體,英文名稱為 Agent,原意為代理人,當(dāng)前語境下特指基于大語言模型的人工智能代理(LLM-powered agents、LLM based agents)。

關(guān)于智能體,目前還沒有一個被廣泛接受的定義。

“An autonomous agent is a system situated within and a part of an environment that senses that environment and acts on it, over time, in pursuit of its own agenda and so as to effect what it senses in the future.”

—— Franklin and Graesser (1997)

自主智能體是一個系統(tǒng),它位于環(huán)境內(nèi)部并是環(huán)境的一部分,能夠感知該環(huán)境并在其中行動。隨著時間的推移,它根據(jù)自身的議程采取行動,以影響它在未來感知到的環(huán)境。

A Survey on Large Language Model based Autonomous Agents

agent1

人民大學(xué)的論文《A Survey on Large Language Model based Autonomous Agents》將智能體架構(gòu)分為五部分:

  1. 大語言模型(LLM)作為智能體的大腦;
  2. Profile 模塊:用于智能體的自我認知和角色設(shè)定;
  3. Memory 模塊:記憶模塊,用來存儲、獲取、檢索信息;
  4. Planning 模塊:制定計劃,可根據(jù)過去的行為與目標動態(tài)規(guī)劃下一步的行動;
  5. Action 模塊:執(zhí)行模塊,執(zhí)行智能體的具體決策。

The Rise and Potential of Large Language Model Based Agents: A Survey

agent2

復(fù)旦大學(xué)的論文《The Rise and Potential of Large Language Model Based Agents: A Survey》認為智能體由三部分組成:

  1. Brain:大腦,負責(zé)自然語言理解及交互、知識存儲及應(yīng)用、長短期記憶及檢索、推理及計劃、遷移與泛化能力;
  2. Perception:感知,包括對文字、圖像及音視頻等輸入的感知;
  3. Action:行動,包括自然語言對話、工具的運用、具身行為等。

Introduction to LLM Agents

agent3

Nvidia 技術(shù)博客《Introduction to LLM Agents》認為一個智能體有四個關(guān)鍵組件:

  1. Agent Core:包括智能體的整體目標、可用工具、如何使用不同計劃模塊的解釋、相關(guān)的記憶、智能體角色;
  2. Memory module:記憶模塊,包括短期記憶和長期記憶;
  3. Tools:一組可執(zhí)行的工作流程、API 等供智能體使用的工具集;
  4. Planning module:計劃模塊,負責(zé)任務(wù)和問題分解、反思和改善。

簡單概括

智能體 = LLM + 記憶 + 工具 + 流程

什么是智能體框架?

抽象構(gòu)建智能體應(yīng)用的通用過程,

封裝不變步驟,

提供便捷定制及調(diào)整智能體各部分組件方式的智能體構(gòu)建工具

并提供獨立、內(nèi)嵌、API 等形式的智能體能力發(fā)布訪問形式。

為什么要用智能體框架?

快速構(gòu)建智能體應(yīng)用。

智能體框架的分類

按如下兩個維度,對目前我們評估過的智能體框架進行分類:

  1. 開源(可私有化部署)/ 閉源(公網(wǎng)服務(wù))
  2. 基于編碼 / 基于流程圖
agents
開源框架 GitHub Star 數(shù)量 貢獻者數(shù)量
Dify 42k 377
FastGPT 16.3k 84
DB-GPT 13k 94
bisheng 8.5k 24
ModelScope-Agent 2.5k 40

統(tǒng)計日期:2024 年 08 月 17 日

基于流程圖的智能體框架普遍使用流程

1. 構(gòu)建知識庫

準備用于擴展 LLM 的知識內(nèi)容,導(dǎo)入到知識庫中,實現(xiàn)檢索增強生成(RAG);

2. 流程編排

通過預(yù)先編排好的流程,彌補開源大語言模型任務(wù)分解編排能力不足的缺陷;或設(shè)定領(lǐng)域業(yè)務(wù)流程;

3. 調(diào)試

即時查驗智能體能力,并能夠追溯回復(fù)內(nèi)容的來源和耗時等;

4. 發(fā)布

將構(gòu)建好的智能體應(yīng)用,發(fā)布為獨立應(yīng)用、內(nèi)嵌頁面或 API 接口等形式。

實例

RAG —— 博客內(nèi)容問答

在這些智能體框架/平臺中,構(gòu)建一個簡單的 RAG 應(yīng)用是非常方便的。將文檔/知識導(dǎo)入到知識庫,等待平臺完成分段索引后,即可進行問答。

以 Dify 和 Coze 為例,將本博客的 markdown 文檔 導(dǎo)入到知識庫后,可以看到智能體回答的內(nèi)容更加準確了。

Dify 內(nèi)網(wǎng)應(yīng)用對比效果

rag-dify

Coze 發(fā)布至公眾號對比效果

rag-coze

Workflow —— 多輪對話補全參數(shù)

在與智能體的交互中,可能需要通過多輪對話的方式,由智能體引導(dǎo)用戶以問答的形式提供必要的信息,進而完成后續(xù)的任務(wù)。

Dify 內(nèi)網(wǎng)應(yīng)用效果

在 Dify 最近發(fā)布的 0.7.0 版本中,增加了 會話變量 & 變量賦值節(jié)點,可以實現(xiàn)門診導(dǎo)診類流程:

流程的 DSL 可在這里下載:門診導(dǎo)診.yml。

Coze 發(fā)布至公眾號效果

在 Coze 中,通過工作流的 問答節(jié)點,可以設(shè)置需要詢問的內(nèi)容。多個問答節(jié)點可以實現(xiàn)多輪對話效果:

workflow-coze
workflow-wechat
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容