理解AI智能體的四大能力

一:感知能力

階段1、單純的大模型是依靠海量的文本數(shù)據(jù)訓(xùn)練出啦的,基礎(chǔ)的感知方式就是接收用戶輸入的文本

階段2、間接多模態(tài)感知:利用OCR這種中間工具,把圖片、PDF等轉(zhuǎn)化為文本輸入給大模型

階段3、端到端視覺感知:第2種方式有明顯的問題比如:識別不到圖片的背景顏色、聲音的語氣語調(diào);GPT4有了Vision版本開啟了多模態(tài)模型的初階狀態(tài)

階段4、端到端多模態(tài)感知:能夠理解聲音中語氣、語調(diào)以及圖片細(xì)節(jié)等信息,甚至能視頻 時序的多模態(tài)大模型 此時大模型有了其:耳朵、眼睛、嘴巴都有啦

二:規(guī)劃能力

Agent規(guī)劃能力演變:

階段1、初步規(guī)劃能力的萌芽(CoT與ToT)

COT思維鏈模式:讓模型在給出最終答案之前,先主動去拆解一下問題

比如:第一步考慮該干什么,第二步再干什么…最后再把以上這些步驟綜合起來得出結(jié)論

思維樹:讓大模型想好幾種不同的思路,選最好的那個

階段2、工作流和多智能體架構(gòu):各個AI各司其職、協(xié)作來完成任務(wù) 人為干預(yù)(Workflow和多智能體架構(gòu))———治標(biāo)不治本

階段3、專門推理模型(OpenAI的O1和R1)

讓大模型內(nèi)化的學(xué)會了在每一次回答問題之前都有一個自主的推理過程

階段4、模型即Agent;端到端訓(xùn)練的“模型即Agent”(DeepResearch)

模型自主決定,什么時候需要去搜一下信息,什么時候應(yīng)該整理一下信息,什么時候應(yīng)該進(jìn)入深度的搜索…再分析總結(jié),整個過程完全是它自己控制的,并不是依賴預(yù)先設(shè)計好的工作流或者是人為指定的步驟

搜索和閱讀是怎么來的呢?

三:行動能力

1、監(jiān)督微調(diào)(SFT),提供一些示例做監(jiān)督微調(diào),讓模型學(xué)會了去調(diào)用工具

監(jiān)督微調(diào):通過人工標(biāo)注的高質(zhì)量數(shù)據(jù)來訓(xùn)練預(yù)訓(xùn)練大模型,使其更好的完成特定任務(wù)

Function Calling(大模型函數(shù)調(diào)用)——插件功能、代碼解釋器等所依賴的就是自己有不少的API工具

2、直接學(xué)人類用電腦

Authropic發(fā)布了Computer use,訓(xùn)練大模型從視覺上就能看懂這個電腦屏幕,可以點擊和操作電腦(原理:直接去訓(xùn)練模型來理解屏幕像素的一個能力)

如果只讓大模型去控制瀏覽器會更好搞定Brower use,用傳統(tǒng)的網(wǎng)頁自動化工具(Play white)間接讓模型控制瀏覽器的能力 比如:OpenAI的Operator

3、MCP(Model Context Protocal) 模型上下文協(xié)議,由Authropic推出;

簡單來說,原本大模型調(diào)用API是一個工具就需要單獨配一把鑰匙對著一個鎖(鑰匙和鎖還需要自己造),MCP就相當(dāng)于一個多孔Type-C轉(zhuǎn)接頭,要求所有人都按這個規(guī)格來做接口,用什么工具,直接往上插就行

簡單來說MCP就是AI大模型的標(biāo)準(zhǔn)化工具箱,大模型可以利用這些工具與外界互動,獲取信息并且完成具體任務(wù)

AI與外部工具的中間層,代替人類訪問并且操作外部工具

每個MCP Server都專精于一類的工作,比如:有的負(fù)責(zé)讀寫本地文件,有的負(fù)責(zé)讀寫瀏覽器,有的操作Git倉庫

MCP通常就是運(yùn)行在本地的一段nodejs或Python程序,大模型通過操作系統(tǒng)的stdio也就是標(biāo)準(zhǔn)輸入通道調(diào)用某個MCP Server

MCP接口請求后,通過代碼功能或者使用API請求訪問外部工具完成任務(wù)

MCP其實與function call功能相似,其最大優(yōu)點是整合了之前各家大模型不同的function call的標(biāo)準(zhǔn),整合成統(tǒng)一的標(biāo)準(zhǔn)協(xié)議

包括OpenAI剛發(fā)布的Agent SDK以及新的response API,并且還內(nèi)置了OpenAI自己開發(fā)的工具

四:記憶能力

LLM早期的上下文非常短(或者說短期記憶力很差),光上下文長度不夠,有時候還是希望永遠(yuǎn)不要忘記,所以還有另一個方案叫RAG(Retriveal-Augmentd Generation)檢索增強(qiáng)生成

簡單理解就是把大模型需要記憶的知識,事先存到一個外部的一個向量數(shù)據(jù)庫里,每次需要的時候,再去數(shù)據(jù)庫里找有沒有相關(guān)的內(nèi)容

記憶模塊:Agent需要在中途對前面發(fā)生的事做一定的總結(jié),存起來,自己偶爾去回顧一下,這樣就形成了一個記憶模塊

NSA(Sparse Attention Mechanism)稀疏注意力機(jī)制;是一個用于超快長上下文訓(xùn)練和推斷的本地可訓(xùn)練的稀疏注意力機(jī)制,并且還具有與硬件對齊的特點。論文地址

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容