一:感知能力
階段1、單純的大模型是依靠海量的文本數(shù)據(jù)訓(xùn)練出啦的,基礎(chǔ)的感知方式就是接收用戶輸入的文本
階段2、間接多模態(tài)感知:利用OCR這種中間工具,把圖片、PDF等轉(zhuǎn)化為文本輸入給大模型
階段3、端到端視覺感知:第2種方式有明顯的問題比如:識別不到圖片的背景顏色、聲音的語氣語調(diào);GPT4有了Vision版本開啟了多模態(tài)模型的初階狀態(tài)
階段4、端到端多模態(tài)感知:能夠理解聲音中語氣、語調(diào)以及圖片細(xì)節(jié)等信息,甚至能視頻 時序的多模態(tài)大模型 此時大模型有了其:耳朵、眼睛、嘴巴都有啦
二:規(guī)劃能力
Agent規(guī)劃能力演變:
階段1、初步規(guī)劃能力的萌芽(CoT與ToT)
COT思維鏈模式:讓模型在給出最終答案之前,先主動去拆解一下問題
比如:第一步考慮該干什么,第二步再干什么…最后再把以上這些步驟綜合起來得出結(jié)論
思維樹:讓大模型想好幾種不同的思路,選最好的那個
階段2、工作流和多智能體架構(gòu):各個AI各司其職、協(xié)作來完成任務(wù) 人為干預(yù)(Workflow和多智能體架構(gòu))———治標(biāo)不治本
階段3、專門推理模型(OpenAI的O1和R1)
讓大模型內(nèi)化的學(xué)會了在每一次回答問題之前都有一個自主的推理過程
階段4、模型即Agent;端到端訓(xùn)練的“模型即Agent”(DeepResearch)
模型自主決定,什么時候需要去搜一下信息,什么時候應(yīng)該整理一下信息,什么時候應(yīng)該進(jìn)入深度的搜索…再分析總結(jié),整個過程完全是它自己控制的,并不是依賴預(yù)先設(shè)計好的工作流或者是人為指定的步驟
搜索和閱讀是怎么來的呢?
三:行動能力
1、監(jiān)督微調(diào)(SFT),提供一些示例做監(jiān)督微調(diào),讓模型學(xué)會了去調(diào)用工具
監(jiān)督微調(diào):通過人工標(biāo)注的高質(zhì)量數(shù)據(jù)來訓(xùn)練預(yù)訓(xùn)練大模型,使其更好的完成特定任務(wù)
Function Calling(大模型函數(shù)調(diào)用)——插件功能、代碼解釋器等所依賴的就是自己有不少的API工具
2、直接學(xué)人類用電腦
Authropic發(fā)布了Computer use,訓(xùn)練大模型從視覺上就能看懂這個電腦屏幕,可以點擊和操作電腦(原理:直接去訓(xùn)練模型來理解屏幕像素的一個能力)
如果只讓大模型去控制瀏覽器會更好搞定Brower use,用傳統(tǒng)的網(wǎng)頁自動化工具(Play white)間接讓模型控制瀏覽器的能力 比如:OpenAI的Operator
3、MCP(Model Context Protocal) 模型上下文協(xié)議,由Authropic推出;
簡單來說,原本大模型調(diào)用API是一個工具就需要單獨配一把鑰匙對著一個鎖(鑰匙和鎖還需要自己造),MCP就相當(dāng)于一個多孔Type-C轉(zhuǎn)接頭,要求所有人都按這個規(guī)格來做接口,用什么工具,直接往上插就行
簡單來說MCP就是AI大模型的標(biāo)準(zhǔn)化工具箱,大模型可以利用這些工具與外界互動,獲取信息并且完成具體任務(wù)
AI與外部工具的中間層,代替人類訪問并且操作外部工具
每個MCP Server都專精于一類的工作,比如:有的負(fù)責(zé)讀寫本地文件,有的負(fù)責(zé)讀寫瀏覽器,有的操作Git倉庫
MCP通常就是運(yùn)行在本地的一段nodejs或Python程序,大模型通過操作系統(tǒng)的stdio也就是標(biāo)準(zhǔn)輸入通道調(diào)用某個MCP Server
MCP接口請求后,通過代碼功能或者使用API請求訪問外部工具完成任務(wù)
MCP其實與function call功能相似,其最大優(yōu)點是整合了之前各家大模型不同的function call的標(biāo)準(zhǔn),整合成統(tǒng)一的標(biāo)準(zhǔn)協(xié)議
包括OpenAI剛發(fā)布的Agent SDK以及新的response API,并且還內(nèi)置了OpenAI自己開發(fā)的工具
四:記憶能力
LLM早期的上下文非常短(或者說短期記憶力很差),光上下文長度不夠,有時候還是希望永遠(yuǎn)不要忘記,所以還有另一個方案叫RAG(Retriveal-Augmentd Generation)檢索增強(qiáng)生成
簡單理解就是把大模型需要記憶的知識,事先存到一個外部的一個向量數(shù)據(jù)庫里,每次需要的時候,再去數(shù)據(jù)庫里找有沒有相關(guān)的內(nèi)容
記憶模塊:Agent需要在中途對前面發(fā)生的事做一定的總結(jié),存起來,自己偶爾去回顧一下,這樣就形成了一個記憶模塊
NSA(Sparse Attention Mechanism)稀疏注意力機(jī)制;是一個用于超快長上下文訓(xùn)練和推斷的本地可訓(xùn)練的稀疏注意力機(jī)制,并且還具有與硬件對齊的特點。論文地址