亚洲日韩av一区,中文字幕在线有码

一：感知能力

階段1、單純的大模型是依靠海量的文本數(shù)據(jù)訓(xùn)練出啦的，基礎(chǔ)的感知方式就是接收用戶輸入的文本

階段2、間接多模態(tài)感知：利用OCR這種中間工具，把圖片、PDF等轉(zhuǎn)化為文本輸入給大模型

階段3、端到端視覺感知：第2種方式有明顯的問題比如：識別不到圖片的背景顏色、聲音的語氣語調(diào)；GPT4有了Vision版本開啟了多模態(tài)模型的初階狀態(tài)

階段4、端到端多模態(tài)感知：能夠理解聲音中語氣、語調(diào)以及圖片細(xì)節(jié)等信息，甚至能視頻時序的多模態(tài)大模型此時大模型有了其：耳朵、眼睛、嘴巴都有啦

二：規(guī)劃能力

Agent規(guī)劃能力演變：

階段1、初步規(guī)劃能力的萌芽（CoT與ToT）

COT思維鏈模式：讓模型在給出最終答案之前，先主動去拆解一下問題

比如：第一步考慮該干什么，第二步再干什么…最后再把以上這些步驟綜合起來得出結(jié)論

思維樹：讓大模型想好幾種不同的思路，選最好的那個

階段2、工作流和多智能體架構(gòu)：各個AI各司其職、協(xié)作來完成任務(wù) 人為干預(yù)（Workflow和多智能體架構(gòu)）———治標(biāo)不治本

階段3、專門推理模型（OpenAI的O1和R1）

讓大模型內(nèi)化的學(xué)會了在每一次回答問題之前都有一個自主的推理過程

階段4、模型即Agent；端到端訓(xùn)練的“模型即Agent”（DeepResearch）

模型自主決定，什么時候需要去搜一下信息，什么時候應(yīng)該整理一下信息，什么時候應(yīng)該進(jìn)入深度的搜索…再分析總結(jié)，整個過程完全是它自己控制的，并不是依賴預(yù)先設(shè)計好的工作流或者是人為指定的步驟

搜索和閱讀是怎么來的呢？

三：行動能力

1、監(jiān)督微調(diào)（SFT），提供一些示例做監(jiān)督微調(diào)，讓模型學(xué)會了去調(diào)用工具

監(jiān)督微調(diào)：通過人工標(biāo)注的高質(zhì)量數(shù)據(jù)來訓(xùn)練預(yù)訓(xùn)練大模型，使其更好的完成特定任務(wù)

Function Calling（大模型函數(shù)調(diào)用）——插件功能、代碼解釋器等所依賴的就是自己有不少的API工具

2、直接學(xué)人類用電腦

Authropic發(fā)布了Computer use，訓(xùn)練大模型從視覺上就能看懂這個電腦屏幕，可以點擊和操作電腦（原理：直接去訓(xùn)練模型來理解屏幕像素的一個能力）

如果只讓大模型去控制瀏覽器會更好搞定Brower use，用傳統(tǒng)的網(wǎng)頁自動化工具（Play white）間接讓模型控制瀏覽器的能力比如：OpenAI的Operator

3、MCP（Model Context Protocal）模型上下文協(xié)議，由Authropic推出；

簡單來說，原本大模型調(diào)用API是一個工具就需要單獨配一把鑰匙對著一個鎖（鑰匙和鎖還需要自己造），MCP就相當(dāng)于一個多孔Type-C轉(zhuǎn)接頭，要求所有人都按這個規(guī)格來做接口，用什么工具，直接往上插就行

簡單來說MCP就是AI大模型的標(biāo)準(zhǔn)化工具箱，大模型可以利用這些工具與外界互動，獲取信息并且完成具體任務(wù)

AI與外部工具的中間層，代替人類訪問并且操作外部工具

每個MCP Server都專精于一類的工作，比如：有的負(fù)責(zé)讀寫本地文件，有的負(fù)責(zé)讀寫瀏覽器，有的操作Git倉庫

MCP通常就是運(yùn)行在本地的一段nodejs或Python程序，大模型通過操作系統(tǒng)的stdio也就是標(biāo)準(zhǔn)輸入通道調(diào)用某個MCP Server

MCP接口請求后，通過代碼功能或者使用API請求訪問外部工具完成任務(wù)

MCP其實與function call功能相似，其最大優(yōu)點是整合了之前各家大模型不同的function call的標(biāo)準(zhǔn)，整合成統(tǒng)一的標(biāo)準(zhǔn)協(xié)議

包括OpenAI剛發(fā)布的Agent SDK以及新的response API，并且還內(nèi)置了OpenAI自己開發(fā)的工具

四：記憶能力

LLM早期的上下文非常短（或者說短期記憶力很差），光上下文長度不夠，有時候還是希望永遠(yuǎn)不要忘記，所以還有另一個方案叫RAG（Retriveal-Augmentd Generation）檢索增強(qiáng)生成

簡單理解就是把大模型需要記憶的知識，事先存到一個外部的一個向量數(shù)據(jù)庫里，每次需要的時候，再去數(shù)據(jù)庫里找有沒有相關(guān)的內(nèi)容

記憶模塊：Agent需要在中途對前面發(fā)生的事做一定的總結(jié)，存起來，自己偶爾去回顧一下，這樣就形成了一個記憶模塊

NSA（Sparse Attention Mechanism）稀疏注意力機(jī)制；是一個用于超快長上下文訓(xùn)練和推斷的本地可訓(xùn)練的稀疏注意力機(jī)制，并且還具有與硬件對齊的特點。論文地址

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av