大模型探秘–AI 感知世界:從對(duì)話到掌控的交互革命
引言
在當(dāng)今科技飛速發(fā)展的時(shí)代,AI大模型正以前所未有的速度改變著我們與世界交互的方式。這些模型不僅能夠理解和生成自然語(yǔ)言,還能通過多種途徑與外界進(jìn)行深度融合,從訓(xùn)練數(shù)據(jù)集的構(gòu)建到實(shí)際應(yīng)用中的各種交互場(chǎng)景,AI大模型展現(xiàn)出了強(qiáng)大的能力和潛力。本文將深入探討AI大模型與外界交互的幾個(gè)重要方面,包括大模型訓(xùn)練數(shù)據(jù)集、ChatGPT等對(duì)話應(yīng)用、知識(shí)庫(kù)和長(zhǎng)上下文、FunctionCall、ToolUse和MCP以及環(huán)境融合(AI操作操作系統(tǒng)、瀏覽器),揭示其背后的原理和應(yīng)用價(jià)值。
一、大模型訓(xùn)練數(shù)據(jù)集
(一)數(shù)據(jù)準(zhǔn)備的重要性
訓(xùn)練數(shù)據(jù)集的質(zhì)量是大模型的主要生命線之一,直接影響到模型的性能和效果。訓(xùn)練一個(gè)高性能且表現(xiàn)較好的模型是由多種因素決定的,其中高質(zhì)量的訓(xùn)練數(shù)據(jù)至關(guān)重要。然而在實(shí)際應(yīng)用中,很多人會(huì)選擇別人準(zhǔn)備好的訓(xùn)練數(shù)據(jù),或者忽視訓(xùn)練數(shù)據(jù)的準(zhǔn)備。例如,作為AI領(lǐng)域的領(lǐng)頭羊——OpenAI公司依然在為訓(xùn)練數(shù)據(jù)而頭疼。
(二)數(shù)據(jù)準(zhǔn)備的步驟
- 明確任務(wù):準(zhǔn)備數(shù)據(jù)集的第一步是明確需求,確定要訓(xùn)練的任務(wù)類型,如NLP自然語(yǔ)言處理任務(wù)或CV計(jì)算機(jī)視覺類型的圖像處理任務(wù)等,以及不同種類的不同任務(wù)風(fēng)格。
- 數(shù)據(jù)采集:數(shù)據(jù)來源包括公開數(shù)據(jù)集、自建數(shù)據(jù)集和領(lǐng)域數(shù)據(jù)。公開數(shù)據(jù)集可從一些網(wǎng)站獲?。蛔越〝?shù)據(jù)集可以通過爬蟲、搜索引擎等獲?。活I(lǐng)域數(shù)據(jù)如醫(yī)療、金融、保險(xiǎn)等非公開數(shù)據(jù),可通過與這些領(lǐng)域的專家或機(jī)構(gòu)合作獲取。同時(shí),要保證數(shù)據(jù)的多樣性,防止過擬合或欠擬合現(xiàn)象出現(xiàn),并且要注重?cái)?shù)據(jù)質(zhì)量,因?yàn)閿?shù)據(jù)質(zhì)量問題會(huì)直接影響模型訓(xùn)練結(jié)果。
- 數(shù)據(jù)清洗:這是數(shù)據(jù)準(zhǔn)備中比較復(fù)雜的一個(gè)步驟,需要去除數(shù)據(jù)中的各種影響因素,如缺失值處理、異常值檢測(cè)、噪聲過濾等,最終把數(shù)據(jù)整理成統(tǒng)一格式,便于下一步處理。
- 數(shù)據(jù)預(yù)處理:數(shù)據(jù)預(yù)處理的作用是把數(shù)據(jù)處理成模型能夠處理的格式,包括特征工程、樣本平衡、維度縮減等。它與數(shù)據(jù)清洗不同,數(shù)據(jù)清洗是去除干擾數(shù)據(jù),而預(yù)處理是將數(shù)據(jù)轉(zhuǎn)換為適合模型處理的形式。
- 數(shù)據(jù)標(biāo)注:在監(jiān)督訓(xùn)練中數(shù)據(jù)標(biāo)注必不可少,但在無監(jiān)督學(xué)習(xí)中則可有可無。目前數(shù)據(jù)標(biāo)注的主要方式有自動(dòng)標(biāo)注和人工標(biāo)注,自動(dòng)標(biāo)注是訓(xùn)練一個(gè)標(biāo)注模型來完成數(shù)據(jù)標(biāo)注。
- 數(shù)據(jù)拆分:將收集到的數(shù)據(jù)拆分為訓(xùn)練數(shù)據(jù)集、驗(yàn)證數(shù)據(jù)集和測(cè)試數(shù)據(jù)集,用于模型的訓(xùn)練、驗(yàn)證和測(cè)試。
(三)數(shù)據(jù)格式
常見的訓(xùn)練數(shù)據(jù)集格式有Alpaca和ShareGPT。Alpaca格式是基于Meta開源的LLaMA模型構(gòu)建的一種微調(diào)數(shù)據(jù)集格式,特別用于指令微調(diào),其數(shù)據(jù)格式提供了明確的任務(wù)描述、輸入和輸出三部分,結(jié)構(gòu)簡(jiǎn)單,易于理解,適合各種自然語(yǔ)言處理任務(wù)。ShareGPT格式來源于記錄ChatGPT與用戶對(duì)話的數(shù)據(jù)集,主要用于對(duì)話系統(tǒng)的訓(xùn)練,更側(cè)重于多輪對(duì)話數(shù)據(jù)的收集和組織,模擬用戶與AI之間的交互,結(jié)構(gòu)適合對(duì)話場(chǎng)景,適用于構(gòu)建和微調(diào)對(duì)話模型。
二、ChatGPT等對(duì)話應(yīng)用
(一)對(duì)話式交互的特點(diǎn)和優(yōu)勢(shì)
對(duì)話式交互就像兩個(gè)人對(duì)話一樣,可以是文字的,也可以是語(yǔ)音的。它傍上了人工智能這個(gè)“大腿”,成為了人工智能時(shí)代頗具潛力的交互方式。其優(yōu)點(diǎn)是降低用戶的學(xué)習(xí)成本,用戶不管用什么功能,只要用一套交互方式即可。例如,Operator是一個(gè)對(duì)話式的購(gòu)物app,以對(duì)話的方式了解用戶需求,向用戶推薦合適的商品;Quartz是個(gè)對(duì)話式的新聞app,把“看新聞”變成了“聊新聞”。
(二)ChatGPT的交互方式和應(yīng)用場(chǎng)景
ChatGPT是OpenAI開發(fā)的強(qiáng)大對(duì)話應(yīng)用,其中文版是為國(guó)內(nèi)用戶優(yōu)化的版本,具有更流暢的中文對(duì)話能力、免費(fèi)直連、多功能應(yīng)用等優(yōu)勢(shì)。用戶可以通過官網(wǎng)或國(guó)內(nèi)鏡像網(wǎng)站使用ChatGPT,官網(wǎng)需翻墻且注冊(cè)需海外手機(jī)號(hào),而鏡像網(wǎng)站無需翻墻,支持國(guó)內(nèi)郵箱或手機(jī)掃碼登錄,部分站點(diǎn)還提供免費(fèi)使用額度。ChatGPT支持多種模型,如GPT - 4、GPT - 3.5等,不同模型在賬戶類型、訪問權(quán)限、附件支持和主要功能等方面存在差異。其應(yīng)用場(chǎng)景廣泛,包括翻譯、寫作、編程、問答等,還可以通過插件擴(kuò)展功能,如Expedia可用于規(guī)劃旅行,Instacart可用于訂購(gòu)雜貨等。
(三)對(duì)話式交互的局限性
對(duì)話式交互也存在效率低的缺點(diǎn),尤其是在處理復(fù)雜功能時(shí)。傳統(tǒng)的交互方式會(huì)把內(nèi)容都擺在用戶面前,讓用戶一目了然,而對(duì)話式交互需要用戶跟著機(jī)器的節(jié)奏,一點(diǎn)點(diǎn)獲取內(nèi)容,且沒有區(qū)分重點(diǎn),導(dǎo)致速度慢,用戶還不能跳過,也不知道下一步是什么。目前,對(duì)話式交互適合點(diǎn)對(duì)點(diǎn)的溝通和簡(jiǎn)單的操作場(chǎng)景。
三、知識(shí)庫(kù)和長(zhǎng)上下文
(一)知識(shí)庫(kù)的構(gòu)建和作用
本地知識(shí)庫(kù)是存儲(chǔ)特定領(lǐng)域知識(shí)的數(shù)據(jù)集,能夠提供更為精確的信息和上下文,對(duì)于提高系統(tǒng)的智能性和效率至關(guān)重要。構(gòu)建本地知識(shí)庫(kù)通常圍繞檢索增強(qiáng)生成(RAG)框架展開,涵蓋前端交互、向量存儲(chǔ)、嵌入模型、推理大模型等核心模塊。RAG技術(shù)就像是大語(yǔ)言模型的“智能外掛”,通過檢索增強(qiáng)的方式,幫助模型在有限的上下文窗口中找到最相關(guān)的知識(shí)片段,從而生成更精準(zhǔn)、更有針對(duì)性的答案。其工作原理包括向量檢索和提示詞增強(qiáng),能夠有效減少無關(guān)信息的干擾,提升模型生成結(jié)果的質(zhì)量。
(二)長(zhǎng)上下文的需求和實(shí)現(xiàn)方法
隨著大模型的發(fā)展,長(zhǎng)上下文能力受到越來越多的關(guān)注。長(zhǎng)上下文的需求源于工具化場(chǎng)景(如閱讀論文、總結(jié)研報(bào)等)、個(gè)性化場(chǎng)景(如智能助手對(duì)用戶偏好和設(shè)置的長(zhǎng)期記憶)以及多輪對(duì)話場(chǎng)景。實(shí)現(xiàn)長(zhǎng)上下文的方法包括直接訓(xùn)練、線性插值等。直接訓(xùn)練需要使用長(zhǎng)文本數(shù)據(jù),但會(huì)面臨訓(xùn)練數(shù)據(jù)獲取和資源消耗大的問題;線性插值方法可以將基礎(chǔ)模型擴(kuò)展到更長(zhǎng)的上下文長(zhǎng)度,并在較少的訓(xùn)練步驟下達(dá)到較好的效果。此外,在多輪對(duì)話中,為了克服上下文窗口的限制,還可以采用截?cái)鄽v史記錄、摘要生成、記憶機(jī)制、外部存儲(chǔ)與動(dòng)態(tài)調(diào)用、基于主題的上下文聚焦等技術(shù)策略。
(三)上下文長(zhǎng)度和上下文窗口的概念
上下文長(zhǎng)度限制了模型一次性交互中能夠處理的最大token數(shù)量,包括用戶輸入的所有內(nèi)容和模型生成的輸出。上下文窗口是模型在生成每個(gè)新token時(shí)實(shí)際參考的前面內(nèi)容的范圍,有助于模型生成連貫且相關(guān)的文本。理解這兩個(gè)概念有助于更好地應(yīng)用和優(yōu)化模型在各種語(yǔ)言處理任務(wù)中的表現(xiàn)。
四、FunctionCall、ToolUse和MCP
(一)FunctionCall的定義和工作原理
FunctionCall是OpenAI在2023年6月13日推出的革命性功能,允許開發(fā)者通過自然語(yǔ)言指令觸發(fā)預(yù)定義函數(shù),實(shí)現(xiàn)大模型與現(xiàn)實(shí)世界系統(tǒng)的交互。其工作原理包括意圖識(shí)別、函數(shù)匹配、參數(shù)生成、執(zhí)行回調(diào)和結(jié)果整合。在傳統(tǒng)AI應(yīng)用中,存在數(shù)據(jù)時(shí)效性和輸出不可控的痛點(diǎn),F(xiàn)unctionCall通過結(jié)構(gòu)化參數(shù)傳遞和動(dòng)態(tài)函數(shù)匹配,完美解決了這些問題。例如,當(dāng)用戶詢問“查最近的未讀郵件”時(shí),模型可以調(diào)用郵件系統(tǒng)API來響應(yīng)。
(二)ToolUse的功能和應(yīng)用場(chǎng)景
ToolUse是Claude的一個(gè)特定功能,允許它與外部客戶端工具和函數(shù)進(jìn)行交互。Claude能夠通過結(jié)構(gòu)化輸出與外部工具進(jìn)行交互,用戶可以為Claude提供自定義工具集,使其能夠執(zhí)行更廣泛的任務(wù),如獲取實(shí)時(shí)數(shù)據(jù)、執(zhí)行計(jì)算和數(shù)據(jù)分析、內(nèi)容創(chuàng)作與編輯、語(yǔ)言翻譯、自動(dòng)化工作流程等。使用ToolUse功能可以顯著擴(kuò)展AI的能力,提升其處理各種復(fù)雜任務(wù)的能力。
(三)MCP的概念和優(yōu)勢(shì)
MCP(Model Context Protocol,模型上下文協(xié)議)起源于2024年11月25日Anthropic發(fā)布的文章。它可以被比喻為“AI擴(kuò)展塢”,作為一種AI模型的標(biāo)準(zhǔn)化接入?yún)f(xié)議,能夠顯著簡(jiǎn)化模型之間的集成。MCP采用客戶端 - 服務(wù)器架構(gòu),主要由MCP主機(jī)、MCP客戶端和MCP服務(wù)器組成,其核心構(gòu)建塊包括Roots、Sampling、Prompts、Resources和Tools。MCP的優(yōu)勢(shì)包括降低開發(fā)成本、增強(qiáng)模型能力、擴(kuò)展應(yīng)用范圍和提升安全性,在智能開發(fā)助手、醫(yī)療診斷、金融分析、多模態(tài)應(yīng)用等場(chǎng)景中有廣泛的應(yīng)用前景。
五、環(huán)境融合:AI操作操作系統(tǒng)、瀏覽器
(一)AI與操作系統(tǒng)的融合
隨著AI技術(shù)的發(fā)展,操作系統(tǒng)正逐漸與AI深度融合,成為更加智能的平臺(tái)。例如,Windows 11 AI PC具有“回顧”功能,能幫助用戶快速找到此前瀏覽過的內(nèi)容或處理過的任務(wù),還具備實(shí)時(shí)翻譯功能的實(shí)時(shí)字幕;谷歌即將推出的Android 15以AI為核心,Gemini將成為其基礎(chǔ)部分,具備即圈即搜、文件內(nèi)容總結(jié)、視頻內(nèi)容分析、AI詐騙電話檢測(cè)等功能;蘋果有望將一系列生成式AI功能加入即將推出的iOS 18中。大模型融入操作系統(tǒng)能夠?yàn)橛脩魩砣碌墓δ芎头?wù),推動(dòng)操作系統(tǒng)向AI原生的方向發(fā)展,實(shí)現(xiàn)智能化的文件搜索、語(yǔ)音助手功能和實(shí)時(shí)翻譯等功能。
(二)AI與瀏覽器的融合
- Browser - use:這是一個(gè)用于瀏覽器自動(dòng)化的Python庫(kù),旨在簡(jiǎn)化與瀏覽器的交互,自動(dòng)化執(zhí)行瀏覽器中的任務(wù)。它支持多個(gè)常見的瀏覽器,提供簡(jiǎn)潔的API,可實(shí)現(xiàn)任務(wù)自動(dòng)化,如自動(dòng)化填充表單、點(diǎn)擊按鈕、導(dǎo)航到特定頁(yè)面等,還能與其他工具結(jié)合使用,進(jìn)行端到端的自動(dòng)化測(cè)試。其應(yīng)用場(chǎng)景包括在線訂票、求職申請(qǐng)、數(shù)據(jù)收集與分析、自動(dòng)化測(cè)試、信息監(jiān)控等。
- Browser Use Web UI:是一個(gè)創(chuàng)新的開源項(xiàng)目,建立在browser - use核心框架之上,通過Gradio構(gòu)建了一個(gè)用戶友好的Web界面,使得AI代理能夠便捷地與瀏覽器進(jìn)行交互。該項(xiàng)目支持多種主流大語(yǔ)言模型,支持用戶使用自己的瀏覽器進(jìn)行操作,解決了重復(fù)登錄和認(rèn)證等問題,還提供了瀏覽器會(huì)話持久化、Docker容器化部署、VNC遠(yuǎn)程查看等功能。
- Puppeteer MCP:是一個(gè)基于Model Context Protocol的服務(wù)器,通過提供瀏覽器自動(dòng)化功能,讓開發(fā)人員能夠輕松與網(wǎng)頁(yè)交互。它將瀏覽器的操作能力封裝成一組簡(jiǎn)單的接口,核心基于Puppeteer,通過MCP協(xié)議進(jìn)一步擴(kuò)展其功能,實(shí)現(xiàn)更智能的自動(dòng)化操作,如瀏覽器導(dǎo)航與交互、表單填寫與選擇、屏幕截圖與監(jiān)控、JavaScript執(zhí)行等。
- Fellou:是中國(guó)95后團(tuán)隊(duì)發(fā)布的首個(gè)Agentic Browser,基于智能代理架構(gòu),整合了意圖理解、任務(wù)規(guī)劃與自動(dòng)化執(zhí)行能力。它突破了傳統(tǒng)瀏覽器的限制,能夠讀懂用戶的需求,自動(dòng)完成復(fù)雜任務(wù),實(shí)現(xiàn)從“被動(dòng)響應(yīng)指令”到“主動(dòng)閉環(huán)交付”的認(rèn)知躍遷,成為連接數(shù)字生態(tài)的“超級(jí)終端”,完全解放用戶雙手,讓復(fù)雜任務(wù)在毫無干預(yù)下自動(dòng)完成。
結(jié)論
AI大模型與外界的交互是一個(gè)多維度、多層次的過程,從訓(xùn)練數(shù)據(jù)集的構(gòu)建到各種應(yīng)用場(chǎng)景的實(shí)現(xiàn),每一個(gè)環(huán)節(jié)都展現(xiàn)了AI大模型的強(qiáng)大能力和無限潛力。大模型訓(xùn)練數(shù)據(jù)集為模型提供了知識(shí)基礎(chǔ),ChatGPT等對(duì)話應(yīng)用改變了人機(jī)交互的方式,知識(shí)庫(kù)和長(zhǎng)上下文提升了模型的理解和處理能力,F(xiàn)unctionCall、ToolUse和MCP實(shí)現(xiàn)了模型與外部系統(tǒng)的高效交互,環(huán)境融合(AI操作操作系統(tǒng)、瀏覽器)則進(jìn)一步拓展了模型的應(yīng)用范圍。隨著技術(shù)的不斷發(fā)展,AI大模型與外界的交互將更加深入和廣泛,為我們的生活和工作帶來更多的便利和創(chuàng)新。我們有理由相信,在未來,AI大模型將在更多領(lǐng)域發(fā)揮重要作用,推動(dòng)科技和社會(huì)的不斷進(jìn)步。