AI 智能體簡(jiǎn)史(萬(wàn)字總結(jié))
一個(gè)專注于AI領(lǐng)域的開源組織,匯聚了眾多優(yōu)秀學(xué)習(xí)者,使命-for the learner,和學(xué)習(xí)者一起成長(zhǎng)。
智能體是今年非常火的方向,2025年稱為“智能體元年”。為了便于大家更系統(tǒng)的入門和學(xué)習(xí),最近,我們會(huì)為大家分享關(guān)于AI智能體的實(shí)用內(nèi)容:[《Hello-Agents》項(xiàng)目正式發(fā)布,一起從零學(xué)習(xí)智能體!
第一篇:關(guān)于智能體(AI Agent)入門,一篇超詳細(xì)的總結(jié)!
在學(xué)習(xí)任何一個(gè)新學(xué)科或新領(lǐng)域時(shí),不妨先花些時(shí)間了解它的發(fā)展史。為了深刻理解智能體為何呈現(xiàn)出如今的形態(tài),以及其核心設(shè)計(jì)思想的由來,本文將回溯歷史:從人工智能領(lǐng)域的古典時(shí)代出發(fā),探尋最早的“智能”如何在邏輯與符號(hào)的規(guī)則體系中被定義;繼而見證從單一、集中的智能模型到分布式、協(xié)作式智能思想的重大轉(zhuǎn)折;最終理解“學(xué)習(xí)”范式如何徹底改變了智能體獲取能力的方式,并催生出我們今天所見的現(xiàn)代智能體。
]
圖 2.1 AI智能體的演進(jìn)階梯
如圖2.1所示,每一個(gè)新范式的出現(xiàn),都是為了解決上一代范式的核心“痛點(diǎn)”或根本局限。而新的解決方案在帶來能力飛躍的同時(shí),也引入了新的、在當(dāng)時(shí)難以克服的“局限”,而這又為下一代范式的誕生埋下了伏筆。理解這一“問題驅(qū)動(dòng)”的迭代歷程,能幫助我們更深刻地把握現(xiàn)代智能體技術(shù)選型背后的深層原因與歷史必然性。
2.1 基于符號(hào)與邏輯的早期智能體
人工智能領(lǐng)域的早期探索,深受數(shù)理邏輯和計(jì)算機(jī)科學(xué)基本原理的影響。在那個(gè)時(shí)代,研究者們普遍持有一種信念:人類的智能,尤其是邏輯推理能力,可以被形式化的符號(hào)體系所捕捉和復(fù)現(xiàn)。這一核心思想催生了人工智能的第一個(gè)重要范式——符號(hào)主義(Symbolicism),也被稱為“邏輯AI”或“傳統(tǒng)AI”。
在符號(hào)主義看來,智能行為的核心是基于一套明確規(guī)則對(duì)符號(hào)進(jìn)行操作。因此,一個(gè)智能體可以被視為一個(gè)物理符號(hào)系統(tǒng):它通過內(nèi)部的符號(hào)來表示外部世界,并通過邏輯推理來規(guī)劃行動(dòng)。這個(gè)時(shí)代的智能體,其“智慧”完全來源于設(shè)計(jì)者預(yù)先編碼的知識(shí)庫(kù)和推理規(guī)則,而非通過自主學(xué)習(xí)獲得。
2.1.1 物理符號(hào)系統(tǒng)假說
符號(hào)主義時(shí)代的理論根據(jù),是1976年由艾倫·紐厄爾(Allen Newell)和赫伯特·西蒙(Herbert A. Simon)共同提出的物理符號(hào)系統(tǒng)假說(PhysicalSymbol SystemHypothesis, PSSH)[1]。這兩位圖靈獎(jiǎng)得主通過這一假說,為在計(jì)算機(jī)上實(shí)現(xiàn)通用人工智能提供了理論指導(dǎo)和判定標(biāo)準(zhǔn)。
該假說包含兩個(gè)核心論斷:
- 充分性論斷:任何一個(gè)物理符號(hào)系統(tǒng),都具備產(chǎn)生通用智能行為的充分手段。
- 必要性論斷:任何一個(gè)能夠展現(xiàn)通用智能行為的系統(tǒng),其本質(zhì)必然是一個(gè)物理符號(hào)系統(tǒng)。
這里的物理符號(hào)系統(tǒng)指的是一個(gè)能夠在物理世界中存在的系統(tǒng),它由一組可被區(qū)分的符號(hào)和一系列對(duì)這些符號(hào)進(jìn)行操作的過程組成,其構(gòu)成元素如圖2.2所示。這些符號(hào)可以組合成更復(fù)雜的結(jié)構(gòu)(例如表達(dá)式),而過程則可以創(chuàng)建、修改、復(fù)制和銷毀這些符號(hào)結(jié)構(gòu)。

圖 2.2 物理符號(hào)系統(tǒng)的構(gòu)成元素
簡(jiǎn)而言之,PSSH大膽地宣稱:智能的本質(zhì),就是符號(hào)的計(jì)算與處理。
這個(gè)假說具有深遠(yuǎn)的影響。它將對(duì)人類心智這一模糊、復(fù)雜的哲學(xué)問題的研究,轉(zhuǎn)化為了一個(gè)可以在計(jì)算機(jī)上進(jìn)行工程化實(shí)現(xiàn)的具體問題。它為早期人工智能研究者注入了強(qiáng)大的信心,即只要我們能找到正確的方式來表示知識(shí)并設(shè)計(jì)出有效的推理算法,就一定能創(chuàng)造出與人類媲美的機(jī)器智能。整個(gè)符號(hào)主義時(shí)代的研究,從專家系統(tǒng)到自動(dòng)規(guī)劃,幾乎都是在這一假說的指引下展開的。
2.1.2 專家系統(tǒng)
在物理符號(hào)系統(tǒng)假說的直接影響下,專家系統(tǒng)(Expert System)成為符號(hào)主義時(shí)代最重要、最成功的應(yīng)用成果。專家系統(tǒng)的核心目標(biāo),是模擬人類專家在特定領(lǐng)域內(nèi)解決問題的能力。它通過將專家的知識(shí)和經(jīng)驗(yàn)編碼成計(jì)算機(jī)程序,使其能夠在面對(duì)相似問題時(shí),給出媲美甚至超越人類專家的結(jié)論或建議。
一個(gè)典型的專家系統(tǒng)通常由知識(shí)庫(kù)、推理機(jī)、用戶界面等幾個(gè)核心部分構(gòu)成,其通用架構(gòu)如圖2.3所示。

圖 2.3 專家系統(tǒng)的通用架構(gòu)
這種架構(gòu)清晰地體現(xiàn)了知識(shí)與推理相分離的設(shè)計(jì)思想,是符號(hào)主義AI的重要特征。
知識(shí)庫(kù)與推理機(jī)
專家系統(tǒng)的“智能”主要源于其兩大核心組件:知識(shí)庫(kù)和推理機(jī)。
知識(shí)庫(kù)(Knowledge Base):這是專家系統(tǒng)的知識(shí)存儲(chǔ)中心,用于存放領(lǐng)域?qū)<业闹R(shí)和經(jīng)驗(yàn)。知識(shí)表示(Knowledge Representation)是構(gòu)建知識(shí)庫(kù)的關(guān)鍵。在專家系統(tǒng)中,最常用的一種知識(shí)表示方法是產(chǎn)生式規(guī)則(Production Rules),即一系列“IF-THEN”形式的條件語(yǔ)句。例如:IF 病人有發(fā)燒癥狀 AND 咳嗽 THEN 可能患有呼吸道感染。這些規(guī)則將特定情境(IF部分,條件)與相應(yīng)的結(jié)論或行動(dòng)(THEN部分,結(jié)論)關(guān)聯(lián)起來。一個(gè)復(fù)雜的專家系統(tǒng)可能包含成百上千條這樣的規(guī)則,共同構(gòu)成一個(gè)龐大的知識(shí)網(wǎng)絡(luò)。
推理機(jī)(Inference Engine):推理機(jī)是專家系統(tǒng)的核心計(jì)算引擎。它是一個(gè)通用的程序,其任務(wù)是根據(jù)用戶提供的事實(shí),在知識(shí)庫(kù)中尋找并應(yīng)用相關(guān)的規(guī)則,從而推導(dǎo)出新的結(jié)論。推理機(jī)的工作方式主要有兩種:
正向鏈(Forward Chaining):從已知事實(shí)出發(fā),不斷匹配規(guī)則的IF部分,觸發(fā)THEN部分的結(jié)論,并將新結(jié)論加入事實(shí)庫(kù),直到最終推導(dǎo)出目標(biāo)或無新規(guī)則可匹配。這是一種“數(shù)據(jù)驅(qū)動(dòng)”的推理方式。
反向鏈(Backward Chaining):從一個(gè)假設(shè)的目標(biāo)(比如“病人是否患有肺炎”)出發(fā),尋找能夠推導(dǎo)出該目標(biāo)的規(guī)則,然后將該規(guī)則的IF部分作為新的子目標(biāo),如此遞歸下去,直到所有子目標(biāo)都能被已知事實(shí)所證明。這是一種“目標(biāo)驅(qū)動(dòng)”的推理方式。
應(yīng)用案例與分析:MYCIN系統(tǒng)
MYCIN是歷史上最著名、最具影響力的專家系統(tǒng)之一,由斯坦福大學(xué)于20世紀(jì)70年代開發(fā)[2]。它被設(shè)計(jì)用于輔助醫(yī)生診斷細(xì)菌性血液感染并推薦合適的抗生素治療方案。
-
工作原理:MYCIN通過與醫(yī)生進(jìn)行問答式交互來收集病人的癥狀、病史和化驗(yàn)結(jié)果。其知識(shí)庫(kù)包含了約600條由醫(yī)學(xué)專家提供的“IF-THEN”規(guī)則。推理機(jī)主要采用反向鏈的方式工作:從“確定致病菌”這一最高目標(biāo)出發(fā),反向推導(dǎo)需要哪些證據(jù)和條件,然后向醫(yī)生提問以獲取這些信息。其簡(jiǎn)化的工作流程如圖2.4所示。9b2edfce-4679-4abb-8410-4c0368f2055d.png
圖 2.4 MYCIN反向鏈推理流程示意圖
- 不確定性處理:醫(yī)學(xué)診斷充滿了不確定性。MYCIN的一個(gè)重要?jiǎng)?chuàng)新是引入了置信因子(Certainty Factor, CF)的概念,用一個(gè)-1到1之間的數(shù)值來表示一個(gè)結(jié)論的可信度。這使得系統(tǒng)能夠處理不確定的、模糊的醫(yī)學(xué)知識(shí),并給出帶有可信度評(píng)估的診斷結(jié)果,這比簡(jiǎn)單的布爾邏輯更貼近現(xiàn)實(shí)世界。
- 成就與意義:在一項(xiàng)評(píng)估中,MYCIN在血液感染診斷方面的表現(xiàn)超過了非專業(yè)醫(yī)生,甚至達(dá)到了人類專家的水平。它的成功雄辯地證明了物理符號(hào)系統(tǒng)假說的有效性:通過精心的知識(shí)工程和符號(hào)推理,機(jī)器確實(shí)可以在高度復(fù)雜的專業(yè)領(lǐng)域展現(xiàn)出卓越的“智能”。MYCIN不僅是專家系統(tǒng)發(fā)展史上的一個(gè)里程碑,也為后續(xù)人工智能在各個(gè)垂直領(lǐng)域的商業(yè)化應(yīng)用鋪平了道路。
2.1.3 SHRDLU
如果說專家系統(tǒng)展示了符號(hào)AI在專業(yè)領(lǐng)域的“深度”,那么由特里·威諾格拉德(Terry Winograd)于1968-1970年開發(fā)的SHRDLU項(xiàng)目[3],則在“廣度”上實(shí)現(xiàn)了革命性的突破。如圖2.5所示,SHRDLU旨在構(gòu)建一個(gè)能在“積木世界”這一微觀環(huán)境中,通過自然語(yǔ)言與人類流暢交互的綜合性智能體?!胺e木世界”是一個(gè)模擬的三維虛擬空間,其中包含不同形狀、顏色和大小的積木,以及一個(gè)可以抓取和移動(dòng)它們的虛擬機(jī)械臂。用戶通過自然語(yǔ)言向SHRDLU下達(dá)指令或提問,SHRDLU則在虛擬世界中執(zhí)行動(dòng)作或給出文字回答。

圖 2.5 SHRDLU的“積木世界”交互界面
SHRDLU在當(dāng)時(shí)引起廣泛關(guān)注,主要原因在于它首次將多個(gè)獨(dú)立的人工智能模塊(如語(yǔ)言解析、規(guī)劃、記憶)集成在一個(gè)統(tǒng)一的系統(tǒng)中,并使它們協(xié)同工作:
自然語(yǔ)言理解:SHRDLU能夠解析結(jié)構(gòu)復(fù)雜且含有歧義的英語(yǔ)句子。它不僅能理解直接的命令(如
Pick up a big red block.),還能處理更復(fù)雜的指令,例如:指代消解:
Find a block which is taller than the one you are holding and put it into the box.在這條指令中,系統(tǒng)需要理解the one you are holding指代的是當(dāng)前機(jī)械臂正抓取的物體。上下文記憶:用戶可以說
Grasp the pyramid.,然后接著問What does the box contain?,系統(tǒng)能夠聯(lián)系上下文進(jìn)行回答。規(guī)劃與行動(dòng):在理解指令后,SHRDLU能夠自主規(guī)劃出一系列必要的動(dòng)作來完成任務(wù)。例如,如果指令是“把藍(lán)色積木放到紅色積木上”,而紅色積木上已經(jīng)有另一個(gè)綠色積木,系統(tǒng)會(huì)規(guī)劃出“先把綠色積木移開,再把藍(lán)色積木放上去”的動(dòng)作序列。
記憶與問答:SHRDLU擁有關(guān)于其所處環(huán)境和自身行為的記憶。用戶可以就此提問,例如:
詢問世界狀態(tài):
Is there a large block behind a pyramid?詢問行為歷史:
Did you touch any pyramid before you put the green one on the little cube?詢問行為動(dòng)機(jī):
Why did you pick up the red block?SHRDLU可以回答:BECAUSE YOU ASKED ME TO.
SHRDLU的歷史地位與影響主要體現(xiàn)在三個(gè)方面:
- 綜合性智能的典范:在SHRDLU之前,AI研究大多聚焦于單一功能。它首次將語(yǔ)言理解、推理規(guī)劃與行動(dòng)記憶等多個(gè)AI模塊集成于統(tǒng)一系統(tǒng),其“感知-思考-行動(dòng)”的閉環(huán)設(shè)計(jì),奠定了現(xiàn)代智能體研究的基礎(chǔ)。
- 微觀世界研究方法的普及:它的成功證明了在一個(gè)規(guī)則明確的簡(jiǎn)化環(huán)境中,探索和驗(yàn)證復(fù)雜智能體基本原理的可行性,這一方法深刻影響了后續(xù)的機(jī)器人學(xué)與AI規(guī)劃研究。
- 引發(fā)的樂觀與反思:SHRDLU的成功激發(fā)了對(duì)AGI的早期樂觀預(yù)期,但其能力又嚴(yán)格局限于積木世界。這種局限性引發(fā)了AI領(lǐng)域關(guān)于“符號(hào)處理”與“真正理解”之間差異的長(zhǎng)期思辨,揭示了通往通用智能的深層挑戰(zhàn)。
2.1.4 符號(hào)主義面臨的根本性挑戰(zhàn)
盡管早期項(xiàng)目成就顯著,但從20世紀(jì)80年代起,符號(hào)主義AI在從“微觀世界”走向開放、復(fù)雜的現(xiàn)實(shí)世界時(shí),遇到了其方法論固有的根本性難題。這些難題主要可歸結(jié)為兩大類:
1)常識(shí)知識(shí)與知識(shí)獲取瓶頸
符號(hào)主義智能體的“智能”完全依賴于其知識(shí)庫(kù)的質(zhì)量和完備性。然而,如何構(gòu)建一個(gè)能夠支撐真實(shí)世界交互的知識(shí)庫(kù),被證明是一項(xiàng)極其艱巨的任務(wù),主要體現(xiàn)在兩個(gè)方面:
- 知識(shí)獲取瓶頸(Knowledge Acquisition Bottleneck):專家系統(tǒng)的知識(shí)需要由人類專家和知識(shí)工程師通過繁瑣的訪談、提煉和編碼過程來構(gòu)建。這個(gè)過程成本高昂、耗時(shí)漫長(zhǎng),且難以規(guī)模化。更重要的是,人類專家的許多知識(shí)是內(nèi)隱的、直覺性的,很難被清晰地表達(dá)為“IF-THEN”規(guī)則。試圖將整個(gè)世界的知識(shí)都進(jìn)行手工符號(hào)化,被認(rèn)為是一項(xiàng)幾乎不可能完成的任務(wù)。
- 常識(shí)問題(Common-sense Problem):人類行為依賴于龐大的常識(shí)背景(例如,“水是濕的”、“繩子可以拉不能推”),但符號(hào)系統(tǒng)除非被明確編碼,否則對(duì)此一無所知。為廣闊、模糊的常識(shí)建立完備的知識(shí)庫(kù)至今仍是重大挑戰(zhàn),Cyc項(xiàng)目[4]歷經(jīng)數(shù)十年努力,其成果和應(yīng)用仍然非常有限。
2)框架問題與系統(tǒng)脆弱性
除了知識(shí)層面的挑戰(zhàn),符號(hào)主義在處理動(dòng)態(tài)變化的世界時(shí)也遇到了邏輯上的困境。
- 框架問題(Frame Problem):在一個(gè)動(dòng)態(tài)世界中,智能體執(zhí)行一個(gè)動(dòng)作后,如何高效判斷哪些事物未發(fā)生改變是一個(gè)邏輯難題[5]。為每個(gè)動(dòng)作顯式地聲明所有不變的狀態(tài),在計(jì)算上是不可行的,而人類卻能毫不費(fèi)力地忽略不相關(guān)的變化。
- 系統(tǒng)脆弱性(Brittleness):符號(hào)系統(tǒng)完全依賴預(yù)設(shè)規(guī)則,導(dǎo)致其行為非?!按嗳酢薄R坏┯龅揭?guī)則之外的任何微小變化或新情況,系統(tǒng)便可能完全失靈,無法像人類一樣靈活變通。SHRDLU的成功,也正是因?yàn)樗\(yùn)行在一個(gè)規(guī)則完備的封閉世界里,而真實(shí)世界充滿了例外。
2.2 構(gòu)建基于規(guī)則的聊天機(jī)器人
在探討了符號(hào)主義的理論挑戰(zhàn)后,本節(jié)我們將通過一個(gè)具體的編程實(shí)踐,來直觀地感受基于規(guī)則的系統(tǒng)是如何工作的。我們將嘗試復(fù)現(xiàn)人工智能歷史上一個(gè)極具影響力的早期聊天機(jī)器人——ELIZA。
2.2.1 ELIZA 的設(shè)計(jì)思想
ELIZA是由麻省理工學(xué)院的計(jì)算機(jī)科學(xué)家約瑟夫·魏澤鮑姆(Joseph Weizenbaum)于1966年發(fā)布的一個(gè)計(jì)算機(jī)程序[6],是早期自然語(yǔ)言處理領(lǐng)域的著名嘗試之一。ELIZA并非一個(gè)單一的程序,而是一個(gè)可以執(zhí)行不同“腳本”的框架。其中,最廣為人知也最成功的腳本是“DOCTOR”,它模仿了一位羅杰斯學(xué)派的非指導(dǎo)性心理治療師。
ELIZA的工作方式極其巧妙:它從不正面回答問題或提供信息,而是通過識(shí)別用戶輸入中的關(guān)鍵詞,然后應(yīng)用一套預(yù)設(shè)的轉(zhuǎn)換規(guī)則,將用戶的陳述轉(zhuǎn)化為一個(gè)開放式的提問。例如,當(dāng)用戶說“我為我的男朋友感到難過”時(shí),ELIZA可能會(huì)識(shí)別出關(guān)鍵詞“我為……感到難過”,并應(yīng)用規(guī)則生成回應(yīng):“你為什么會(huì)為你的男朋友感到難過?”
魏澤鮑姆的設(shè)計(jì)思想并非要?jiǎng)?chuàng)造一個(gè)真正能夠“理解”人類情感的智能體,恰恰相反,他想證明的是,通過一些簡(jiǎn)單的句式轉(zhuǎn)換技巧,機(jī)器可以在完全不理解對(duì)話內(nèi)容的情況下,營(yíng)造出一種“智能”和“共情”的假象。然而,出乎他意料的是,許多與ELIZA交互過的人(包括他的秘書)都對(duì)其產(chǎn)生了情感上的依賴,深信它能夠理解自己。
本節(jié)的實(shí)踐目標(biāo)即為復(fù)現(xiàn)ELIZA的核心機(jī)制,以深入理解這種規(guī)則驅(qū)動(dòng)方法的優(yōu)勢(shì)與根本局限。
2.2.2 模式匹配與文本替換
ELIZA的算法流程基于模式匹配(Pattern Matching)與文本替換(Text ****Substitution),可被清晰地分解為以下四個(gè)步驟:
關(guān)鍵詞識(shí)別與排序:規(guī)則庫(kù)為每個(gè)關(guān)鍵詞(如
mother,dreamed,depressed)設(shè)定一個(gè)優(yōu)先級(jí)。當(dāng)輸入包含多個(gè)關(guān)鍵詞時(shí),程序會(huì)選擇優(yōu)先級(jí)最高的關(guān)鍵詞所對(duì)應(yīng)的規(guī)則進(jìn)行處理。分解規(guī)則:找到關(guān)鍵詞后,程序使用帶通配符(
*)的分解規(guī)則來捕獲句子的其余部分。規(guī)則示例:
* my *用戶輸入:
"My mother is afraid of me"捕獲結(jié)果:
["", "mother is afraid of me"]重組規(guī)則:程序從與分解規(guī)則關(guān)聯(lián)的一組重組規(guī)則中,選擇一條來生成回應(yīng)(通常隨機(jī)選擇以增加多樣性),并可選擇性地使用上一步捕獲的內(nèi)容。
規(guī)則示例:
"Tell me more about your family."生成輸出:
"Tell me more about your family."代詞轉(zhuǎn)換:在重組前,程序會(huì)進(jìn)行簡(jiǎn)單的代詞轉(zhuǎn)換(如
I→you,my→your),以維持對(duì)話的連貫性。
整個(gè)工作流程可以用一個(gè)簡(jiǎn)單的偽代碼思路來表示:
<pre data-tool="mdnice編輯器" style="-webkit-tap-highlight-color: rgba(0, 0, 0, 0); margin: 10px 0px; padding: 0px; outline: 0px; max-width: 100%; box-sizing: border-box !important; overflow-wrap: break-word !important; border-radius: 5px; box-shadow: rgba(0, 0, 0, 0.55) 0px 2px 10px; text-align: left;">FUNCTION generate_response(user_input): // 1. 將用戶輸入拆分成單詞 words = SPLIT(user_input) // 2. 尋找優(yōu)先級(jí)最高的關(guān)鍵詞規(guī)則 best_rule = FIND_BEST_RULE(words) IF best_rule is NULL: RETURN a_generic_response() // 例如:"Please go on." // 3. 使用規(guī)則分解用戶輸入 decomposed_parts = DECOMPOSE(user_input, best_rule.decomposition_pattern) IF decomposition_failed: RETURN a_generic_response() // 4. 對(duì)分解出的部分進(jìn)行代詞轉(zhuǎn)換 transformed_parts = TRANSFORM_PRONOUNS(decomposed_parts) // 5. 使用重組規(guī)則生成回應(yīng) response = REASSEMBLE(transformed_parts, best_rule.reassembly_patterns) RETURN response </pre>
通過這套機(jī)制,ELIZA成功地將復(fù)雜的自然語(yǔ)言理解問題,簡(jiǎn)化為了一個(gè)可操作的、基于規(guī)則的模式匹配游戲。
2.2.3 核心邏輯的實(shí)現(xiàn)
現(xiàn)在,我們將上一節(jié)描述的技術(shù)原理轉(zhuǎn)化為一個(gè)簡(jiǎn)單的、可運(yùn)行的Python函數(shù)。下面的代碼實(shí)現(xiàn)了一個(gè)迷你版的ELIZA,它包含了一小部分規(guī)則,但足以展示其核心工作機(jī)制。
<pre data-tool="mdnice編輯器" style="-webkit-tap-highlight-color: rgba(0, 0, 0, 0); margin: 10px 0px; padding: 0px; outline: 0px; max-width: 100%; box-sizing: border-box !important; overflow-wrap: break-word !important; border-radius: 5px; box-shadow: rgba(0, 0, 0, 0.55) 0px 2px 10px; text-align: left;">import re import random # 定義規(guī)則庫(kù):模式(正則表達(dá)式) -> 響應(yīng)模板列表 rules = { r'I need (.*)': [ "Why do you need {0}?", "Would it really help you to get {0}?", "Are you sure you need {0}?" ], r'Why don\'t you (.*)\?': [ "Do you really think I don't {0}?", "Perhaps eventually I will {0}.", "Do you really want me to {0}?" ], r'Why can\'t I (.*)\?': [ "Do you think you should be able to {0}?", "If you could {0}, what would you do?", "I don't know -- why can't you {0}?" ], r'I am (.*)': [ "Did you come to me because you are {0}?", "How long have you been {0}?", "How do you feel about being {0}?" ], r'.* mother .*': [ "Tell me more about your mother.", "What was your relationship with your mother like?", "How do you feel about your mother?" ], r'.* father .*': [ "Tell me more about your father.", "How did your father make you feel?", "What has your father taught you?" ], r'.*': [ "Please tell me more.", "Let's change focus a bit... Tell me about your family.", "Can you elaborate on that?" ] } # 定義代詞轉(zhuǎn)換規(guī)則 pronoun_swap = { "i": "you", "you": "i", "me": "you", "my": "your", "am": "are", "are": "am", "was": "were", "i'd": "you would", "i've": "you have", "i'll": "you will", "yours": "mine", "mine": "yours" } defswap_pronouns(phrase): """ 對(duì)輸入短語(yǔ)中的代詞進(jìn)行第一/第二人稱轉(zhuǎn)換 """ words = phrase.lower().split() swapped_words = [pronoun_swap.get(word, word) for word in words] return" ".join(swapped_words) defrespond(user_input): """ 根據(jù)規(guī)則庫(kù)生成響應(yīng) """ for pattern, responses in rules.items(): match = re.search(pattern, user_input, re.IGNORECASE) if match: # 捕獲匹配到的部分 captured_group = match.group(1) if match.groups() else'' # 進(jìn)行代詞轉(zhuǎn)換 swapped_group = swap_pronouns(captured_group) # 從模板中隨機(jī)選擇一個(gè)并格式化 response = random.choice(responses).format(swapped_group) return response # 如果沒有匹配任何特定規(guī)則,使用最后的通配符規(guī)則 return random.choice(rules[r'.*']) # 主聊天循環(huán) if __name__ == '__main__': print("Therapist: Hello! How can I help you today?") whileTrue: user_input = input("You: ") if user_input.lower() in ["quit", "exit", "bye"]: print("Therapist: Goodbye. It was nice talking to you.") break response = respond(user_input) print(f"Therapist: {response}") >>> Therapist: Hello! How can I help you today? You: I am feeling sad today. Therapist: How long have you been feeling sad today? You: I need some help with my project. Therapist: Are you sure you need some help with your project? You: My mother isnot happy with my work. Therapist: Tell me more about your mother. You: quit Therapist: Goodbye. It was nice talking to you. </pre>
通過上述的編程實(shí)踐,我們可以直觀地總結(jié)出規(guī)則驅(qū)動(dòng)系統(tǒng)的根本局限性,這些局限正是對(duì)2.1.4節(jié)中符號(hào)主義理論挑戰(zhàn)的直接印證:
缺乏語(yǔ)義理解:系統(tǒng)不理解詞義。例如,面對(duì)“I am not happy”的輸入,它仍會(huì)機(jī)械地匹配
I am (.*)規(guī)則并生成語(yǔ)義不通的回應(yīng),因?yàn)樗鼰o法理解否定詞“not”的作用。無上下文記憶:系統(tǒng)是無狀態(tài)的(Stateless),每次回應(yīng)僅基于當(dāng)前單句輸入,無法進(jìn)行連貫的多輪對(duì)話。
規(guī)則的擴(kuò)展性問題:嘗試增加更多規(guī)則會(huì)導(dǎo)致規(guī)則庫(kù)的規(guī)模爆炸式增長(zhǎng),規(guī)則間的沖突與優(yōu)先級(jí)管理將變得極其復(fù)雜,最終導(dǎo)致系統(tǒng)難以維護(hù)。
然而,盡管存在這些顯而易見的缺陷,ELIZA在當(dāng)時(shí)卻產(chǎn)生了著名的“ELIZA效應(yīng)”,許多用戶相信它能理解自己。這種智能的幻覺主要源于其巧妙的對(duì)話策略(如扮演被動(dòng)的提問者、使用開放式模板)以及人類天生的情感投射心理。
ELIZA的實(shí)踐清晰地揭示了符號(hào)主義方法的核心矛盾:系統(tǒng)看似智能的表現(xiàn),完全依賴于設(shè)計(jì)者預(yù)先編碼的規(guī)則。然而,面對(duì)真實(shí)世界語(yǔ)言的無限可能性,這種窮舉式的方法注定不可擴(kuò)展。系統(tǒng)沒有真正的理解,只是在執(zhí)行符號(hào)操作,這正是其脆弱性的根源。
2.3 馬文·明斯基的心智社會(huì)
符號(hào)主義的探索和ELIZA的實(shí)踐,共同指向了一個(gè)問題:通過預(yù)設(shè)規(guī)則構(gòu)建的、單一的、集中的推理引擎,似乎難以通向真正的智能。無論規(guī)則庫(kù)多么龐大,系統(tǒng)在面對(duì)真實(shí)世界的模糊性、復(fù)雜性和無窮變化時(shí),總是顯得僵化而脆弱。這一困境促使一些頂尖的思考者開始反思人工智能最底層的設(shè)計(jì)哲學(xué)。其中,馬文·明斯基(Marvin Minsky)沒有繼續(xù)嘗試為單一推理核心添加更多規(guī)則,而是在他的《心智社會(huì)》(The Society of Mind)[7] 一書中提出了一個(gè)革命性的問題:"What magical trick makes us intelligent? The trick is that there is no trick. The power of intelligence stems from our vast diversity, not from any single, perfect principle."
2.3.1 對(duì)單一整體智能模型的反思
20世紀(jì)70至80年代,符號(hào)主義的局限性日益明顯。專家系統(tǒng)雖然在高度垂直的領(lǐng)域取得了成功,但它們無法擁有兒童般的常識(shí);SHRDLU雖然能在一個(gè)封閉的積木世界中表現(xiàn)出色,但它無法理解這個(gè)世界之外的任何事情;ELIZA雖然能模仿對(duì)話,但它對(duì)對(duì)話內(nèi)容本身一無所知。這些系統(tǒng)都遵循著一種自上而下(Top-down)的設(shè)計(jì)思路:一個(gè)全知全能的中央處理器,根據(jù)一套統(tǒng)一的邏輯規(guī)則來處理信息和做出決策。
面對(duì)這種普遍的失敗,明斯基開始提出一系列根本性的問題:
- “理解”是什么?當(dāng)我們說我們理解一個(gè)故事時(shí),這是一種單一的能力嗎?還是說,它其實(shí)是視覺化能力、邏輯推理能力、情感共鳴能力、社會(huì)關(guān)系常識(shí)等數(shù)十種不同心智過程協(xié)同工作的結(jié)果?
- “常識(shí)”是什么?常識(shí)是一個(gè)包含了數(shù)百萬(wàn)條邏輯規(guī)則的龐大知識(shí)庫(kù)嗎(如Cyc項(xiàng)目的嘗試)?還是說,它是一種分布式的、由無數(shù)具體經(jīng)驗(yàn)和簡(jiǎn)單規(guī)則片段交織而成的網(wǎng)絡(luò)?
- 智能體應(yīng)該如何構(gòu)建?我們是否應(yīng)該繼續(xù)追求一個(gè)完美的、統(tǒng)一的邏輯系統(tǒng),還是應(yīng)該承認(rèn),智能本身就是“不完美”的、由許多功能各異、甚至?xí)舜藳_突的簡(jiǎn)單部分組成的大雜燴?
這些問題直指單一整體智能模型的核心弊端。該類模型試圖用一種統(tǒng)一的表示和推理機(jī)制來解決所有問題,但這與我們觀察到的自然智能(尤其是人類智能)的運(yùn)作方式相去甚遠(yuǎn)。明斯基認(rèn)為,強(qiáng)行將多樣化的心智活動(dòng)塞進(jìn)一個(gè)僵化的邏輯框架中,正是導(dǎo)致早期人工智能研究停滯不前的根源。
正是基于這樣的反思,明斯基提出了一個(gè)顛覆性的構(gòu)想,他不再將心智視為一個(gè)金字塔式的層級(jí)結(jié)構(gòu),而是將其看作一個(gè)扁平化的、充滿了互動(dòng)與協(xié)作的“社會(huì)”。
2.3.2 作為協(xié)作體的智能
在明斯基的理論框架中,智能體的定義與我們第一章討論的現(xiàn)代智能體有所不同。這里的智能體指的是一個(gè)極其簡(jiǎn)單的、專門化的心智過程,它自身是“無心”的。例如,一個(gè)負(fù)責(zé)識(shí)別線條的LINE-FINDER智能體,或一個(gè)負(fù)責(zé)抓握的GRASP智能體。
這些簡(jiǎn)單的智能體被組織起來,形成功能更強(qiáng)大的機(jī)構(gòu)(Agency)。一個(gè)機(jī)構(gòu)是一組協(xié)同工作的智能體,旨在完成一個(gè)更復(fù)雜的任務(wù)。例如,一個(gè)負(fù)責(zé)搭積木的BUILD機(jī)構(gòu),可能由SEE、FIND、GET、PUT等多個(gè)下層智能體或機(jī)構(gòu)組成。它們之間通過去中心化的激活與抑制信號(hào)相互影響,形成動(dòng)態(tài)的控制流。
涌現(xiàn)(Emergence)是理解心智社會(huì)理論的關(guān)鍵。復(fù)雜的、有目的性的智能行為,并非由某個(gè)高級(jí)智能體預(yù)先規(guī)劃,而是從大量簡(jiǎn)單的底層智能體之間的局部交互中自發(fā)產(chǎn)生的。

圖 2.6 “心智社會(huì)”中搭建積木塔行為的涌現(xiàn)機(jī)制示意圖
讓我們以經(jīng)典的“搭建積木塔”任務(wù)為例,來說明這一過程,如圖2.6所示。當(dāng)一個(gè)高層目標(biāo)(如“我要搭一個(gè)塔”)出現(xiàn)時(shí),它會(huì)激活一個(gè)名為BUILD-TOWER的高層機(jī)構(gòu)。
-
BUILD-TOWER機(jī)構(gòu)并不知道如何執(zhí)行具體的物理動(dòng)作,它的唯一作用是激活它的下屬機(jī)構(gòu),比如BUILDER。 -
BUILDER機(jī)構(gòu)同樣很簡(jiǎn)單,它可能只包含一個(gè)循環(huán)邏輯:只要塔還沒搭完,就激活ADD-BLOCK機(jī)構(gòu)。 -
ADD-BLOCK機(jī)構(gòu)則負(fù)責(zé)協(xié)調(diào)更具體的子任務(wù),它會(huì)依次激活FIND-BLOCK、GET-BLOCK和PUT-ON-TOP這三個(gè)子機(jī)構(gòu)。 - 每一個(gè)子機(jī)構(gòu)又由更底層的智能體構(gòu)成。例如,
GET-BLOCK機(jī)構(gòu)會(huì)激活視覺系統(tǒng)中的SEE-SHAPE智能體、運(yùn)動(dòng)系統(tǒng)中的REACH和GRASP智能體。
在這個(gè)過程中,沒有任何一個(gè)智能體或機(jī)構(gòu)擁有整個(gè)任務(wù)的全局規(guī)劃。GRASP只負(fù)責(zé)抓握,它不知道什么是塔;BUILDER只負(fù)責(zé)循環(huán),它不知道如何控制手臂。然而,當(dāng)這個(gè)由無數(shù)“無心”的智能體組成的社會(huì),通過簡(jiǎn)單的激活和抑制規(guī)則相互作用時(shí),一個(gè)看似高度智能的行為,搭建積木塔,就自然而然地涌現(xiàn)了出來。
2.3.3 對(duì)多智能體系統(tǒng)的理論啟發(fā)
心智社會(huì)理論最深遠(yuǎn)的影響,在于它為分布式人工智能(Distributed Artificial Intelligence, DAI)以及后來的多智能體系統(tǒng)(Multi-Agent System, MAS)提供了重要的概念基礎(chǔ)。它引出研究者們的思考:
如果一個(gè)心智內(nèi)部的智能,是通過大量簡(jiǎn)單智能體的協(xié)作而涌現(xiàn)的,那么,在多個(gè)獨(dú)立的、物理上分離的計(jì)算實(shí)體(計(jì)算機(jī)、機(jī)器人)之間,是否也能通過協(xié)作涌現(xiàn)出更強(qiáng)大的“群體智能”?
這個(gè)問題的提出,直接將研究焦點(diǎn)從“如何構(gòu)建一個(gè)全能的單一智能體”轉(zhuǎn)向了“如何設(shè)計(jì)一個(gè)高效協(xié)作的智能體群體”。具體而言,心智社會(huì)在以下幾個(gè)方面直接啟發(fā)了多智能體系統(tǒng)的研究:
- 去中心化控制(Decentralized Control):理論的核心在于不存在中央控制器。這一思想被MAS領(lǐng)域完全繼承,如何設(shè)計(jì)沒有中心節(jié)點(diǎn)的協(xié)調(diào)機(jī)制和任務(wù)分配策略,成為了MAS的核心研究課題之一。
- 涌現(xiàn)式計(jì)算(Emergent Computation):復(fù)雜問題的解決方案可以從簡(jiǎn)單的局部交互規(guī)則中自發(fā)產(chǎn)生。這啟發(fā)了MAS中大量基于涌現(xiàn)思想的算法,如蟻群算法、粒子群優(yōu)化等,用于解決復(fù)雜的優(yōu)化和搜索問題。
- 智能體的社會(huì)性(Agent Sociality):明斯基的理論強(qiáng)調(diào)了智能體之間的交互(激活、抑制)。MAS領(lǐng)域?qū)⑵溥M(jìn)一步擴(kuò)展,系統(tǒng)地研究智能體之間的通信語(yǔ)言(如ACL)、交互協(xié)議(如契約網(wǎng))、協(xié)商策略、信任模型乃至組織結(jié)構(gòu),從而構(gòu)建起真正的計(jì)算社會(huì)。
可以說,明斯基的“心智社會(huì)”理論,為AI研究者理解“群體智能”的內(nèi)在構(gòu)造提供了重要的分析框架。它為后來的研究者們提供了一套全新的視角,去探索由獨(dú)立的、自治的、具備社會(huì)能力的計(jì)算智能體所構(gòu)成的復(fù)雜系統(tǒng),從而正式開啟了多智能體系統(tǒng)研究的序幕。
2.4 學(xué)習(xí)范式的演進(jìn)與現(xiàn)代智能體
前文探討的“心智社會(huì)”理論,在哲學(xué)層面為群體智能和去中心化協(xié)作指明了方向,但實(shí)現(xiàn)路徑尚不明確。與此同時(shí),符號(hào)主義在應(yīng)對(duì)真實(shí)世界復(fù)雜性時(shí)暴露的根本性挑戰(zhàn)也表明僅靠預(yù)先編碼的規(guī)則無法構(gòu)建真正魯棒的智能。
這兩條線索共同指向了一個(gè)問題:如果智能無法被完全設(shè)計(jì),那么它是否可以被學(xué)習(xí)出來?
這一設(shè)問開啟了人工智能的“學(xué)習(xí)”時(shí)代。其核心目標(biāo)不再是手動(dòng)編碼知識(shí),而是構(gòu)建能從經(jīng)驗(yàn)和數(shù)據(jù)中自動(dòng)獲取知識(shí)與能力的系統(tǒng)。本節(jié)將追溯這一范式的演進(jìn)歷程:從聯(lián)結(jié)主義奠定的學(xué)習(xí)基礎(chǔ),到強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)的交互式學(xué)習(xí),直至今日由大型語(yǔ)言模型驅(qū)動(dòng)的現(xiàn)代智能體。
2.4.1 從符號(hào)到聯(lián)結(jié)
作為對(duì)符號(hào)主義局限性的直接回應(yīng),聯(lián)結(jié)主義(Connectionism)在20世紀(jì)80年代重新興起。與符號(hào)主義自上而下、依賴明確邏輯規(guī)則的設(shè)計(jì)哲學(xué)不同,聯(lián)結(jié)主義是一種自下而上的方法,其靈感來源于對(duì)生物大腦神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的模仿[8]。它的核心思想可以概括為以下幾點(diǎn):
- 知識(shí)的分布式表示:知識(shí)并非以明確的符號(hào)或規(guī)則形式存儲(chǔ)在某個(gè)知識(shí)庫(kù)中,而是以連接權(quán)重的形式,分布式地存儲(chǔ)在大量簡(jiǎn)單的處理單元(即人工神經(jīng)元)的連接之間。整個(gè)網(wǎng)絡(luò)的連接模式本身就構(gòu)成了知識(shí)。
- 簡(jiǎn)單的處理單元:每個(gè)神經(jīng)元只執(zhí)行非常簡(jiǎn)單的計(jì)算,如接收來自其他神經(jīng)元的加權(quán)輸入,通過一個(gè)激活函數(shù)進(jìn)行處理,然后將結(jié)果輸出給下一個(gè)神經(jīng)元。
- 通過學(xué)習(xí)調(diào)整權(quán)重:系統(tǒng)的智能并非來自于設(shè)計(jì)者預(yù)先編寫的復(fù)雜程序,而是來自于“學(xué)習(xí)”過程。系統(tǒng)通過接觸大量樣本,根據(jù)某種學(xué)習(xí)算法(如反向傳播算法)自動(dòng)、迭代地調(diào)整神經(jīng)元之間的連接權(quán)重,從而使得整個(gè)網(wǎng)絡(luò)的輸出逐漸接近期望的目標(biāo)。
在這種范式下,智能體不再是一個(gè)被動(dòng)執(zhí)行規(guī)則的邏輯推理機(jī),而是一個(gè)能夠通過經(jīng)驗(yàn)自我優(yōu)化的適應(yīng)性系統(tǒng)。如圖2.7所示,這代表了構(gòu)建智能體核心思想的根本性轉(zhuǎn)變。符號(hào)主義試圖將人類的知識(shí)顯式地編碼給機(jī)器,而聯(lián)結(jié)主義則試圖創(chuàng)造出能夠像人類一樣學(xué)習(xí)知識(shí)的機(jī)器。

圖 2.7 符號(hào)主義與聯(lián)結(jié)主義范式對(duì)比
聯(lián)結(jié)主義的興起,特別是深度學(xué)習(xí)在21世紀(jì)的成功,為智能體賦予了強(qiáng)大的感知和模式識(shí)別能力,使其能夠直接從原始數(shù)據(jù)(如圖像、聲音、文本)中理解世界,這是符號(hào)主義時(shí)代難以想象的。然而,如何讓智能體學(xué)會(huì)在與環(huán)境的動(dòng)態(tài)交互中做出最優(yōu)的序貫決策,則需要另一種學(xué)習(xí)范式的補(bǔ)充。
2.4.2 基于強(qiáng)化學(xué)習(xí)的智能體
聯(lián)結(jié)主義主要解決了感知問題(例如,“這張圖片里有什么?”),但智能體更核心的任務(wù)是進(jìn)行決策(例如,“在這種情況下,我應(yīng)該做什么?”)。強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)正是專注于解決序貫決策問題的學(xué)習(xí)范式。它并非直接從標(biāo)注好的靜態(tài)數(shù)據(jù)集中學(xué)習(xí),而是通過智能體與環(huán)境的直接交互,在“試錯(cuò)”中學(xué)習(xí)如何最大化其長(zhǎng)期收益。
以AlphaGo為例,其核心的自我對(duì)弈學(xué)習(xí)過程便是強(qiáng)化學(xué)習(xí)的經(jīng)典體現(xiàn)[9]。在這個(gè)過程中,AlphaGo(智能體)通過觀察棋盤的當(dāng)前布局(環(huán)境狀態(tài)),決定下一步棋的落子位置(行動(dòng))。一局棋結(jié)束后,根據(jù)勝負(fù)結(jié)果,它會(huì)收到一個(gè)明確的信號(hào):贏了就是正向獎(jiǎng)勵(lì),輸了則是負(fù)向獎(jiǎng)勵(lì)。通過數(shù)百萬(wàn)次這樣的自我對(duì)弈,AlphaGo不斷調(diào)整其內(nèi)部策略,逐漸學(xué)會(huì)了在何種棋局下選擇何種行動(dòng),最有可能導(dǎo)向最終的勝利。這個(gè)過程完全是自主的,不依賴于人類棋譜的直接指導(dǎo)。
這種通過與環(huán)境互動(dòng)、根據(jù)反饋信號(hào)來優(yōu)化自身行為的學(xué)習(xí)機(jī)制,就是強(qiáng)化學(xué)習(xí)的核心框架。下面我們將詳細(xì)拆解其基本構(gòu)成要素和工作模式。
強(qiáng)化學(xué)習(xí)的框架可以用幾個(gè)核心要素來描述:
- 智能體(Agent):學(xué)習(xí)者和決策者。在AlphaGo的例子中,就是其決策程序。
- 環(huán)境(Environment):智能體外部的一切,是智能體與之交互的對(duì)象。對(duì)AlphaGo而言,就是圍棋的規(guī)則和對(duì)手。
- 狀態(tài)(State, S):對(duì)環(huán)境在某一時(shí)刻的特定描述,是智能體做出決策的依據(jù)。例如,棋盤上所有棋子的當(dāng)前位置。
- 行動(dòng)(Action, A):智能體根據(jù)當(dāng)前狀態(tài)所能采取的操作。例如,在棋盤的某個(gè)合法位置上落下一子。
- 獎(jiǎng)勵(lì)(Reward, R):環(huán)境在智能體執(zhí)行一個(gè)行動(dòng)后,反饋給智能體的一個(gè)標(biāo)量信號(hào),用于評(píng)價(jià)該行動(dòng)在特定狀態(tài)下的好壞。例如,在一局棋結(jié)束后,勝利獲得+1的獎(jiǎng)勵(lì),失敗獲得-1的獎(jiǎng)勵(lì)。
基于上述核心要素,強(qiáng)化學(xué)習(xí)智能體在一個(gè)“感知-行動(dòng)-學(xué)習(xí)”的閉環(huán)中持續(xù)迭代,其工作模式如圖2.8所示。

圖 2.8 強(qiáng)化學(xué)習(xí)的核心交互循環(huán)
這個(gè)循環(huán)的具體步驟如下:
- 在時(shí)間步t,智能體觀察到環(huán)境的當(dāng)前狀態(tài)。
- 基于狀態(tài) ,智能體根據(jù)其內(nèi)部的策略(Policy, π)選擇一個(gè)行動(dòng) 并執(zhí)行它。策略本質(zhì)上是一個(gè)從狀態(tài)到行動(dòng)的映射,定義了智能體的行為方式。
- 環(huán)境接收到行動(dòng) 后,會(huì)轉(zhuǎn)移到一個(gè)新的狀態(tài) 。
- 同時(shí),環(huán)境會(huì)反饋給智能體一個(gè)即時(shí)獎(jiǎng)勵(lì) 。
- 智能體利用這個(gè)反饋(新狀態(tài) 和獎(jiǎng)勵(lì) )來更新和優(yōu)化其內(nèi)部策略,以便在未來做出更好的決策。這個(gè)更新過程就是學(xué)習(xí)。
智能體的學(xué)習(xí)目標(biāo),并非最大化某一個(gè)時(shí)間步的即時(shí)獎(jiǎng)勵(lì),而是最大化從當(dāng)前時(shí)刻開始到未來的累積獎(jiǎng)勵(lì)(Cumulative Reward),也稱為回報(bào)(Return)。這意味著智能體需要具備“遠(yuǎn)見”,有時(shí)為了獲得未來更大的獎(jiǎng)勵(lì),需要犧牲當(dāng)前的即時(shí)獎(jiǎng)勵(lì)(例如,圍棋中的“棄子”策略)。通過在上述循環(huán)中不斷探索、收集反饋并優(yōu)化策略,智能體最終能夠?qū)W會(huì)在復(fù)雜動(dòng)態(tài)環(huán)境中進(jìn)行自主決策和長(zhǎng)期規(guī)劃。
2.4.3 基于大規(guī)模數(shù)據(jù)的預(yù)訓(xùn)練
強(qiáng)化學(xué)習(xí)賦予了智能體從交互中學(xué)習(xí)決策策略的能力,但這通常需要海量的、針對(duì)特定任務(wù)的交互數(shù)據(jù),導(dǎo)致智能體在學(xué)習(xí)之初缺乏先驗(yàn)知識(shí),需要從零開始構(gòu)建對(duì)任務(wù)的理解。無論是符號(hào)主義試圖手動(dòng)編碼的常識(shí),還是人類在決策時(shí)所依賴的背景知識(shí),在RL智能體中都是缺失的。如何讓智能體在開始學(xué)習(xí)具體任務(wù)前,就先具備對(duì)世界的廣泛理解?這一問題的解決方案,最終在自然語(yǔ)言處理(Natural Language Processing, NLP)領(lǐng)域中浮現(xiàn),其核心便是基于大規(guī)模數(shù)據(jù)的預(yù)訓(xùn)練(Pre-training)。
從特定任務(wù)到通用模型
在預(yù)訓(xùn)練范式出現(xiàn)之前,傳統(tǒng)的自然語(yǔ)言處理模型通常是為單一特定任務(wù)(如情感分析、機(jī)器翻譯)在專門標(biāo)注的中小規(guī)模數(shù)據(jù)集上從零開始獨(dú)立訓(xùn)練的。這種模式導(dǎo)致了幾個(gè)問題:模型的知識(shí)面狹窄,難以將在一個(gè)任務(wù)中學(xué)到的知識(shí)泛化到另一個(gè)任務(wù),并且每一個(gè)新任務(wù)都需要耗費(fèi)大量的人力去標(biāo)注數(shù)據(jù)。預(yù)訓(xùn)練與微調(diào)(Pre-training, Fine-tuning)范式的提出徹底改變了這一現(xiàn)狀。其核心思想分為兩步:
- 預(yù)訓(xùn)練階段:首先在一個(gè)包含互聯(lián)網(wǎng)級(jí)別海量文本數(shù)據(jù)的通用語(yǔ)料庫(kù)上,通過自監(jiān)督學(xué)習(xí)(Self-supervised Learning)的方式訓(xùn)練一個(gè)超大規(guī)模的神經(jīng)網(wǎng)絡(luò)模型。這個(gè)階段的目標(biāo)不是完成任何特定任務(wù),而是學(xué)習(xí)語(yǔ)言本身內(nèi)在的規(guī)律、語(yǔ)法結(jié)構(gòu)、事實(shí)知識(shí)以及上下文邏輯。最常見的目標(biāo)是“預(yù)測(cè)下一個(gè)詞”。
- 微調(diào)階段:完成預(yù)訓(xùn)練后,這個(gè)模型就已經(jīng)學(xué)習(xí)到了和數(shù)據(jù)集有關(guān)的豐富知識(shí)。之后,針對(duì)特定的下游任務(wù),只需使用少量該任務(wù)的標(biāo)注數(shù)據(jù)對(duì)模型進(jìn)行微調(diào),即可讓模型適應(yīng)對(duì)應(yīng)任務(wù)。
如圖2.9所示,直觀地展示了這一預(yù)訓(xùn)練與微調(diào)的完整流程:通用文本數(shù)據(jù)經(jīng)過自監(jiān)督學(xué)習(xí)形成基礎(chǔ)模型,隨后通過特定任務(wù)數(shù)據(jù)進(jìn)行微調(diào),最終適應(yīng)各項(xiàng)下游任務(wù)。

圖 2.9 “預(yù)訓(xùn)練-微調(diào)”范式示意圖
大型語(yǔ)言模型的誕生與涌現(xiàn)能力
通過在數(shù)萬(wàn)億級(jí)別的文本上進(jìn)行預(yù)訓(xùn)練,大型語(yǔ)言模型的神經(jīng)網(wǎng)絡(luò)權(quán)重實(shí)際上已經(jīng)構(gòu)建了一個(gè)關(guān)于世界知識(shí)的、高度壓縮的隱式模型。它以一種全新的方式,解決了符號(hào)主義時(shí)代最棘手的“知識(shí)獲取瓶頸”問題。更令人驚訝的是,當(dāng)模型的規(guī)模(參數(shù)量、數(shù)據(jù)量、計(jì)算量)跨越某個(gè)閾值后,它們開始展現(xiàn)出未被直接訓(xùn)練的、預(yù)料之外的涌現(xiàn)能力(Emergent Abilities),例如:
- 上下文學(xué)習(xí)(In-context Learning):無需調(diào)整模型權(quán)重,僅在輸入中提供幾個(gè)示例(Few-shot)甚至零個(gè)示例(Zero-shot),模型就能理解并完成新的任務(wù)。
- 思維鏈(Chain-of-Thought)推理:通過引導(dǎo)模型在回答復(fù)雜問題前,先輸出一步步的推理過程,可以顯著提升其在邏輯、算術(shù)和常識(shí)推理任務(wù)上的準(zhǔn)確性。
這些能力的出現(xiàn),標(biāo)志著LLM不再僅僅是一個(gè)語(yǔ)言模型,它已經(jīng)演變成了一個(gè)兼具海量知識(shí)庫(kù)和通用推理引擎雙重角色的組件。
至此,智能體發(fā)展的歷史長(zhǎng)河中,幾大關(guān)鍵的技術(shù)拼圖已經(jīng)悉數(shù)登場(chǎng):符號(hào)主義提供了邏輯推理的框架,聯(lián)結(jié)主義和強(qiáng)化學(xué)習(xí)提供了學(xué)習(xí)與決策的能力,而大型語(yǔ)言模型則提供了前所未有的、通過預(yù)訓(xùn)練獲得的世界知識(shí)和通用推理能力。下一節(jié),我們將看到這些技術(shù)是如何在現(xiàn)代智能體的設(shè)計(jì)中融為一體的。
2.4.4 基于大語(yǔ)言模型的智能體
隨著大型語(yǔ)言模型技術(shù)的飛速發(fā)展,以LLM為核心的智能體已成為人工智能領(lǐng)域的新范式。它不僅能夠理解和生成人類語(yǔ)言,更重要的是,能夠通過與環(huán)境的交互,自主地感知、規(guī)劃、決策和執(zhí)行任務(wù)。

圖 2.10 LLM驅(qū)動(dòng)的智能體核心組件架構(gòu)
如第一章所述,智能體與環(huán)境的交互可以被抽象為一個(gè)核心循環(huán)。LLM驅(qū)動(dòng)的智能體通過一個(gè)由多個(gè)模塊協(xié)同工作的、持續(xù)迭代的閉環(huán)流程來完成任務(wù)。該流程遵循圖2.10所示的架構(gòu),具體步驟如下:
- 感知 (Perception) :流程始于感知模塊 (Perception Module)。它通過傳感器從外部環(huán)境 (Environment) 接收原始輸入,形成****觀察 (Observation)。這些觀察信息(如用戶指令、API返回的數(shù)據(jù)或環(huán)境狀態(tài)的變化)是智能體決策的起點(diǎn),處理后將被傳遞給思考階段。
- 思考 (Thought) :這是智能體的認(rèn)知核心,對(duì)應(yīng)圖中的規(guī)劃模塊 (Planning Module) 和大型語(yǔ)言模型 (LLM) 的協(xié)同工作。
- 規(guī)劃與分解:首先,規(guī)劃模塊接收觀察信息,進(jìn)行高級(jí)策略制定。它通過反思 (Reflection) 和自我批判 (Self-criticism) 等機(jī)制,將宏觀目標(biāo)分解為更具體、可執(zhí)行的步驟。
- 推理與決策:隨后,作為中樞的LLM接收來自規(guī)劃模塊的指令,并與記憶模塊 (Memory) 交互以整合歷史信息。LLM進(jìn)行深度推理,最終決策出下一步要執(zhí)行的具體操作,這通常表現(xiàn)為一個(gè)工具調(diào)用 (Tool Call)。
- 行動(dòng) (Action) :決策完成后,便進(jìn)入行動(dòng)階段,由執(zhí)行模塊 (Execution Module) 負(fù)責(zé)。LLM生成的工具調(diào)用指令被發(fā)送到執(zhí)行模塊。該模塊解析指令,從工具箱 (Tool Use) 中選擇并調(diào)用合適的工具(如代碼執(zhí)行器、搜索引擎、API等)來與環(huán)境交互或執(zhí)行任務(wù)。這個(gè)與環(huán)境的實(shí)際交互就是智能體的行動(dòng) (Action)。
- 觀察 (Observation) 與循環(huán) :行動(dòng)會(huì)改變環(huán)境的狀態(tài),并產(chǎn)生結(jié)果。
- 工具執(zhí)行后會(huì)返回一個(gè)工具結(jié)果 (Tool Result) 給LLM,這構(gòu)成了對(duì)行動(dòng)效果的直接反饋。同時(shí),智能體的行動(dòng)改變了環(huán)境,從而產(chǎn)生了一個(gè)全新的環(huán)境狀態(tài)。
- 這個(gè)“工具結(jié)果”和“新的環(huán)境狀態(tài)”共同構(gòu)成了一輪全新的觀察 (Observation)。這個(gè)新的觀察會(huì)被感知模塊再次捕獲,同時(shí)LLM會(huì)根據(jù)行動(dòng)結(jié)果更新記憶 (Memory Update),從而啟動(dòng)下一輪“感知-思考-行動(dòng)”的循環(huán)。
這種模塊化的協(xié)同機(jī)制與持續(xù)的迭代循環(huán),構(gòu)成了LLM驅(qū)動(dòng)智能體解決復(fù)雜問題的核心工作流。
2.4.5 智能體發(fā)展關(guān)鍵節(jié)點(diǎn)概覽
人工智能體的發(fā)展史并非一條筆直的單行道,而是幾大核心思想流派長(zhǎng)達(dá)半個(gè)多世紀(jì)交織、競(jìng)爭(zhēng)與融合的歷程。理解這一歷程,有助于我們洞察當(dāng)前智能體架構(gòu)范式形成的深刻根源。
這其中,主要有三大思潮主導(dǎo)著不同時(shí)期的研究范式:
- 符號(hào)主義 (Symbolism) :以司馬賀 (Herbert A. Simon) 、明斯基 (Marvin Minsky) 等先驅(qū)為代表,認(rèn)為智能的核心在于對(duì)符號(hào)的操作與邏輯推理。這一思想催生了能夠理解自然語(yǔ)言指令的SHRDLU、知識(shí)驅(qū)動(dòng)的專家系統(tǒng)以及在國(guó)際象棋領(lǐng)域取得巨大成功的“深藍(lán)”計(jì)算機(jī)。
- 聯(lián)結(jié)主義 (Connectionism) :其靈感源于對(duì)大腦神經(jīng)網(wǎng)絡(luò)的模擬。盡管早期發(fā)展受限,但在杰弗里·辛頓 (Geoffrey Hinton) 等研究者的推動(dòng)下,反向傳播算法為神經(jīng)網(wǎng)絡(luò)的復(fù)蘇奠定了基礎(chǔ)。最終,隨著深度學(xué)習(xí)時(shí)代的到來,這一思想通過卷積神經(jīng)網(wǎng)絡(luò)、Transformer等模型成為當(dāng)前的主流。
- 行為主義 (Behaviorism) :強(qiáng)調(diào)智能體通過與環(huán)境的互動(dòng)和試錯(cuò)來學(xué)習(xí)最優(yōu)策略,其現(xiàn)代化身為強(qiáng)化學(xué)習(xí) 。從早期的TD-Gammon到與深度學(xué)習(xí)結(jié)合并擊敗人類頂尖棋手的AlphaGo,這一流派為智能體賦予了從經(jīng)驗(yàn)中習(xí)得復(fù)雜決策行為的能力。
進(jìn)入21世紀(jì)20年代,這些思想流派以前所未有的方式深度融合。以GPT系列為代表的大語(yǔ)言模型,其本身是聯(lián)結(jié)主義的產(chǎn)物,卻成為了執(zhí)行符號(hào)推理、進(jìn)行工具調(diào)用和規(guī)劃決策的核心“大腦”,形成了神經(jīng)-符號(hào)結(jié)合的現(xiàn)代智能體架構(gòu)。為了系統(tǒng)性地回顧這一發(fā)展脈絡(luò),下圖2.11梳理了從20世紀(jì)50年代至今,人工智能體發(fā)展史上的關(guān)鍵理論、項(xiàng)目與事件,為讀者提供一個(gè)清晰的全局概覽,作為本章知識(shí)的沉淀。

圖 2.11 智能體發(fā)展演進(jìn)時(shí)間線(未完全版)
得益于大語(yǔ)言模型的突破,智能體技術(shù)棧呈現(xiàn)出前所未有的活躍度和多樣性。圖2.12展示了當(dāng)前AI Agent領(lǐng)域的一個(gè)典型技術(shù)棧全貌,涵蓋了從底層模型到上層應(yīng)用的各個(gè)環(huán)節(jié)。

圖 2.12 AI Agent 技術(shù)棧概覽
該技術(shù)棧圖由Letta公司于2024年11月發(fā)布[10],它將AI智能體相關(guān)的工具、平臺(tái)和服務(wù)進(jìn)行了分層與分類,為我們理解當(dāng)前的市場(chǎng)格局和技術(shù)選型提供了寶貴的參考。
2.5 本章小結(jié)
本章回顧了智能體發(fā)展的歷史脈絡(luò),探索了其核心思想從誕生到演進(jìn)的過程,內(nèi)容涵蓋了人工智能領(lǐng)域幾次關(guān)鍵的范式革命:
- 符號(hào)主義的探索與局限:從人工智能的古典時(shí)代出發(fā),本章闡述了以專家系統(tǒng)為代表的早期智能體是如何嘗試通過“知識(shí)+推理”來模擬智能的。通過親手構(gòu)建一個(gè)基于規(guī)則的聊天機(jī)器人,我們深刻體會(huì)到這一范式的能力邊界及其面臨的根本性挑戰(zhàn)。
- 分布式智能思想的萌芽:探討了馬文·明斯基的“心智社會(huì)”理論。這一革命性的思想揭示了復(fù)雜的整體智能可以從簡(jiǎn)單的局部單元的交互中涌現(xiàn),為后續(xù)的多智能體系統(tǒng)研究提供了重要的哲學(xué)啟發(fā)。
- 學(xué)習(xí)范式的演進(jìn):見證了智能體獲取能力方式的根本性變革。從聯(lián)結(jié)主義賦予智能體感知世界的能力,到強(qiáng)化學(xué)習(xí)使其學(xué)會(huì)在與環(huán)境的交互中進(jìn)行最優(yōu)決策,再到基于大規(guī)模數(shù)據(jù)預(yù)訓(xùn)練的大型語(yǔ)言模型(LLM)為其提供了前所未有的世界知識(shí)和通用推理能力。
- 現(xiàn)代智能體的誕生:最后,我們對(duì)LLM驅(qū)動(dòng)智能體進(jìn)行分析。通過對(duì)其核心組件(模型、記憶、規(guī)劃、工具等)和工作原理的分析,我們理解了歷史上的各種技術(shù)思想是如何在現(xiàn)代Agent的架構(gòu)中實(shí)現(xiàn)技術(shù)融合的。
通過本章的學(xué)習(xí),我們不僅理解了第一章所介紹的現(xiàn)代智能體從何而來,更能建立了一個(gè)關(guān)于智能體技術(shù)演進(jìn)的宏觀認(rèn)知框架。可以發(fā)現(xiàn),智能體的發(fā)展并非簡(jiǎn)單的技術(shù)迭代,而是一場(chǎng)關(guān)于如何定義“智能”、獲取“知識(shí)”、進(jìn)行“決策”的思想變革。
既然現(xiàn)代智能體的核心是大型語(yǔ)言模型,那么深入理解其底層原理便至關(guān)重要。下一章將聚焦于大語(yǔ)言模型本身,探討其基本概念,為后續(xù)在多智能體系統(tǒng)中的高級(jí)應(yīng)用打下堅(jiān)實(shí)的基礎(chǔ)。
本文部分內(nèi)容參考了霍格沃茲測(cè)試開發(fā)學(xué)社整理的相關(guān)技術(shù)資料,主要涉及軟件測(cè)試、自動(dòng)化測(cè)試、測(cè)試開發(fā)及 AI 測(cè)試等內(nèi)容,側(cè)重測(cè)試實(shí)踐、工具應(yīng)用與工程經(jīng)驗(yàn)整理。
