4. Agent Quality ——【Google 5-Day AI Agents】

1. 白皮書

第四天的白皮書探討了如何保障 Agent 的工作質(zhì)量。當(dāng)前正處于 Agentic 時(shí)代的開端,盡管 Agent 能力巨大,但是其固有的非確定性不可預(yù)測性打破了我們傳統(tǒng)的質(zhì)量保障體系。
Agent 的質(zhì)量保障應(yīng)植根于架構(gòu)設(shè)計(jì)本身,而非僅依賴開發(fā)尾聲的測試環(huán)節(jié)。
本指南立足于三大核心要義:

  • 軌跡即真相:我們必須突破僅評(píng)估最終輸出的局限。Agent 質(zhì)量與安全性的真正衡量標(biāo)準(zhǔn),在于其完整的決策過程。
  • 可觀測性是基礎(chǔ):無法觀測的過程,無從評(píng)判。我們詳細(xì)闡述了可觀測性的 “三大支柱”—— 日志記錄(Logging)、軌跡追蹤(Tracing)與指標(biāo)監(jiān)測(Metrics),它們是捕捉 Agent "思考過程" 的關(guān)鍵技術(shù)基礎(chǔ)。
  • 評(píng)估是持續(xù)循環(huán):我們將這些理念整合為 “智能體質(zhì)量飛輪”(Agent Quality Flywheel)—— 這是一份實(shí)操指南,可將相關(guān)數(shù)據(jù)轉(zhuǎn)化為可落地的洞察。該體系結(jié)合了可規(guī)模化的 AI 驅(qū)動(dòng)評(píng)估工具與不可或缺的 “人機(jī)協(xié)同(Human-in-the-Loop, HITL)” 判斷機(jī)制,以推動(dòng)Agent 的持續(xù)優(yōu)化。

1.1. 如何閱讀這個(gè)白皮書

本指南的結(jié)構(gòu)是從“為什么”逐步過渡到“是什么”,最后到“如何做”。參考本章節(jié)可以導(dǎo)航到與您角色最相關(guān)的章節(jié)。

  • 面向所有讀者:從第1章: "非確定性世界中的智能體質(zhì)量" 開始。本章確立了核心問題,解釋了傳統(tǒng)質(zhì)量保證體系為何不適用于人工智能智能體,并介紹了定義我們目標(biāo)的 Agent quality 四大支柱(有效性、效率、穩(wěn)健性和安全性)。
  • 面向PM、數(shù)據(jù)科學(xué)家和QA:如果您負(fù)責(zé)確定衡量內(nèi)容以及如何評(píng)判質(zhì)量,請重點(diǎn)關(guān)注第2章: "Agent 評(píng)估的藝術(shù):過程評(píng)判"。本章是您的戰(zhàn)略指南。它詳細(xì)介紹了用于評(píng)估的“由外而內(nèi)”層級(jí)結(jié)構(gòu),闡釋了可擴(kuò)展的“"LLM-as-a-Judge”模式,并闡明了HITL的關(guān)鍵作用。
  • 面向工程師、架構(gòu)師和SRE:如果你負(fù)責(zé)構(gòu)建系統(tǒng),那么第3章: "可觀測性:洞悉 Agent 的思維" 就是你的技術(shù)藍(lán)圖。本章將從理論過渡到實(shí)踐,通過“廚房類比”(普通廚師與 gourmet 廚師)來解釋監(jiān)控與可觀測性的區(qū)別,并詳細(xì)介紹可觀測性的三大支柱Logs、TracesMetrics——這些是你構(gòu)建“可評(píng)估” Agent 所需的工具。
  • 對(duì)于團(tuán)隊(duì)負(fù)責(zé)人和戰(zhàn)略制定者:要了解這些部分如何構(gòu)成一個(gè)自我改進(jìn)的系統(tǒng),請閱讀第4章: "總結(jié):在自主世界中建立信任"。本章將這些概念整合為一本可操作的行動(dòng)手冊。它介紹了 Agent Quality Flywheel” 作為持續(xù)改進(jìn)的模型,并總結(jié)了構(gòu)建可信人工智能的三大核心原則。

1.2. 非確定性世界中的 Agent 質(zhì)量

隨著AI飛速發(fā)展,我們正從構(gòu)建執(zhí)行指令的可預(yù)測工具,邁向設(shè)計(jì)能夠解讀意圖、制定計(jì)劃并執(zhí)行復(fù)雜多步驟行動(dòng)的自主 Agent。讓 AI Agents 變得強(qiáng)大的機(jī)制,也正是使其具有不可預(yù)測性的原因。
傳統(tǒng)的質(zhì)量保證體系(QA)雖然對(duì)確定性系統(tǒng)很有效,但不足以應(yīng)對(duì)現(xiàn)代人工智能的細(xì)微差別和突發(fā)行為。一個(gè) Agent 可能通過了100個(gè)單元測試,卻仍會(huì)在實(shí)際應(yīng)用中發(fā)生災(zāi)難性故障,因?yàn)槠涔收喜⒎谴a中的漏洞,而是 LLM 判斷上的缺陷。

1.2.1. 為什么 Agent Quality 需要新的方法

對(duì)于工程師而言,風(fēng)險(xiǎn)是需要識(shí)別和處理的問題。在傳統(tǒng)軟件中,故障是明確的:系統(tǒng)崩潰、拋出空指針異常,或者返回明顯錯(cuò)誤的計(jì)算結(jié)果。這些故障顯而易見、具有確定性,并且可以追溯到邏輯中的特定錯(cuò)誤。
AI Agents 的失敗方式則不同。它們的失敗往往不是系統(tǒng)崩潰,而是質(zhì)量的微妙下降。這源于模型權(quán)重、訓(xùn)練數(shù)據(jù)和環(huán)境交互之間的復(fù)雜相互作用。這些失敗具有隱蔽性:系統(tǒng)繼續(xù)運(yùn)行,應(yīng)用程序接口調(diào)用返回 200(success),輸出看起來也合理。但實(shí)際上,這種輸出存在嚴(yán)重錯(cuò)誤,具有操作危險(xiǎn)性,并且在悄無聲息地侵蝕信任,這正是Agent 的自主性和復(fù)雜性導(dǎo)致的。

故障模式 描述 示例
算法偏差(Algorithmic Bias) 智能體將訓(xùn)練數(shù)據(jù)中存在的系統(tǒng)性偏差轉(zhuǎn)化為實(shí)際操作,且可能放大此類偏差,進(jìn)而導(dǎo)致不公平或具有歧視性的結(jié)果。 - 負(fù)責(zé)風(fēng)險(xiǎn)匯總的金融智能體,因訓(xùn)練數(shù)據(jù)存在偏差,會(huì)基于郵編對(duì)貸款申請施加過度懲罰。
事實(shí)幻覺(Factual Hallucination) 當(dāng)智能體無法找到有效信息來源時(shí),往往會(huì)以高度確信的態(tài)度生成聽起來合理但與事實(shí)不符或虛構(gòu)的信息。 - 某研究工具在學(xué)術(shù)報(bào)告中生成極為具體但完全錯(cuò)誤的歷史日期或地理位置,破壞學(xué)術(shù)誠信。
性能與概念漂移(Performance & Concept Drift) 隨著智能體所交互的現(xiàn)實(shí)世界數(shù)據(jù)(即 “概念”)發(fā)生變化,其原有訓(xùn)練內(nèi)容逐漸失效,導(dǎo)致性能隨時(shí)間推移而下降。 - 欺詐檢測智能體無法識(shí)別新型攻擊模式。
突發(fā)非預(yù)期行為(Emergent Unintended Behaviors) 智能體為實(shí)現(xiàn)目標(biāo),會(huì)形成新穎或超出預(yù)期的策略,這些策略可能效率低下、無實(shí)際幫助,甚至具有利用性。 - 發(fā)現(xiàn)并利用系統(tǒng)規(guī)則中的漏洞。- 與其他機(jī)器人發(fā)生 “代理沖突”(例如,反復(fù)覆蓋對(duì)方的編輯內(nèi)容)。

這些失敗使得傳統(tǒng)的調(diào)試和測試模式失去了效果。你無法使用斷點(diǎn)來調(diào)試幻覺問題;你也不能編寫單元測試來防止它的出現(xiàn)。根本原因分析需要深入的數(shù)據(jù)分析、模型重新訓(xùn)練和系統(tǒng)性評(píng)估——這完全是一門新的學(xué)科。

1.2.2. 范式轉(zhuǎn)變:從可預(yù)測代碼到不可預(yù)測 Agents

核心技術(shù)挑戰(zhàn)源于從以模型為中心的人工智能向以系統(tǒng)為中心的人工智能的演進(jìn)。評(píng)估 Agent 與評(píng)估 LLM 有著本質(zhì)區(qū)別,因?yàn)?Agent 是一個(gè)系統(tǒng)。這種演進(jìn)是分階段逐步進(jìn)行的,每個(gè)階段都增加了新的評(píng)估復(fù)雜性。

從LLM到Agent

  1. 傳統(tǒng)機(jī)器學(xué)習(xí):定義明確,我們依靠精確率、召回率、F1分?jǐn)?shù)和均方根誤差等統(tǒng)計(jì)指標(biāo),對(duì)照預(yù)留的測試集進(jìn)行評(píng)估。這個(gè)問題雖然復(fù)雜,但“正確”的定義是清晰的。
  2. 被動(dòng)式大語言模型:隨著生成式模型的興起,我們失去了簡單的衡量指標(biāo)。LLM 輸出具有概率性。即便輸入完全相同,輸出也可能存在差異。評(píng)估變得更為復(fù)雜,需要依賴人工評(píng)分以及模型間的基準(zhǔn)測試。盡管如此,這些系統(tǒng)在很大程度上仍是被動(dòng)的、文本輸入-文本輸出工具。
  3. 大語言模型+檢索增強(qiáng)生成(LLM+RAG):故障可能出現(xiàn)在大語言模型或檢索系統(tǒng)中。智能體給出糟糕的答案是因?yàn)榇笳Z言模型推理能力差,還是因?yàn)橄蛄繑?shù)據(jù)庫檢索到了不相關(guān)的片段?我們的評(píng)估范圍從僅針對(duì)模型擴(kuò)展到包括分塊策略、嵌入和檢索器的性能。
  4. 主動(dòng)式人工智能智能體:如今,我們正面臨一場深刻的架構(gòu)變革。LLM 不再僅僅是文本生成器,它已成為復(fù)雜系統(tǒng)中負(fù)責(zé)推理的“大腦”,被整合到一個(gè)能夠自主行動(dòng)的循環(huán)中。這種具有智能體特性的系統(tǒng)帶來了三項(xiàng)核心技術(shù)能力,這些能力打破了我們現(xiàn)有的評(píng)估模型:
    • 規(guī)劃與多步驟推理:Agent 將復(fù)雜目標(biāo)(如“規(guī)劃我的旅行”)分解為多個(gè)子任務(wù)。這會(huì)形成一條 trajectory(軌跡):思考→行動(dòng)→觀察→思考……。LLM 的非確定性如今在每一步都會(huì)加劇。第一步中一個(gè)微小的、隨機(jī)的詞匯選擇,到第四步時(shí)可能會(huì)讓 Agent 陷 入一條完全不同且無法恢復(fù)的推理路徑。
    • 工具使用與函數(shù)調(diào)用:Agent 通過API和外部工具(代碼解釋器、搜索引擎、預(yù)訂API)與現(xiàn)實(shí)世界交互。這帶來了動(dòng)態(tài)的環(huán)境交互。智能體的下一步行動(dòng)完全取決于外部不可控世界的狀態(tài)。
    • Memory:Agent 持有狀態(tài)。短期記憶追蹤當(dāng)前任務(wù),而長期記憶使 Agent 能夠從過去的交互中學(xué)習(xí)。這意味著 Agent 的行為會(huì)不斷演變,基于“學(xué)到”的內(nèi)容,昨天有效的輸入今天可能會(huì)產(chǎn)生不同的結(jié)果。
  5. 多智能體系統(tǒng):當(dāng)多個(gè)活躍智能體被整合到一個(gè)共享環(huán)境中時(shí),就會(huì)出現(xiàn)極高的架構(gòu)復(fù)雜性。這不再是對(duì)單一軌跡的評(píng)估,而是對(duì)系統(tǒng)級(jí)涌現(xiàn)現(xiàn)象的評(píng)估,由此帶來了新的根本性挑戰(zhàn):
    • 突發(fā)系統(tǒng)故障:系統(tǒng)的成功取決于智能體之間非預(yù)設(shè)的交互,例如資源爭奪、通信瓶頸和系統(tǒng)性死鎖,這些問題不能歸咎于單個(gè)智能體的故障。
    • 協(xié)作式評(píng)估與競爭式評(píng)估:目標(biāo)函數(shù)本身可能會(huì)變得模糊。在協(xié)作式多智能體系統(tǒng)中(例如供應(yīng)鏈優(yōu)化),成功是一個(gè)全局指標(biāo);而在競爭式多智能體系統(tǒng)中(例如博弈論場景或拍賣系統(tǒng)),評(píng)估通常需要跟蹤單個(gè)智能體的性能以及整體市場/環(huán)境的穩(wěn)定性。

這種能力組合意味著評(píng)估的主要單位不再是模型,而是整個(gè)系統(tǒng)的軌跡(trajectory)。智能體的涌現(xiàn)行為源于其規(guī)劃模塊、工具、記憶與動(dòng)態(tài)環(huán)境之間復(fù)雜的相互作用。

1.2.3. Agent Quality 支柱:評(píng)估框架

如果我們不能再依賴簡單的準(zhǔn)確率指標(biāo),而必須對(duì)整個(gè)系統(tǒng)進(jìn)行評(píng)估,那么我們該從何處入手呢?答案是一種被稱為“Outside-In(由外而內(nèi))”的戰(zhàn)略性轉(zhuǎn)變方法。
這種方法將 AI 評(píng)估錨定在以用戶為中心的指標(biāo)和整體業(yè)務(wù)目標(biāo)上,不再僅僅依賴內(nèi)部的、組件級(jí)的技術(shù)分?jǐn)?shù)。我們不能只問“模型的F1分?jǐn)?shù)是多少?”,而應(yīng)該開始問“這個(gè) Agent 是否能帶來可衡量的價(jià)值,并且與用戶的意圖一致?”
這一策略需要一個(gè)整體框架,將高級(jí)別的業(yè)務(wù)目標(biāo)與技術(shù)性能聯(lián)系起來。我們從四個(gè)相互關(guān)聯(lián)的支柱來定義 Agent 的質(zhì)量:

Agent 質(zhì)量 四個(gè)支柱

  • 有效性:這是核心終極問題:Agent 是否成功且精準(zhǔn)地實(shí)現(xiàn)了用戶的真實(shí)意圖?該支柱直接關(guān)聯(lián)以用戶為中心的指標(biāo)與業(yè)務(wù)關(guān)鍵績效指標(biāo)(KPI)。對(duì)于零售Agent 而言,這不僅是 “是否找到了商品?”,更是 “是否促成了轉(zhuǎn)化?”;對(duì)于數(shù)據(jù)分析 Agent,則不是 “是否寫出了代碼?”,而是 “代碼是否產(chǎn)出了正確的洞察?”。有效性是衡量任務(wù)成功的最終標(biāo)準(zhǔn)。
  • 高效性:Agent 是否高效地解決了問題?一個(gè)預(yù)訂簡單航班卻需要 25 個(gè)步驟、5 次工具調(diào)用失敗以及 3 次自我修正循環(huán)的 Agent,即便最終成功,也應(yīng)被視為低質(zhì)量 Agent。效率通過消耗的資源來衡量:tokens(成本)、實(shí)際耗時(shí)(延遲)以及軌跡復(fù)雜度(總步驟數(shù))。
  • 穩(wěn)健性:Agent 如何應(yīng)對(duì)現(xiàn)實(shí)世界的各種挑戰(zhàn)與復(fù)雜狀況?當(dāng) API 超時(shí)、網(wǎng)站布局變更、數(shù)據(jù)缺失或用戶提供模糊提示時(shí),Agent 能否優(yōu)雅地處理失???穩(wěn)健的 Agent 會(huì)重試失敗的調(diào)用,在需要時(shí)向用戶請求澄清,并如實(shí)報(bào)告無法完成的事項(xiàng)及原因,而非崩潰或產(chǎn)生幻覺。
  • 安全性:這是不可妥協(xié)的底線。Agent 是否在其設(shè)定的倫理邊界與約束范圍內(nèi)運(yùn)行?該支柱涵蓋從負(fù)責(zé)任 AI 的公平性與無偏性指標(biāo),到抵御提示注入攻擊和數(shù)據(jù)泄露的安全防護(hù)等所有方面。它確保 Agent 專注于任務(wù)本身,拒絕有害指令,并成為組織可信賴的代理。

這個(gè)框架闡明了一件事:如果只看最終答案,你就無法衡量這些支柱中的任何一個(gè)。如果不計(jì)算步驟,就無法衡量效率。如果不知道哪個(gè)API調(diào)用失敗了,就無法診斷穩(wěn)健性故障。如果無法檢查 Agent 的內(nèi)部推理過程,就無法驗(yàn)證安全性。

1.3. Agent 評(píng)估的藝術(shù):過程評(píng)判

Agent 評(píng)估是一個(gè)全面的驗(yàn)證過程。它提出了一個(gè)復(fù)雜得多且至關(guān)重要的戰(zhàn)略性問題:“我們是否打造了正確的產(chǎn)品?”這個(gè)問題是“Outside-In”評(píng)估框架的戰(zhàn)略核心,意味著需要從內(nèi)部合規(guī)轉(zhuǎn)向評(píng)判系統(tǒng)的外部價(jià)值以及與用戶意圖的契合度。這要求我們評(píng)估 Agent 在動(dòng)態(tài)環(huán)境中運(yùn)行時(shí)的整體質(zhì)量、穩(wěn)健性和用戶價(jià)值。
AI Agent 能夠規(guī)劃、使用工具并與復(fù)雜環(huán)境交互——極大地復(fù)雜化了評(píng)估它的方方式。我們必須超越對(duì)輸出的“測試”,轉(zhuǎn)而學(xué)習(xí)對(duì)過程的“評(píng)估”的藝術(shù)。本章正是為此提供了一個(gè)戰(zhàn)略框架:評(píng)判 Agent 從初始意圖到最終結(jié)果的整個(gè)決策軌跡(trajectory)。

1.3.1. Outside-In 評(píng)估層級(jí)

為避免在海量的單元級(jí)評(píng)估指標(biāo)中迷失方向,必須創(chuàng)建一個(gè)自上而下的戰(zhàn)略性過程。我們將其稱為“由外而內(nèi)”層級(jí)法。這種方法會(huì)優(yōu)先考慮唯一最終重要的指標(biāo)——現(xiàn)實(shí)世界中的成功,之后再深入探究這種成功或失敗背后的技術(shù)細(xì)節(jié)。該模型分為兩個(gè)階段:先從黑箱入手,再將其打開。

1.3.1.1 Outside-In 端到端評(píng)估

Agent 評(píng)估架構(gòu)

第一個(gè)也是最重要的問題是:“Agent 是否有效地實(shí)現(xiàn)了用戶的目標(biāo)?
這是“由外而內(nèi)”的視角。在分析任何內(nèi)部想法或工具調(diào)用之前,我們必須根據(jù) Agent 既定的目標(biāo)來評(píng)估其最終表現(xiàn)。
此階段的指標(biāo)側(cè)重于整體任務(wù)的完成情況。我們衡量的是:

  • 任務(wù)成功率:對(duì)最終輸出是否正確、完整且解決了用戶實(shí)際問題的評(píng)分,例如編碼智能體的PR接受率、金融智能體的數(shù)據(jù)庫交易成功率,或客服機(jī)器人的會(huì)話完成率。
  • 用戶滿意度:對(duì)于交互式智能體而言,這可以是直接的用戶反饋評(píng)分(例如,點(diǎn)贊/點(diǎn)踩)或客戶滿意度評(píng)分(CSAT)。
  • 整體質(zhì)量:如果 Agent 的目標(biāo)是可量化的(例如,“總結(jié)這10篇文章”),那么衡量標(biāo)準(zhǔn)可能是準(zhǔn)確性或完整性(例如,“它是否總結(jié)了全部10篇?”)。

如果 Agent 在這個(gè)階段獲得100%的分?jǐn)?shù),我們的工作可能就完成了。但在復(fù)雜系統(tǒng)中,這種情況很少見。當(dāng) Agent 生成有缺陷的最終輸出、放棄任務(wù)或無法得出解決方案時(shí),“由外而內(nèi)”的視角會(huì)告訴我們哪里出了問題?,F(xiàn)在我們必須打開這個(gè)“黑箱”,看看原因何在。

1.3.1.2 Inside-Out 軌跡評(píng)估

一旦確定了上一步是失敗的,我們就轉(zhuǎn)向“由內(nèi)而外”的視角。我們通過系統(tǒng)評(píng)估 Agent 執(zhí)行軌跡的每個(gè)組成部分來分析:

  1. LLM Planning(思考):這方面的故障包括 LLM 幻覺、無意義或偏離主題的回應(yīng)、語境污染或重復(fù)輸出循環(huán)。
  2. Tool Usage(選擇和參數(shù)):分析 Agent 是否調(diào)用了錯(cuò)誤的工具、未能調(diào)用必要的工具、虛構(gòu)工具名稱或參數(shù)名稱/類型,或者進(jìn)行了不必要的調(diào)用。即使它選擇了正確的工具,也可能因提供缺失的參數(shù)、錯(cuò)誤的數(shù)據(jù)類型或格式錯(cuò)誤的API調(diào)用JSON而失敗。
  3. Tool Response(觀察):工具正確執(zhí)行后,Agent 必須理解其結(jié)果。Agent 在此環(huán)節(jié)經(jīng)常出錯(cuò),比如誤讀數(shù)值數(shù)據(jù)、未能從響應(yīng)中提取關(guān)鍵實(shí)體,或者更嚴(yán)重的是,沒有識(shí)別出工具返回的錯(cuò)誤狀態(tài)(例如,API的404錯(cuò)誤),卻仍按調(diào)用成功的情況繼續(xù)處理。
  4. RAG性能:如果 Agent 使用 RAG,其軌跡取決于所檢索信息的質(zhì)量。失敗情況包括檢索到不相關(guān)的文檔、獲取過時(shí)或錯(cuò)誤的信息,或者 LLM 完全忽略檢索到的上下文,仍然生成幻覺答案。
  5. 軌跡效率與穩(wěn)健性:除了正確性之外,我們還必須評(píng)估過程本身:暴露低效的資源分配,例如過多的API調(diào)用、高延遲或冗余工作。它還能揭示穩(wěn)健性故障,例如未處理的異常。
  6. 多智能體交互:在高級(jí)系統(tǒng)中,軌跡涉及多個(gè) Agents。此時(shí),評(píng)估還必須包括 Agents 間的通信日志,以檢查是否存在誤解或通信循環(huán),并確保 Agents 在不與其他 Agents 發(fā)生沖突的情況下堅(jiān)守其既定角色。

通過分析軌跡,我們可以從“最終答案是錯(cuò)誤的”(黑箱)過渡到“最終答案是錯(cuò)誤的,因?yàn)?/strong>……”(玻璃箱)。這種診斷能力水平正是Agent 評(píng)估的全部目標(biāo)。

1.3.2. Agent 評(píng)判的主題和內(nèi)容

知道要評(píng)估什么:軌跡(trajectory) 已經(jīng)成功了一半。另一半則是如何進(jìn)行評(píng)估。對(duì)于質(zhì)量、安全性和可解釋性等細(xì)微方面,這種判斷需要一種復(fù)雜的混合方法。自動(dòng)化系統(tǒng)能提供效率,但人類的判斷仍是質(zhì)量的關(guān)鍵。

1.3.2.1. 自動(dòng)化評(píng)估指標(biāo)

自動(dòng)化指標(biāo)具有速度快和可重復(fù)性高的特點(diǎn)。它們在回歸測試和輸出基準(zhǔn)測試中很有用。例如:

  • 基于字符串的相似度(ROUGE、BLEU),用于比較生成文本與參考文本。
  • 基于嵌入的相似度(BERTScore、余弦相似度),用于衡量語義貼近度。
  • 特定任務(wù)基準(zhǔn),例如 TruthfulQA2

自動(dòng)化指標(biāo)雖高效卻流于表面:它們只能捕捉表面的相似性,無法體現(xiàn)更深層次的推理或用戶價(jià)值。

1.3.2.2. LLM 作為評(píng)判者

我們該如何自動(dòng)化評(píng)估 “這個(gè)總結(jié)是否優(yōu)質(zhì)?” 或 “這個(gè)方案是否合理?” 這類定性輸出呢?答案:LLM-as-a-Judge 方式,即采用另一款強(qiáng)大的模型來評(píng)估當(dāng)前 Agent 的輸出。
向作為 “評(píng)估者” 的模型提供以下信息:Agent 的輸出結(jié)果、原始提示詞、“標(biāo)準(zhǔn)答案” 或參考依據(jù)(若存在),以及一份詳細(xì)的評(píng)估標(biāo)準(zhǔn)(例如,“從實(shí)用性、準(zhǔn)確性和安全性三個(gè)維度,按 1-5 分給該響應(yīng)打分,并說明評(píng)分理由”)。這種方法能提供可規(guī)?;⒏咝揖润@人的反饋,尤其適用于 Agent “思考過程” 質(zhì)量、工具響應(yīng)解讀等中間環(huán)節(jié)的評(píng)估。盡管它無法取代人類判斷,但能幫助我們在數(shù)千種場景中快速評(píng)估 Agent 性能,讓迭代式評(píng)估流程具備可行性。(最好進(jìn)行對(duì)比性評(píng)估AB兩個(gè)結(jié)果對(duì)比)

1.3.2.3. Agent 作為評(píng)判者

LLM 雖能對(duì)最終響應(yīng)打分,但對(duì) Agent的評(píng)估需要更深入 —— 不僅看結(jié)果,更要審視其背后的推理邏輯與執(zhí)行行為。為此,Agent-as-a-Judge 這一新興范式應(yīng)運(yùn)而生:它讓一個(gè) Agent 完整評(píng)估另一個(gè) Agent 的執(zhí)行軌跡,核心是聚焦 “過程” 而非僅評(píng)判 “輸出”。其關(guān)鍵評(píng)估維度包含三大方面:

  • 計(jì)劃質(zhì)量:Agent 制定的方案邏輯是否清晰、是否具備可落地性?
  • 工具使用:所選工具是否契合任務(wù)需求,且應(yīng)用過程是否正確?
  • 上下文處理:Agent 能否有效利用前期獲取的信息輔助決策?

這種方法在過程評(píng)估中特別有價(jià)值,因?yàn)槭⊥从谟腥毕莸闹虚g步驟,而非最終輸出。
要落地 “智能體作為評(píng)估者”,可按以下步驟操作:

  1. 配置 Agent 框架,使其記錄并導(dǎo)出完整的執(zhí)行軌跡,軌跡中需包含 Agent 的內(nèi)部計(jì)劃、所選工具列表,以及傳遞給工具的精確參數(shù);
  2. 再創(chuàng)建一個(gè)專用的評(píng)估 Agent,并為其配置包含評(píng)估標(biāo)準(zhǔn)的 Prompt,讓它直接對(duì)軌跡數(shù)據(jù)進(jìn)行評(píng)估。Prompt 需聚焦過程性問題,例如:“1. 從軌跡來看,初始計(jì)劃是否符合邏輯?2. 工具 A 是否是合適的首選工具,還是應(yīng)選用其他工具?3. 傳遞的參數(shù)是否正確且格式規(guī)范?” 如此一來,即便 Agent 最終輸出看似正確,也能自動(dòng)檢測出過程中的問題(如計(jì)劃效率低等)。

1.3.2.4. HITL 評(píng)判

自動(dòng)化雖能實(shí)現(xiàn)規(guī)?;u(píng)估,卻在深度主觀性任務(wù)(如創(chuàng)意質(zhì)量評(píng)估、語氣微妙性判斷)和復(fù)雜領(lǐng)域知識(shí)應(yīng)用上存在局限。而 Human-in-the-Loop(HITL) ,正是彌補(bǔ)這一短板的核心手段 —— 它能捕捉自動(dòng)化系統(tǒng)遺漏的關(guān)鍵定性信號(hào)與細(xì)微判斷,為 Agent 質(zhì)量校準(zhǔn)提供 “人類視角”。
不過需明確的是,人工評(píng)分并非絕對(duì)的 “客觀真相”:面對(duì)高度主觀的評(píng)估維度,標(biāo)注者間很難達(dá)成完全一致。因此,HITL 的核心價(jià)值在于建立 “經(jīng)人類校準(zhǔn)的基準(zhǔn)”,確保 Agent 行為符合復(fù)雜的人類價(jià)值觀、場景化需求,以及醫(yī)療、法律、金融等專業(yè)領(lǐng)域的精準(zhǔn)性要求。具體而言,HITL 流程通過三大關(guān)鍵功能落地:

  1. 領(lǐng)域?qū)I(yè)支持:針對(duì)醫(yī)療、法律等專業(yè) Agent,需依靠領(lǐng)域?qū)<以u(píng)估其輸出的事實(shí)準(zhǔn)確性與行業(yè)標(biāo)準(zhǔn)符合性;
  2. 細(xì)微差異解讀:人類能精準(zhǔn)判斷 Agent 互動(dòng)中的微妙特質(zhì),比如溝通語氣是否恰當(dāng)、是否契合用戶潛在意圖、倫理層面是否合規(guī);
  3. 構(gòu)建 “黃金集合”:在自動(dòng)化評(píng)估啟動(dòng)前,由人類打造包含典型、邊緣及對(duì)抗性場景的測試基準(zhǔn),明確 Agent 成功的核心目標(biāo),為后續(xù)評(píng)估提供參照。

1.3.2.5. 用戶反饋和 Reviewer 界面

評(píng)估還必須收集 Agent 真實(shí)的用戶反饋。每一次互動(dòng)都是反映其 “實(shí)用性”“清晰度” 與 “可信度” 的重要信號(hào)。這類反饋既包含 “點(diǎn)贊 / 踩” 這類直觀的定性信息,也涵蓋可量化的產(chǎn)品內(nèi)成功指標(biāo),比如代碼類 Agent 的拉取請求(PR)通過率、旅行類 Agent 的預(yù)訂完成率。
要讓用戶反饋真正助力 Agent 優(yōu)化,需遵循四大最佳實(shí)踐:

  1. 低門檻反饋設(shè)計(jì):用 “點(diǎn)贊 / 點(diǎn)踩”、快捷滑塊或簡短評(píng)論等輕量化方式,降低用戶反饋的操作成本,提升參與意愿;
  2. 場景化反饋關(guān)聯(lián):將用戶反饋與完整對(duì)話記錄、Agent 的推理軌跡綁定,讓后續(xù)問題定位有跡可循,避免 “反饋孤立無援”;
  3. 專業(yè)化評(píng)審界面(Reviewer UI):采用雙面板布局,左側(cè)展示對(duì)話流程,右側(cè)呈現(xiàn) Agent 的推理步驟,支持直接標(biāo)注 “計(jì)劃不合理”“工具誤用” 等問題,讓評(píng)審更精準(zhǔn);
  4. 反饋聚合看板:通過儀表盤匯總所有反饋數(shù)據(jù),自動(dòng)凸顯高頻問題與潛在風(fēng)險(xiǎn),為 Agent 迭代指明方向。

好用的界面是評(píng)估框架落地的關(guān)鍵 —— 一套優(yōu)秀的 Reviewer UI 能讓用戶反饋和評(píng)審意見更直觀、傳遞更高效,最終轉(zhuǎn)化為可落地的優(yōu)化動(dòng)作,避免評(píng)估流于形式。

1.3.3. AI 歸責(zé) & 安全評(píng)估

對(duì)生產(chǎn)級(jí) Agent 而言,評(píng)估絕不止 “能否完成任務(wù)” 這一項(xiàng) —— 負(fù)責(zé)任 AI(RAI)與安全性,是必須跨越的 “硬性門檻”。哪怕一個(gè) Agent 的任務(wù)完成度達(dá) 100%,若存在安全隱患、可能造成傷害,它仍是徹底的失敗品。
安全性評(píng)估并非孤立環(huán)節(jié),而是需貫穿 Agent 全開發(fā)生命周期的專業(yè)工作,核心落地路徑包含三大方向:

  1. 破壞性測試:主動(dòng)用對(duì)抗性場景 “挑戰(zhàn)” Agent,比如嘗試誘導(dǎo)其生成仇恨言論、泄露用戶隱私信息、傳播有害刻板印象,或是觸發(fā)惡意操作,以此暴露潛在安全漏洞;
  2. 自動(dòng)過濾 + 人工審核雙保障:先用技術(shù)過濾器初步攔截違反政策的內(nèi)容,但因自動(dòng)化工具難以識(shí)別細(xì)微的偏見或隱性不良信息,必須搭配人工審核進(jìn)一步把關(guān),形成 “技術(shù)篩查 + 人類判斷” 的雙重防線;
  3. 嚴(yán)格對(duì)標(biāo)倫理準(zhǔn)則:將 Agent 的輸出與預(yù)先制定的倫理規(guī)范、核心原則逐一比對(duì),確保其行為符合道德標(biāo)準(zhǔn),避免因設(shè)計(jì)漏洞導(dǎo)致意外后果。

1.4. 可觀測性:洞悉 Agent 的思維

1.4.1. 從監(jiān)控到可觀測性

在上一章中,我們確定 AI Agent 是一種新型軟件。它們不只是遵循指令,還能做出決策。這種根本差異要求我們采用新的質(zhì)量保證方法,將我們從傳統(tǒng)的軟件監(jiān)控帶入更深層次的可觀測性領(lǐng)域。

1.4.1.1. 可觀測性三大支柱

我們無法直接讀取 LLM 的想法,但可以分析它留下的痕跡。這是通過將我們的可觀測性實(shí)踐建立在三個(gè)基礎(chǔ)支柱上來實(shí)現(xiàn)的:(LOG)日志、(Traces)追蹤(Metrics)指標(biāo)。

Agent 可觀測性的三大基礎(chǔ)支柱

1.4.2. 支柱一:Logging

什么是 Logs ?日志是可觀測性的原子單位。可以把它們看作是 agent's 日記中帶有時(shí)間戳的記錄。每條記錄都是關(guān)于某個(gè)離散事件的原始、不可變的事實(shí):“在10:01:32,我被問到一個(gè)問題。在10:01:33,我決定使用 get_weather 工具?!?它們告訴我們發(fā)生了什么。

  1. 不僅是 print():什么讓 Log 變得有效?
    需要具備大規(guī)模存儲(chǔ)、搜索和分析日志數(shù)據(jù)的能力,可以自動(dòng)從服務(wù)收集日志,允許進(jìn)行標(biāo)準(zhǔn)化查詢(SQL),以發(fā)現(xiàn) Agent 行為中的趨勢。

  2. 關(guān)鍵日志條目解析
    要重建 Agent 的“思考過程”,日志必須包含豐富的上下文。結(jié)構(gòu)化的JSON格式是黃金標(biāo)準(zhǔn)。

    • 核心信息:一份優(yōu)質(zhì)的日志應(yīng)包含完整的上下文:提示詞/輸入輸出、中間推理步驟(智能體的“思維鏈”,)、結(jié)構(gòu)化工具調(diào)用(輸入、輸出、錯(cuò)誤)以及 Agent 內(nèi)部狀態(tài)的任何變化。
    • 權(quán)衡:冗長與性能:高度詳細(xì)的DEBUG日志是開發(fā)人員排查問題的得力助手,但在生產(chǎn)環(huán)境中可能過于“嘈雜”,并造成性能開銷。這就是結(jié)構(gòu)化日志如此強(qiáng)大的原因:它允許你收集詳細(xì)數(shù)據(jù),同時(shí)高效地對(duì)其進(jìn)行過濾。

    以下是一個(gè)展示結(jié)構(gòu)化日志強(qiáng)大功能的實(shí)際示例,改編自ADK的DEBUG輸出:

    // 一條記錄單次 LLM 請求的結(jié)構(gòu)化日志
    ...
    2025-07-10 15:26:13,778 - DEBUG - google_adk.google.adk.models.google_llm - Sending out request, model: gemini-2.0-flash, backend: GoogleLLMVariant.GEMINI_API, stream: False 
    2025-07-10 15:26:13,778 - DEBUG - google_adk.google.adk.models.google_llm - 
    
    LLM Request:
    System Instruction: 關(guān)于你的行為描述是:"可擲 8 面骰子并判斷結(jié)果數(shù)值的 Hello World agent"。你需執(zhí)行擲骰子操作,并回答與骰子結(jié)果相關(guān)的問題.....
    
    Contents:
    {"parts":[{"text":"擲一個(gè) 6 面骰子"}],"role":"user"} 
    {"parts":[{"function_response":{"name":"roll_die","response":{"result":2}}}],"role":"user"} {"parts":[{"function_call":{"args":{"sides":6},"name":"roll_die"}}],"role":"model"} 
    
    Functions:
    roll_die: {'sides': {'type': <Type.INTEGER: 'INTEGER'>}} 
    check_prime: {'nums': {'items': {'type': <Type.INTEGER: 'INTEGER'>}, 'type': <Type.ARRAY: 
    'ARRAY'>}} 
    
    2025-07-10 15:26:13,779 - INFO - google_genai.models - AFC is enabled with max remote 
    calls: 10.
    2025-07-10 15:26:14,309 - INFO - google_adk.google.adk.models.google_llm - 
    
    LLM Response:
    Text: 我已擲出一個(gè) 6 面骰子,結(jié)果為 2.
    

一種有效的日志記錄模式是在行動(dòng)前記錄 Agent 的意圖,在行動(dòng)后記錄結(jié)果。這能立即明確失敗的嘗試與故意決定不采取行動(dòng)之間的區(qū)別。

1.4.3. 支柱二:Tracing

什么是Tracing? 如果說 logs 是日記條目,那么traces就是將它們串聯(lián)成一個(gè)連貫故事的敘事線索。追蹤會(huì)從最初的用戶查詢到最終的答案,全程跟進(jìn)單個(gè)任務(wù),將各個(gè)日志(稱為spans)拼接成一個(gè)完整的端到端視圖。追蹤通過展示事件之間的因果關(guān)系揭示出關(guān)鍵的“原因”。

1.4.3.1. 為什么追蹤至關(guān)重要

考慮一種復(fù)雜的 Agent 故障:用戶提出問題,卻得到了毫無意義的答案。

  • 孤立日志可能顯示錯(cuò)誤:RAG搜索失敗 以及 錯(cuò)誤:LLM響應(yīng)驗(yàn)證失敗。你能看到這些錯(cuò)誤,但根本原因尚不明確。
  • Trace記錄揭示了完整的因果鏈:用戶查詢 → RAG 搜索(失?。?錯(cuò)誤的工具調(diào)用(收到空輸入)→ LLM 錯(cuò)誤(被錯(cuò)誤的工具輸出弄混淆)→ 不正確的最終答案

這條 Trace 能讓根本原因立即顯現(xiàn),這使其在調(diào)試復(fù)雜、多步驟的智能體行為時(shí)不可或缺。

1.4.3.2. 智能體 Trace 的關(guān)鍵要素

現(xiàn)代追蹤基于 OpenTelemetry 等開放標(biāo)準(zhǔn)構(gòu)建。其核心組件包括:

  • Spans:trace 中各個(gè)已命名的操作(例如,llm_call span、tool_execution span)。
  • Attributes:每個(gè) Span 附帶的豐富元數(shù)據(jù)——prompt_idlatency_ms、token_countuser_id等。
  • 上下文傳播:通過唯一的 trace_id 將 Spans 鏈接在一起的“魔法”。整合完整圖景,將 Agent 調(diào)用與所有后續(xù)的模型和工具調(diào)用關(guān)聯(lián)起來。
    OpenTelemetry 視圖允許您查看屬性、日志、事件和其他詳細(xì)信息

1.4.4. 支柱三:Metrics

什么是Metrics? Metrics 就是評(píng)論家發(fā)布的最終評(píng)分卡。它們是定量的、匯總的健康分?jǐn)?shù),能讓你立即、一目了然地了解 Agent 的整體表現(xiàn)。
評(píng)論家并非僅憑對(duì)最終結(jié)果評(píng)判就隨意給出評(píng)分。他們的判斷是基于所觀察到的一切得出的。Metrics 也是如此:它們并非新的數(shù)據(jù)來源,而是通過長期匯總日志追蹤數(shù)據(jù)得出的。它們要回答的問題是:“平均而言,性能表現(xiàn)有多好?”
對(duì)于AI Agents 而言,將 Metrics 分為兩個(gè)不同的類別是很有用的:可直接測量的系統(tǒng)指標(biāo)和更復(fù)雜、更具評(píng)估性的質(zhì)量指標(biāo)。

1.4.4.1. 系統(tǒng)指標(biāo):生命體征

系統(tǒng)指標(biāo)是衡量運(yùn)營健康狀況的基本量化指標(biāo)。它們通過聚合函數(shù)(如平均值、總和或百分位數(shù))直接從日志和追蹤的屬性中計(jì)算得出??梢詫⑦@些指標(biāo)視為 Agent 的生命體征:脈搏、體溫和血壓。
需要跟蹤的關(guān)鍵系統(tǒng)指標(biāo)包括:

  • 性能:延遲(P99)和錯(cuò)誤率
  • 成本:tokens 和 API Cost
  • 有效性:任務(wù)完成率和工具使用頻率

1.4.4.2. 質(zhì)量指標(biāo):評(píng)判決策過程

質(zhì)量指標(biāo)是在原始可觀測性數(shù)據(jù)基礎(chǔ)上,超越了效率層面的進(jìn)一步評(píng)估,用于評(píng)估 Agent 的推理過程及最終輸出質(zhì)量本身。 這些并非簡單的計(jì)數(shù)器或平均值,而是通過在原始可觀測性數(shù)據(jù)之上應(yīng)用一個(gè)判斷層而得出的二階指標(biāo),包括:

  • 正確性與準(zhǔn)確性:Agent 提供的答案是否符合事實(shí)?如果它對(duì)文檔進(jìn)行了總結(jié),該總結(jié)是否忠實(shí)于原文?
  • 軌跡遵循度:Agent 是否遵循了給定任務(wù)的預(yù)期路徑或“理想方案”?它是否按正確順序調(diào)用了正確的工具?
  • 安全性與責(zé)任性:Agent 的響應(yīng)是否避免了有害、有偏見或不適當(dāng)?shù)膬?nèi)容?
  • 有用性與相關(guān)性:Agent 的最終回復(fù)對(duì)用戶是否真的有幫助,且與他們的查詢相關(guān)?

生成這些指標(biāo)不僅需要簡單的數(shù)據(jù)庫查詢。這通常涉及將Agent的輸出與“黃金”標(biāo)準(zhǔn)數(shù)據(jù)集進(jìn)行比較,或者使用 LLM-as-a-Judge,根據(jù)評(píng)分標(biāo)準(zhǔn)對(duì)響應(yīng)進(jìn)行打分。

1.4.5. 整合:原始數(shù)據(jù)到可執(zhí)行

擁有 logs、traces 和 metrics 之后,你需要將它們整合并轉(zhuǎn)化為實(shí)際行動(dòng)和可落地的業(yè)務(wù)洞見。這涉及三個(gè)關(guān)鍵的操作實(shí)踐:

  1. 儀表盤與告警
    單一儀表盤無法滿足智能體多維度的管理需求,必須按 “系統(tǒng)健康” 和 “模型質(zhì)量” 拆分視圖,讓不同角色精準(zhǔn)獲取所需信息:
    • 運(yùn)營儀表盤(面向 SRE/DevOps 團(tuán)隊(duì))
      • 核心定位:監(jiān)控智能體 “基礎(chǔ)生命體征”,確保系統(tǒng)穩(wěn)定運(yùn)行
      • 追蹤指標(biāo):P99 延遲(反映極端情況下的用戶等待時(shí)間)、錯(cuò)誤率(工具調(diào)用 / API 請求失敗比例)、API 成本(外部服務(wù)調(diào)用開銷)、令牌消耗(LLM 使用成本)
      • 核心價(jià)值:實(shí)時(shí)捕捉 “硬故障”,比如當(dāng) P99 延遲連續(xù) 5 分鐘超過 3 秒時(shí),立即觸發(fā)告警,提示工程團(tuán)隊(duì)排查系統(tǒng)瓶頸(如服務(wù)器負(fù)載過高、工具響應(yīng)超時(shí)),避免影響用戶體驗(yàn)
    • 質(zhì)量儀表盤(面向產(chǎn)品 / 數(shù)據(jù)科學(xué) / AgentOps 團(tuán)隊(duì))
      • 核心定位:洞察智能體 “決策與輸出質(zhì)量”,發(fā)現(xiàn)細(xì)微的性能漂移
      • 追蹤指標(biāo):事實(shí)準(zhǔn)確率(輸出內(nèi)容與真實(shí)信息的匹配度)、軌跡合規(guī)性(智能體推理步驟是否符合預(yù)設(shè)流程)、實(shí)用性評(píng)分(用戶對(duì)輸出的滿意度)、幻覺率(生成虛假信息的比例)
      • 核心價(jià)值:捕捉 “軟問題”,例如當(dāng) “實(shí)用性評(píng)分” 24 小時(shí)內(nèi)下降 10% 時(shí),即便系統(tǒng)指標(biāo)(如延遲、錯(cuò)誤率)正常,也能及時(shí)預(yù)警 —— 提示團(tuán)隊(duì)排查是否是新模型部署后推理邏輯變化、或訓(xùn)練數(shù)據(jù)偏差導(dǎo)致質(zhì)量退化
  2. 安全與隱私保護(hù)
    在生產(chǎn)環(huán)境中,日志和軌跡會(huì)不可避免地記錄用戶輸入,其中可能包含身份證號(hào)、手機(jī)號(hào)等個(gè)人身份信息(PII)。因此,數(shù)據(jù)脫敏機(jī)制必須成為日志流水線的 “標(biāo)配環(huán)節(jié)”:在數(shù)據(jù)長期存儲(chǔ)前,需通過技術(shù)手段自動(dòng)過濾或加密 PII 信息,既符合《個(gè)人信息保護(hù)法》等隱私法規(guī),也能避免用戶數(shù)據(jù)泄露風(fēng)險(xiǎn)。這不是 “可選項(xiàng)”,而是智能體合規(guī)運(yùn)營的底線。
  3. 平衡數(shù)據(jù)粒度與系統(tǒng)開銷
    若對(duì)生產(chǎn)環(huán)境中每一次請求都記錄高細(xì)節(jié)日志(如 DEBUG 級(jí)別),會(huì)導(dǎo)致兩大問題:一是存儲(chǔ)與計(jì)算成本飆升,二是系統(tǒng) latency(延遲)增加。解決之道在于 “動(dòng)態(tài)采樣” 這一最佳實(shí)踐:
    • 開發(fā)環(huán)境:使用高粒度日志(DEBUG 級(jí)別),方便工程師調(diào)試代碼、驗(yàn)證邏輯;
    • 生產(chǎn)環(huán)境:默認(rèn)采用低粒度日志(INFO 級(jí)別),同時(shí)按場景靈活采樣 —— 例如僅追蹤 10% 的成功請求,用于統(tǒng)計(jì)整體性能;但對(duì) 100% 的錯(cuò)誤請求完整記錄軌跡,確保每個(gè)故障都有詳細(xì)診斷數(shù)據(jù)。
      這種方式既能為指標(biāo)計(jì)算提供足夠的性能樣本,又不會(huì)讓系統(tǒng)過載,實(shí)現(xiàn) “成本可控” 與 “故障可查” 的雙贏。

1.5. 總結(jié)

在 AI 智能體(Agent)技術(shù)飛速發(fā)展的今天,如何讓具備自主性與非確定性的智能體突破傳統(tǒng)軟件質(zhì)量模型的局限,成為企業(yè)可信賴的工具?本文將整合白皮書核心內(nèi)容,拆解智能體質(zhì)量保障的 “飛輪體系” 與三大核心原則,為落地企業(yè)級(jí)智能體提供行動(dòng)藍(lán)圖。

1.5.1. 從 “能做事” 到 “可信任” 的跨越

AI 智能體的特殊性在于其 “自主決策” 能力 —— 它不像傳統(tǒng)軟件那樣遵循固定邏輯,而是會(huì)基于模型推理、工具調(diào)用、環(huán)境交互動(dòng)態(tài)調(diào)整行為。這種特性讓評(píng)估標(biāo)準(zhǔn)從 “任務(wù)是否完成” 升級(jí)為 “任務(wù)如何完成”:效率是否最優(yōu)?操作是否安全?用戶體驗(yàn)是否良好?畢竟,當(dāng)智能體的失誤可能引發(fā)業(yè)務(wù)風(fēng)險(xiǎn)(如金融領(lǐng)域的決策偏差、醫(yī)療場景的建議錯(cuò)誤)時(shí),“盲目部署” 絕不可行。
為應(yīng)對(duì)這一挑戰(zhàn),白皮書首先確立了智能體質(zhì)量的四大支柱,作為所有評(píng)估與優(yōu)化的核心目標(biāo):

  • 有效性:是否精準(zhǔn)達(dá)成用戶真實(shí)意圖(如零售智能體不僅要找到商品,更要推動(dòng)轉(zhuǎn)化);
  • 成本效益:完成任務(wù)的資源消耗是否合理(如避免過多工具調(diào)用、冗余推理步驟);
  • 安全性:是否符合倫理邊界與合規(guī)要求(如規(guī)避偏見、防止數(shù)據(jù)泄露);
  • 用戶信任:是否能持續(xù)提供可靠、可解釋的服務(wù),建立長期信任關(guān)系。

1.5.2. 智能體質(zhì)量飛輪:讓系統(tǒng) “自我進(jìn)化”

優(yōu)秀的智能體不僅能穩(wěn)定執(zhí)行任務(wù),更能通過持續(xù)評(píng)估不斷優(yōu)化。白皮書提出的 “智能體質(zhì)量飛輪”,正是將 “定義質(zhì)量 - 觀測行為 - 評(píng)估過程 - 反饋迭代” 整合為閉環(huán)的運(yùn)營體系,像推動(dòng)一個(gè)重型飛輪般,從初始的 “費(fèi)力啟動(dòng)” 到后續(xù)的 “慣性加速”,形成質(zhì)量與信任的良性循環(huán)。其四大核心步驟如下:


智能體質(zhì)量飛輪

步驟 1:定義質(zhì)量(明確方向)

飛輪的第一步是鎖定目標(biāo) —— 以 “四大質(zhì)量支柱” 為具體標(biāo)準(zhǔn),而非抽象的 “好與壞”。例如,為客服智能體設(shè)定 “有效性” 指標(biāo)為 “用戶問題解決率≥90%”,“安全性” 指標(biāo)為 “敏感信息泄露率 = 0”,讓后續(xù)評(píng)估有明確依據(jù)。

步驟 2:構(gòu)建可見性(筑牢基礎(chǔ))

“看不見的過程無法管理”。通過可觀測性實(shí)踐(對(duì)應(yīng)白皮書第 3 章),讓智能體生成兩類關(guān)鍵數(shù)據(jù):

  • 結(jié)構(gòu)化日志:像 “智能體日記”,記錄每一步操作(如 “15:30 調(diào)用天氣 API,參數(shù)為北京”);
  • 端到端軌跡:像 “敘事線索”,串聯(lián)零散日志,呈現(xiàn)完整決策鏈(如 “用戶請求→LLM 規(guī)劃→工具調(diào)用→結(jié)果生成”)。
    這些數(shù)據(jù)是衡量 “四大支柱” 的 “證據(jù)庫”,也是飛輪轉(zhuǎn)動(dòng)的核心燃料。

步驟 3:評(píng)估過程(驅(qū)動(dòng)運(yùn)轉(zhuǎn))

有了可見性數(shù)據(jù),下一步就是用 “由外而內(nèi)” 的評(píng)估框架(對(duì)應(yīng)白皮書第 2 章)判斷性能:

  • 外部評(píng)估(黑盒視角):看最終輸出是否達(dá)標(biāo)(如任務(wù)成功率、用戶滿意度);
  • 內(nèi)部評(píng)估(玻璃盒視角):拆解決策軌跡,定位問題根源(如 “推理邏輯混亂”“工具調(diào)用參數(shù)錯(cuò)誤”)。
    評(píng)估時(shí)需結(jié)合 “自動(dòng)化工具” 與 “人類判斷”:用 LLM-as-a-Judge 實(shí)現(xiàn)規(guī)?;u(píng)分(如批量檢測輸出準(zhǔn)確性),用人機(jī)協(xié)同(HITL)處理復(fù)雜場景(如醫(yī)療、法律領(lǐng)域的專業(yè)驗(yàn)證),兼顧效率與精準(zhǔn)度。

步驟 4:構(gòu)建反饋循環(huán)(加速慣性)

飛輪的關(guān)鍵在于 “失敗即資產(chǎn)”—— 將生產(chǎn)環(huán)境中捕獲的每一次失誤(如智能體生成錯(cuò)誤金融建議、未識(shí)別 API 異常),通過標(biāo)注轉(zhuǎn)化為 “黃金評(píng)估集” 中的回歸測試用例。這樣一來,系統(tǒng)會(huì)從錯(cuò)誤中學(xué)習(xí):下次遇到類似場景時(shí),自動(dòng)規(guī)避風(fēng)險(xiǎn),實(shí)現(xiàn) “越用越聰明” 的自我進(jìn)化。

1.5.3. 三大核心原則:落地可信智能體的 “底層思維”

若只能記住白皮書的一個(gè)知識(shí)點(diǎn),那一定是這三條原則 —— 它們是所有技術(shù)實(shí)踐與運(yùn)營策略的 “指南針”:

原則 1:評(píng)估是 “架構(gòu)級(jí)設(shè)計(jì)”,而非 “最后一步測試”

就像一級(jí)方程式賽車從設(shè)計(jì)之初就嵌入遙測傳感器,而非賽后加裝一樣,智能體的 “可評(píng)估性” 必須從第一行代碼開始規(guī)劃。例如,在開發(fā)初期就定義日志格式、軌跡采集規(guī)則,讓后續(xù)的質(zhì)量分析無需 “返工補(bǔ)課”。質(zhì)量不是 “測試出來的”,而是 “設(shè)計(jì)出來的”。

原則 2:軌跡即真相,過程比結(jié)果更重要

智能體的最終輸出只是 “故事的最后一句話”,真正決定質(zhì)量的是其 “思考過程”。比如,兩個(gè)客服智能體都回答了用戶的物流問題,但一個(gè)是通過精準(zhǔn)調(diào)用物流 API 獲取實(shí)時(shí)數(shù)據(jù),另一個(gè)是靠模型 “ hallucination(幻覺)” 生成虛假信息 —— 僅看結(jié)果無法區(qū)分優(yōu)劣,只有分析完整軌跡才能判斷可靠性。而這一切,都依賴于步驟 2 中構(gòu)建的深度可觀測性。

原則 3:人類是最終仲裁者,自動(dòng)化是輔助工具

自動(dòng)化(如 LLM 評(píng)估、安全過濾器)能解決 “規(guī)?;?問題,但 “好” 的定義、微妙場景的判斷(如客服語氣是否親切、法律建議是否合規(guī))必須錨定人類價(jià)值觀。就像 AI 可以幫老師批改試卷,但評(píng)分標(biāo)準(zhǔn)(什么是 “A+”)、作文的創(chuàng)意與邏輯判斷,最終仍需人類決定。

1.5.4. 未來:可靠的 Agentic

當(dāng)前正處于智能體時(shí)代初期,打造具備推理、規(guī)劃與行動(dòng)能力的 AI 是極具變革性的技術(shù)突破,但能力提升伴隨構(gòu)建可信系統(tǒng)的重大責(zé)任。

掌握 “評(píng)估工程”(即白皮書所闡述的智能體評(píng)估理念與方法)是下一波 AI 競爭的核心差異點(diǎn)。若仍將智能體質(zhì)量視為事后補(bǔ)充,會(huì)陷入 “演示前景好、落地卻失敗” 的循環(huán);而投入資源建立嚴(yán)謹(jǐn)且與架構(gòu)深度融合的評(píng)估體系,才能突破概念炒作,落地真正具備變革力的企業(yè)級(jí) AI 系統(tǒng)。

智能體研發(fā)的終極目標(biāo)不只是 “能運(yùn)行”,更是 “被信任”。這種信任并非偶然,而是通過持續(xù)、全面且架構(gòu)層面可靠的評(píng)估體系逐步構(gòu)建而成。

2. 代碼實(shí)驗(yàn)室

2.1. Log in Develop

  • 通過 Web 界面運(yùn)行 Agent 然后觀察 lm_call 和 tool_call 的具體細(xì)節(jié)內(nèi)容
  • 通過本地 debug 級(jí)別日志查看LLM 請求和回復(fù)的具體細(xì)節(jié)

2.2. Log in Production

通過 Callbacks 回調(diào)函數(shù)添加日志到代碼中

不同時(shí)間的回調(diào)函數(shù)

Google ADK 支持將 Callbacks 封裝進(jìn)自定義 Plugin 或者使用內(nèi)置的 LoggingPlugin 自動(dòng)捕獲 Agent 活動(dòng)。

from google.adk.runners import InMemoryRunner
from google.adk.plugins.logging_plugin import (
    LoggingPlugin,
)  # <---- 1. Import the Plugin
from google.genai import types
import asyncio

runner = InMemoryRunner(
    agent=research_agent_with_plugin,
    plugins=[
        LoggingPlugin()
    ],  # <---- 2. Add the plugin. Handles standard Observability logging across ALL agents
)

print("? Runner configured")

LangGraph 內(nèi)部有 BaseCallbackHandler 同樣可以實(shí)現(xiàn)回調(diào)函數(shù);LangSmith 可以實(shí)現(xiàn) Web 頁面觀察 Trace Timeline;使用開源的 LangFuse 也可以實(shí)現(xiàn)觀測和分析。

2.3. Evaluation

  • Web界面運(yùn)行保存成功的用例用于后續(xù)在運(yùn)行時(shí)評(píng)估對(duì)比使用
  • 用 JSON 文件記錄多個(gè)場景運(yùn)行成功用例+評(píng)估標(biāo)準(zhǔn),Agent批量執(zhí)行這些場景并和JSON記錄結(jié)果進(jìn)行自動(dòng)化型評(píng)估

LangGraph 原生沒有 Evaluation 模塊,不過實(shí)現(xiàn)起來很簡單。

參考文獻(xiàn):
5-Day AI Agents Intensive Course with Google
Agent Quality
Day 4a - Agent Observability
Day 4b - Agent Evaluation

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容