1. 白皮書

第四天的白皮書探討了如何保障 Agent 的工作質(zhì)量。當(dāng)前正處于 Agentic 時(shí)代的開端，盡管 Agent 能力巨大，但是其固有的非確定性和不可預(yù)測性打破了我們傳統(tǒng)的質(zhì)量保障體系。
Agent 的質(zhì)量保障應(yīng)植根于架構(gòu)設(shè)計(jì)本身，而非僅依賴開發(fā)尾聲的測試環(huán)節(jié)。
本指南立足于三大核心要義：

軌跡即真相：我們必須突破僅評(píng)估最終輸出的局限。Agent 質(zhì)量與安全性的真正衡量標(biāo)準(zhǔn)，在于其完整的決策過程。
可觀測性是基礎(chǔ)：無法觀測的過程，無從評(píng)判。我們詳細(xì)闡述了可觀測性的 “三大支柱”—— 日志記錄（Logging）、軌跡追蹤（Tracing）與指標(biāo)監(jiān)測（Metrics），它們是捕捉 Agent "思考過程" 的關(guān)鍵技術(shù)基礎(chǔ)。
評(píng)估是持續(xù)循環(huán)：我們將這些理念整合為 “智能體質(zhì)量飛輪”（Agent Quality Flywheel）—— 這是一份實(shí)操指南，可將相關(guān)數(shù)據(jù)轉(zhuǎn)化為可落地的洞察。該體系結(jié)合了可規(guī)模化的 AI 驅(qū)動(dòng)評(píng)估工具與不可或缺的 “人機(jī)協(xié)同（Human-in-the-Loop, HITL）” 判斷機(jī)制，以推動(dòng)Agent 的持續(xù)優(yōu)化。

1.1. 如何閱讀這個(gè)白皮書

本指南的結(jié)構(gòu)是從“為什么”逐步過渡到“是什么”，最后到“如何做”。參考本章節(jié)可以導(dǎo)航到與您角色最相關(guān)的章節(jié)。

面向所有讀者：從第1章: "非確定性世界中的智能體質(zhì)量" 開始。本章確立了核心問題，解釋了傳統(tǒng)質(zhì)量保證體系為何不適用于人工智能智能體，并介紹了定義我們目標(biāo)的 Agent quality 四大支柱（有效性、效率、穩(wěn)健性和安全性）。
面向PM、數(shù)據(jù)科學(xué)家和QA：如果您負(fù)責(zé)確定衡量內(nèi)容以及如何評(píng)判質(zhì)量，請重點(diǎn)關(guān)注第2章: "Agent 評(píng)估的藝術(shù)：過程評(píng)判"。本章是您的戰(zhàn)略指南。它詳細(xì)介紹了用于評(píng)估的“由外而內(nèi)”層級(jí)結(jié)構(gòu)，闡釋了可擴(kuò)展的“"LLM-as-a-Judge”模式，并闡明了HITL的關(guān)鍵作用。
面向工程師、架構(gòu)師和SRE：如果你負(fù)責(zé)構(gòu)建系統(tǒng)，那么第3章: "可觀測性：洞悉 Agent 的思維" 就是你的技術(shù)藍(lán)圖。本章將從理論過渡到實(shí)踐，通過“廚房類比”（普通廚師與 gourmet 廚師）來解釋監(jiān)控與可觀測性的區(qū)別，并詳細(xì)介紹可觀測性的三大支柱：Logs、Traces和Metrics——這些是你構(gòu)建“可評(píng)估” Agent 所需的工具。
對(duì)于團(tuán)隊(duì)負(fù)責(zé)人和戰(zhàn)略制定者：要了解這些部分如何構(gòu)成一個(gè)自我改進(jìn)的系統(tǒng)，請閱讀第4章: "總結(jié)：在自主世界中建立信任"。本章將這些概念整合為一本可操作的行動(dòng)手冊。它介紹了 Agent Quality Flywheel” 作為持續(xù)改進(jìn)的模型，并總結(jié)了構(gòu)建可信人工智能的三大核心原則。

1.2. 非確定性世界中的 Agent 質(zhì)量

隨著AI飛速發(fā)展，我們正從構(gòu)建執(zhí)行指令的可預(yù)測工具，邁向設(shè)計(jì)能夠解讀意圖、制定計(jì)劃并執(zhí)行復(fù)雜多步驟行動(dòng)的自主 Agent。讓 AI Agents 變得強(qiáng)大的機(jī)制，也正是使其具有不可預(yù)測性的原因。
傳統(tǒng)的質(zhì)量保證體系（QA）雖然對(duì)確定性系統(tǒng)很有效，但不足以應(yīng)對(duì)現(xiàn)代人工智能的細(xì)微差別和突發(fā)行為。一個(gè) Agent 可能通過了100個(gè)單元測試，卻仍會(huì)在實(shí)際應(yīng)用中發(fā)生災(zāi)難性故障，因?yàn)槠涔收喜⒎谴a中的漏洞，而是 LLM 判斷上的缺陷。

1.2.1. 為什么 Agent Quality 需要新的方法

對(duì)于工程師而言，風(fēng)險(xiǎn)是需要識(shí)別和處理的問題。在傳統(tǒng)軟件中，故障是明確的：系統(tǒng)崩潰、拋出空指針異常，或者返回明顯錯(cuò)誤的計(jì)算結(jié)果。這些故障顯而易見、具有確定性，并且可以追溯到邏輯中的特定錯(cuò)誤。
AI Agents 的失敗方式則不同。它們的失敗往往不是系統(tǒng)崩潰，而是質(zhì)量的微妙下降。這源于模型權(quán)重、訓(xùn)練數(shù)據(jù)和環(huán)境交互之間的復(fù)雜相互作用。這些失敗具有隱蔽性：系統(tǒng)繼續(xù)運(yùn)行，應(yīng)用程序接口調(diào)用返回 200(success)，輸出看起來也合理。但實(shí)際上，這種輸出存在嚴(yán)重錯(cuò)誤，具有操作危險(xiǎn)性，并且在悄無聲息地侵蝕信任，這正是Agent 的自主性和復(fù)雜性導(dǎo)致的。

故障模式	描述	示例
算法偏差（Algorithmic Bias）	智能體將訓(xùn)練數(shù)據(jù)中存在的系統(tǒng)性偏差轉(zhuǎn)化為實(shí)際操作，且可能放大此類偏差，進(jìn)而導(dǎo)致不公平或具有歧視性的結(jié)果。	- 負(fù)責(zé)風(fēng)險(xiǎn)匯總的金融智能體，因訓(xùn)練數(shù)據(jù)存在偏差，會(huì)基于郵編對(duì)貸款申請施加過度懲罰。
事實(shí)幻覺（Factual Hallucination）	當(dāng)智能體無法找到有效信息來源時(shí)，往往會(huì)以高度確信的態(tài)度生成聽起來合理但與事實(shí)不符或虛構(gòu)的信息。	- 某研究工具在學(xué)術(shù)報(bào)告中生成極為具體但完全錯(cuò)誤的歷史日期或地理位置，破壞學(xué)術(shù)誠信。
性能與概念漂移（Performance & Concept Drift）	隨著智能體所交互的現(xiàn)實(shí)世界數(shù)據(jù)（即 “概念”）發(fā)生變化，其原有訓(xùn)練內(nèi)容逐漸失效，導(dǎo)致性能隨時(shí)間推移而下降。	- 欺詐檢測智能體無法識(shí)別新型攻擊模式。
突發(fā)非預(yù)期行為（Emergent Unintended Behaviors）	智能體為實(shí)現(xiàn)目標(biāo)，會(huì)形成新穎或超出預(yù)期的策略，這些策略可能效率低下、無實(shí)際幫助，甚至具有利用性。	- 發(fā)現(xiàn)并利用系統(tǒng)規(guī)則中的漏洞。- 與其他機(jī)器人發(fā)生 “代理沖突”（例如，反復(fù)覆蓋對(duì)方的編輯內(nèi)容）。

這些失敗使得傳統(tǒng)的調(diào)試和測試模式失去了效果。你無法使用斷點(diǎn)來調(diào)試幻覺問題；你也不能編寫單元測試來防止它的出現(xiàn)。根本原因分析需要深入的數(shù)據(jù)分析、模型重新訓(xùn)練和系統(tǒng)性評(píng)估——這完全是一門新的學(xué)科。

1.2.2. 范式轉(zhuǎn)變：從可預(yù)測代碼到不可預(yù)測 Agents

核心技術(shù)挑戰(zhàn)源于從以模型為中心的人工智能向以系統(tǒng)為中心的人工智能的演進(jìn)。評(píng)估 Agent 與評(píng)估 LLM 有著本質(zhì)區(qū)別，因?yàn)?Agent 是一個(gè)系統(tǒng)。這種演進(jìn)是分階段逐步進(jìn)行的，每個(gè)階段都增加了新的評(píng)估復(fù)雜性。

從LLM到Agent

傳統(tǒng)機(jī)器學(xué)習(xí)：定義明確，我們依靠精確率、召回率、F1分?jǐn)?shù)和均方根誤差等統(tǒng)計(jì)指標(biāo)，對(duì)照預(yù)留的測試集進(jìn)行評(píng)估。這個(gè)問題雖然復(fù)雜，但“正確”的定義是清晰的。
被動(dòng)式大語言模型：隨著生成式模型的興起，我們失去了簡單的衡量指標(biāo)。LLM 輸出具有概率性。即便輸入完全相同，輸出也可能存在差異。評(píng)估變得更為復(fù)雜，需要依賴人工評(píng)分以及模型間的基準(zhǔn)測試。盡管如此，這些系統(tǒng)在很大程度上仍是被動(dòng)的、文本輸入-文本輸出工具。
大語言模型+檢索增強(qiáng)生成（LLM+RAG）：故障可能出現(xiàn)在大語言模型或檢索系統(tǒng)中。智能體給出糟糕的答案是因?yàn)榇笳Z言模型推理能力差，還是因?yàn)橄蛄繑?shù)據(jù)庫檢索到了不相關(guān)的片段？我們的評(píng)估范圍從僅針對(duì)模型擴(kuò)展到包括分塊策略、嵌入和檢索器的性能。
主動(dòng)式人工智能智能體：如今，我們正面臨一場深刻的架構(gòu)變革。LLM 不再僅僅是文本生成器，它已成為復(fù)雜系統(tǒng)中負(fù)責(zé)推理的“大腦”，被整合到一個(gè)能夠自主行動(dòng)的循環(huán)中。這種具有智能體特性的系統(tǒng)帶來了三項(xiàng)核心技術(shù)能力，這些能力打破了我們現(xiàn)有的評(píng)估模型：
- 規(guī)劃與多步驟推理：Agent 將復(fù)雜目標(biāo)（如“規(guī)劃我的旅行”）分解為多個(gè)子任務(wù)。這會(huì)形成一條 trajectory(軌跡)：思考→行動(dòng)→觀察→思考……。LLM 的非確定性如今在每一步都會(huì)加劇。第一步中一個(gè)微小的、隨機(jī)的詞匯選擇，到第四步時(shí)可能會(huì)讓 Agent 陷入一條完全不同且無法恢復(fù)的推理路徑。
- 工具使用與函數(shù)調(diào)用：Agent 通過API和外部工具（代碼解釋器、搜索引擎、預(yù)訂API）與現(xiàn)實(shí)世界交互。這帶來了動(dòng)態(tài)的環(huán)境交互。智能體的下一步行動(dòng)完全取決于外部不可控世界的狀態(tài)。
- Memory：Agent 持有狀態(tài)。短期記憶追蹤當(dāng)前任務(wù)，而長期記憶使 Agent 能夠從過去的交互中學(xué)習(xí)。這意味著 Agent 的行為會(huì)不斷演變，基于“學(xué)到”的內(nèi)容，昨天有效的輸入今天可能會(huì)產(chǎn)生不同的結(jié)果。
多智能體系統(tǒng)：當(dāng)多個(gè)活躍智能體被整合到一個(gè)共享環(huán)境中時(shí)，就會(huì)出現(xiàn)極高的架構(gòu)復(fù)雜性。這不再是對(duì)單一軌跡的評(píng)估，而是對(duì)系統(tǒng)級(jí)涌現(xiàn)現(xiàn)象的評(píng)估，由此帶來了新的根本性挑戰(zhàn)：
- 突發(fā)系統(tǒng)故障：系統(tǒng)的成功取決于智能體之間非預(yù)設(shè)的交互，例如資源爭奪、通信瓶頸和系統(tǒng)性死鎖，這些問題不能歸咎于單個(gè)智能體的故障。
- 協(xié)作式評(píng)估與競爭式評(píng)估：目標(biāo)函數(shù)本身可能會(huì)變得模糊。在協(xié)作式多智能體系統(tǒng)中（例如供應(yīng)鏈優(yōu)化），成功是一個(gè)全局指標(biāo)；而在競爭式多智能體系統(tǒng)中（例如博弈論場景或拍賣系統(tǒng)），評(píng)估通常需要跟蹤單個(gè)智能體的性能以及整體市場/環(huán)境的穩(wěn)定性。

這種能力組合意味著評(píng)估的主要單位不再是模型，而是整個(gè)系統(tǒng)的軌跡(trajectory)。智能體的涌現(xiàn)行為源于其規(guī)劃模塊、工具、記憶與動(dòng)態(tài)環(huán)境之間復(fù)雜的相互作用。

1.2.3. Agent Quality 支柱：評(píng)估框架

如果我們不能再依賴簡單的準(zhǔn)確率指標(biāo)，而必須對(duì)整個(gè)系統(tǒng)進(jìn)行評(píng)估，那么我們該從何處入手呢？答案是一種被稱為“Outside-In(由外而內(nèi))”的戰(zhàn)略性轉(zhuǎn)變方法。
這種方法將 AI 評(píng)估錨定在以用戶為中心的指標(biāo)和整體業(yè)務(wù)目標(biāo)上，不再僅僅依賴內(nèi)部的、組件級(jí)的技術(shù)分?jǐn)?shù)。我們不能只問“模型的F1分?jǐn)?shù)是多少？”，而應(yīng)該開始問“這個(gè) Agent 是否能帶來可衡量的價(jià)值，并且與用戶的意圖一致？”
這一策略需要一個(gè)整體框架，將高級(jí)別的業(yè)務(wù)目標(biāo)與技術(shù)性能聯(lián)系起來。我們從四個(gè)相互關(guān)聯(lián)的支柱來定義 Agent 的質(zhì)量：

Agent 質(zhì)量四個(gè)支柱

有效性：這是核心終極問題：Agent 是否成功且精準(zhǔn)地實(shí)現(xiàn)了用戶的真實(shí)意圖？該支柱直接關(guān)聯(lián)以用戶為中心的指標(biāo)與業(yè)務(wù)關(guān)鍵績效指標(biāo)（KPI）。對(duì)于零售Agent 而言，這不僅是 “是否找到了商品？”，更是 “是否促成了轉(zhuǎn)化？”；對(duì)于數(shù)據(jù)分析 Agent，則不是 “是否寫出了代碼？”，而是 “代碼是否產(chǎn)出了正確的洞察？”。有效性是衡量任務(wù)成功的最終標(biāo)準(zhǔn)。
高效性：Agent 是否高效地解決了問題？一個(gè)預(yù)訂簡單航班卻需要 25 個(gè)步驟、5 次工具調(diào)用失敗以及 3 次自我修正循環(huán)的 Agent，即便最終成功，也應(yīng)被視為低質(zhì)量 Agent。效率通過消耗的資源來衡量：tokens（成本）、實(shí)際耗時(shí)（延遲）以及軌跡復(fù)雜度（總步驟數(shù)）。
穩(wěn)健性：Agent 如何應(yīng)對(duì)現(xiàn)實(shí)世界的各種挑戰(zhàn)與復(fù)雜狀況？當(dāng) API 超時(shí)、網(wǎng)站布局變更、數(shù)據(jù)缺失或用戶提供模糊提示時(shí)，Agent 能否優(yōu)雅地處理失??？穩(wěn)健的 Agent 會(huì)重試失敗的調(diào)用，在需要時(shí)向用戶請求澄清，并如實(shí)報(bào)告無法完成的事項(xiàng)及原因，而非崩潰或產(chǎn)生幻覺。
安全性：這是不可妥協(xié)的底線。Agent 是否在其設(shè)定的倫理邊界與約束范圍內(nèi)運(yùn)行？該支柱涵蓋從負(fù)責(zé)任 AI 的公平性與無偏性指標(biāo)，到抵御提示注入攻擊和數(shù)據(jù)泄露的安全防護(hù)等所有方面。它確保 Agent 專注于任務(wù)本身，拒絕有害指令，并成為組織可信賴的代理。

這個(gè)框架闡明了一件事：如果只看最終答案，你就無法衡量這些支柱中的任何一個(gè)。如果不計(jì)算步驟，就無法衡量效率。如果不知道哪個(gè)API調(diào)用失敗了，就無法診斷穩(wěn)健性故障。如果無法檢查 Agent 的內(nèi)部推理過程，就無法驗(yàn)證安全性。

1.3. Agent 評(píng)估的藝術(shù)：過程評(píng)判

Agent 評(píng)估是一個(gè)全面的驗(yàn)證過程。它提出了一個(gè)復(fù)雜得多且至關(guān)重要的戰(zhàn)略性問題：“我們是否打造了正確的產(chǎn)品？”這個(gè)問題是“Outside-In”評(píng)估框架的戰(zhàn)略核心，意味著需要從內(nèi)部合規(guī)轉(zhuǎn)向評(píng)判系統(tǒng)的外部價(jià)值以及與用戶意圖的契合度。這要求我們評(píng)估 Agent 在動(dòng)態(tài)環(huán)境中運(yùn)行時(shí)的整體質(zhì)量、穩(wěn)健性和用戶價(jià)值。
AI Agent 能夠規(guī)劃、使用工具并與復(fù)雜環(huán)境交互——極大地復(fù)雜化了評(píng)估它的方方式。我們必須超越對(duì)輸出的“測試”，轉(zhuǎn)而學(xué)習(xí)對(duì)過程的“評(píng)估”的藝術(shù)。本章正是為此提供了一個(gè)戰(zhàn)略框架：評(píng)判 Agent 從初始意圖到最終結(jié)果的整個(gè)決策軌跡（trajectory）。

1.3.1. Outside-In 評(píng)估層級(jí)

為避免在海量的單元級(jí)評(píng)估指標(biāo)中迷失方向，必須創(chuàng)建一個(gè)自上而下的戰(zhàn)略性過程。我們將其稱為“由外而內(nèi)”層級(jí)法。這種方法會(huì)優(yōu)先考慮唯一最終重要的指標(biāo)——現(xiàn)實(shí)世界中的成功，之后再深入探究這種成功或失敗背后的技術(shù)細(xì)節(jié)。該模型分為兩個(gè)階段：先從黑箱入手，再將其打開。

1.3.1.1 Outside-In 端到端評(píng)估

Agent 評(píng)估架構(gòu)

第一個(gè)也是最重要的問題是：“Agent 是否有效地實(shí)現(xiàn)了用戶的目標(biāo)？”
這是“由外而內(nèi)”的視角。在分析任何內(nèi)部想法或工具調(diào)用之前，我們必須根據(jù) Agent 既定的目標(biāo)來評(píng)估其最終表現(xiàn)。
此階段的指標(biāo)側(cè)重于整體任務(wù)的完成情況。我們衡量的是：

任務(wù)成功率：對(duì)最終輸出是否正確、完整且解決了用戶實(shí)際問題的評(píng)分，例如編碼智能體的PR接受率、金融智能體的數(shù)據(jù)庫交易成功率，或客服機(jī)器人的會(huì)話完成率。
用戶滿意度：對(duì)于交互式智能體而言，這可以是直接的用戶反饋評(píng)分（例如，點(diǎn)贊/點(diǎn)踩）或客戶滿意度評(píng)分（CSAT）。
整體質(zhì)量：如果 Agent 的目標(biāo)是可量化的（例如，“總結(jié)這10篇文章”），那么衡量標(biāo)準(zhǔn)可能是準(zhǔn)確性或完整性（例如，“它是否總結(jié)了全部10篇？”）。

如果 Agent 在這個(gè)階段獲得100%的分?jǐn)?shù)，我們的工作可能就完成了。但在復(fù)雜系統(tǒng)中，這種情況很少見。當(dāng) Agent 生成有缺陷的最終輸出、放棄任務(wù)或無法得出解決方案時(shí)，“由外而內(nèi)”的視角會(huì)告訴我們哪里出了問題?，F(xiàn)在我們必須打開這個(gè)“黑箱”，看看原因何在。

1.3.1.2 Inside-Out 軌跡評(píng)估

一旦確定了上一步是失敗的，我們就轉(zhuǎn)向“由內(nèi)而外”的視角。我們通過系統(tǒng)評(píng)估 Agent 執(zhí)行軌跡的每個(gè)組成部分來分析：

LLM Planning(思考)：這方面的故障包括 LLM 幻覺、無意義或偏離主題的回應(yīng)、語境污染或重復(fù)輸出循環(huán)。
Tool Usage(選擇和參數(shù))：分析 Agent 是否調(diào)用了錯(cuò)誤的工具、未能調(diào)用必要的工具、虛構(gòu)工具名稱或參數(shù)名稱/類型，或者進(jìn)行了不必要的調(diào)用。即使它選擇了正確的工具，也可能因提供缺失的參數(shù)、錯(cuò)誤的數(shù)據(jù)類型或格式錯(cuò)誤的API調(diào)用JSON而失敗。
Tool Response(觀察)：工具正確執(zhí)行后，Agent 必須理解其結(jié)果。Agent 在此環(huán)節(jié)經(jīng)常出錯(cuò)，比如誤讀數(shù)值數(shù)據(jù)、未能從響應(yīng)中提取關(guān)鍵實(shí)體，或者更嚴(yán)重的是，沒有識(shí)別出工具返回的錯(cuò)誤狀態(tài)（例如，API的404錯(cuò)誤），卻仍按調(diào)用成功的情況繼續(xù)處理。
RAG性能：如果 Agent 使用 RAG，其軌跡取決于所檢索信息的質(zhì)量。失敗情況包括檢索到不相關(guān)的文檔、獲取過時(shí)或錯(cuò)誤的信息，或者 LLM 完全忽略檢索到的上下文，仍然生成幻覺答案。
軌跡效率與穩(wěn)健性：除了正確性之外，我們還必須評(píng)估過程本身：暴露低效的資源分配，例如過多的API調(diào)用、高延遲或冗余工作。它還能揭示穩(wěn)健性故障，例如未處理的異常。
多智能體交互：在高級(jí)系統(tǒng)中，軌跡涉及多個(gè) Agents。此時(shí)，評(píng)估還必須包括 Agents 間的通信日志，以檢查是否存在誤解或通信循環(huán)，并確保 Agents 在不與其他 Agents 發(fā)生沖突的情況下堅(jiān)守其既定角色。

通過分析軌跡，我們可以從“最終答案是錯(cuò)誤的”（黑箱）過渡到“最終答案是錯(cuò)誤的，因?yàn)?/strong>……”（玻璃箱）。這種診斷能力水平正是Agent 評(píng)估的全部目標(biāo)。

1.3.2. Agent 評(píng)判的主題和內(nèi)容

知道要評(píng)估什么：軌跡(trajectory) 已經(jīng)成功了一半。另一半則是如何進(jìn)行評(píng)估。對(duì)于質(zhì)量、安全性和可解釋性等細(xì)微方面，這種判斷需要一種復(fù)雜的混合方法。自動(dòng)化系統(tǒng)能提供效率，但人類的判斷仍是質(zhì)量的關(guān)鍵。

1.3.2.1. 自動(dòng)化評(píng)估指標(biāo)

自動(dòng)化指標(biāo)具有速度快和可重復(fù)性高的特點(diǎn)。它們在回歸測試和輸出基準(zhǔn)測試中很有用。例如：

基于字符串的相似度（ROUGE、BLEU），用于比較生成文本與參考文本。

基于嵌入的相似度（BERTScore、余弦相似度），用于衡量語義貼近度。

特定任務(wù)基準(zhǔn)，例如 TruthfulQA2

自動(dòng)化指標(biāo)雖高效卻流于表面：它們只能捕捉表面的相似性，無法體現(xiàn)更深層次的推理或用戶價(jià)值。

1.3.2.2. LLM 作為評(píng)判者

我們該如何自動(dòng)化評(píng)估 “這個(gè)總結(jié)是否優(yōu)質(zhì)？” 或 “這個(gè)方案是否合理？” 這類定性輸出呢？答案：LLM-as-a-Judge 方式，即采用另一款強(qiáng)大的模型來評(píng)估當(dāng)前 Agent 的輸出。
向作為 “評(píng)估者” 的模型提供以下信息：Agent 的輸出結(jié)果、原始提示詞、“標(biāo)準(zhǔn)答案” 或參考依據(jù)（若存在），以及一份詳細(xì)的評(píng)估標(biāo)準(zhǔn)（例如，“從實(shí)用性、準(zhǔn)確性和安全性三個(gè)維度，按 1-5 分給該響應(yīng)打分，并說明評(píng)分理由”）。這種方法能提供可規(guī)?；⒏咝揖润@人的反饋，尤其適用于 Agent “思考過程” 質(zhì)量、工具響應(yīng)解讀等中間環(huán)節(jié)的評(píng)估。盡管它無法取代人類判斷，但能幫助我們在數(shù)千種場景中快速評(píng)估 Agent 性能，讓迭代式評(píng)估流程具備可行性。(最好進(jìn)行對(duì)比性評(píng)估AB兩個(gè)結(jié)果對(duì)比)

1.3.2.3. Agent 作為評(píng)判者

LLM 雖能對(duì)最終響應(yīng)打分，但對(duì) Agent的評(píng)估需要更深入 —— 不僅看結(jié)果，更要審視其背后的推理邏輯與執(zhí)行行為。為此，Agent-as-a-Judge 這一新興范式應(yīng)運(yùn)而生：它讓一個(gè) Agent 完整評(píng)估另一個(gè) Agent 的執(zhí)行軌跡，核心是聚焦 “過程” 而非僅評(píng)判 “輸出”。其關(guān)鍵評(píng)估維度包含三大方面：

計(jì)劃質(zhì)量：Agent 制定的方案邏輯是否清晰、是否具備可落地性？

工具使用：所選工具是否契合任務(wù)需求，且應(yīng)用過程是否正確？

上下文處理：Agent 能否有效利用前期獲取的信息輔助決策？

這種方法在過程評(píng)估中特別有價(jià)值，因?yàn)槭⊥从谟腥毕莸闹虚g步驟，而非最終輸出。
要落地 “智能體作為評(píng)估者”，可按以下步驟操作：

配置 Agent 框架，使其記錄并導(dǎo)出完整的執(zhí)行軌跡，軌跡中需包含 Agent 的內(nèi)部計(jì)劃、所選工具列表，以及傳遞給工具的精確參數(shù)；

再創(chuàng)建一個(gè)專用的評(píng)估 Agent，并為其配置包含評(píng)估標(biāo)準(zhǔn)的 Prompt，讓它直接對(duì)軌跡數(shù)據(jù)進(jìn)行評(píng)估。Prompt 需聚焦過程性問題，例如：“1. 從軌跡來看，初始計(jì)劃是否符合邏輯？2. 工具 A 是否是合適的首選工具，還是應(yīng)選用其他工具？3. 傳遞的參數(shù)是否正確且格式規(guī)范？” 如此一來，即便 Agent 最終輸出看似正確，也能自動(dòng)檢測出過程中的問題（如計(jì)劃效率低等）。

1.3.2.4. HITL 評(píng)判

自動(dòng)化雖能實(shí)現(xiàn)規(guī)?；u(píng)估，卻在深度主觀性任務(wù)（如創(chuàng)意質(zhì)量評(píng)估、語氣微妙性判斷）和復(fù)雜領(lǐng)域知識(shí)應(yīng)用上存在局限。而 Human-in-the-Loop(HITL) ，正是彌補(bǔ)這一短板的核心手段 —— 它能捕捉自動(dòng)化系統(tǒng)遺漏的關(guān)鍵定性信號(hào)與細(xì)微判斷，為 Agent 質(zhì)量校準(zhǔn)提供 “人類視角”。
不過需明確的是，人工評(píng)分并非絕對(duì)的 “客觀真相”：面對(duì)高度主觀的評(píng)估維度，標(biāo)注者間很難達(dá)成完全一致。因此，HITL 的核心價(jià)值在于建立 “經(jīng)人類校準(zhǔn)的基準(zhǔn)”，確保 Agent 行為符合復(fù)雜的人類價(jià)值觀、場景化需求，以及醫(yī)療、法律、金融等專業(yè)領(lǐng)域的精準(zhǔn)性要求。具體而言，HITL 流程通過三大關(guān)鍵功能落地：

領(lǐng)域?qū)I(yè)支持：針對(duì)醫(yī)療、法律等專業(yè) Agent，需依靠領(lǐng)域?qū)＜以u(píng)估其輸出的事實(shí)準(zhǔn)確性與行業(yè)標(biāo)準(zhǔn)符合性；

細(xì)微差異解讀：人類能精準(zhǔn)判斷 Agent 互動(dòng)中的微妙特質(zhì)，比如溝通語氣是否恰當(dāng)、是否契合用戶潛在意圖、倫理層面是否合規(guī)；

構(gòu)建 “黃金集合”：在自動(dòng)化評(píng)估啟動(dòng)前，由人類打造包含典型、邊緣及對(duì)抗性場景的測試基準(zhǔn)，明確 Agent 成功的核心目標(biāo)，為后續(xù)評(píng)估提供參照。

1.3.2.5. 用戶反饋和 Reviewer 界面

評(píng)估還必須收集 Agent 真實(shí)的用戶反饋。每一次互動(dòng)都是反映其 “實(shí)用性”“清晰度” 與 “可信度” 的重要信號(hào)。這類反饋既包含 “點(diǎn)贊 / 踩” 這類直觀的定性信息，也涵蓋可量化的產(chǎn)品內(nèi)成功指標(biāo)，比如代碼類 Agent 的拉取請求（PR）通過率、旅行類 Agent 的預(yù)訂完成率。
要讓用戶反饋真正助力 Agent 優(yōu)化，需遵循四大最佳實(shí)踐：

低門檻反饋設(shè)計(jì)：用 “點(diǎn)贊 / 點(diǎn)踩”、快捷滑塊或簡短評(píng)論等輕量化方式，降低用戶反饋的操作成本，提升參與意愿；

場景化反饋關(guān)聯(lián)：將用戶反饋與完整對(duì)話記錄、Agent 的推理軌跡綁定，讓后續(xù)問題定位有跡可循，避免 “反饋孤立無援”；

專業(yè)化評(píng)審界面（Reviewer UI）：采用雙面板布局，左側(cè)展示對(duì)話流程，右側(cè)呈現(xiàn) Agent 的推理步驟，支持直接標(biāo)注 “計(jì)劃不合理”“工具誤用” 等問題，讓評(píng)審更精準(zhǔn)；

反饋聚合看板：通過儀表盤匯總所有反饋數(shù)據(jù)，自動(dòng)凸顯高頻問題與潛在風(fēng)險(xiǎn)，為 Agent 迭代指明方向。

好用的界面是評(píng)估框架落地的關(guān)鍵 —— 一套優(yōu)秀的 Reviewer UI 能讓用戶反饋和評(píng)審意見更直觀、傳遞更高效，最終轉(zhuǎn)化為可落地的優(yōu)化動(dòng)作，避免評(píng)估流于形式。

1.3.3. AI 歸責(zé) & 安全評(píng)估

對(duì)生產(chǎn)級(jí) Agent 而言，評(píng)估絕不止 “能否完成任務(wù)” 這一項(xiàng) —— 負(fù)責(zé)任 AI（RAI）與安全性，是必須跨越的 “硬性門檻”。哪怕一個(gè) Agent 的任務(wù)完成度達(dá) 100%，若存在安全隱患、可能造成傷害，它仍是徹底的失敗品。
安全性評(píng)估并非孤立環(huán)節(jié)，而是需貫穿 Agent 全開發(fā)生命周期的專業(yè)工作，核心落地路徑包含三大方向：

破壞性測試：主動(dòng)用對(duì)抗性場景 “挑戰(zhàn)” Agent，比如嘗試誘導(dǎo)其生成仇恨言論、泄露用戶隱私信息、傳播有害刻板印象，或是觸發(fā)惡意操作，以此暴露潛在安全漏洞；

自動(dòng)過濾 + 人工審核雙保障：先用技術(shù)過濾器初步攔截違反政策的內(nèi)容，但因自動(dòng)化工具難以識(shí)別細(xì)微的偏見或隱性不良信息，必須搭配人工審核進(jìn)一步把關(guān)，形成 “技術(shù)篩查 + 人類判斷” 的雙重防線；

嚴(yán)格對(duì)標(biāo)倫理準(zhǔn)則：將 Agent 的輸出與預(yù)先制定的倫理規(guī)范、核心原則逐一比對(duì)，確保其行為符合道德標(biāo)準(zhǔn)，避免因設(shè)計(jì)漏洞導(dǎo)致意外后果。

1.4. 可觀測性：洞悉 Agent 的思維

1.4.1. 從監(jiān)控到可觀測性

在上一章中，我們確定 AI Agent 是一種新型軟件。它們不只是遵循指令，還能做出決策。這種根本差異要求我們采用新的質(zhì)量保證方法，將我們從傳統(tǒng)的軟件監(jiān)控帶入更深層次的可觀測性領(lǐng)域。

1.4.1.1. 可觀測性三大支柱

我們無法直接讀取 LLM 的想法，但可以分析它留下的痕跡。這是通過將我們的可觀測性實(shí)踐建立在三個(gè)基礎(chǔ)支柱上來實(shí)現(xiàn)的：(LOG)日志、(Traces)追蹤 和 (Metrics)指標(biāo)。

Agent 可觀測性的三大基礎(chǔ)支柱

1.4.2. 支柱一：Logging

什么是 Logs ？日志是可觀測性的原子單位。可以把它們看作是 agent's 日記中帶有時(shí)間戳的記錄。每條記錄都是關(guān)于某個(gè)離散事件的原始、不可變的事實(shí)：“在10:01:32，我被問到一個(gè)問題。在10:01:33，我決定使用 get_weather 工具?！?它們告訴我們發(fā)生了什么。

不僅是 print()：什么讓 Log 變得有效？
需要具備大規(guī)模存儲(chǔ)、搜索和分析日志數(shù)據(jù)的能力，可以自動(dòng)從服務(wù)收集日志，允許進(jìn)行標(biāo)準(zhǔn)化查詢(SQL)，以發(fā)現(xiàn) Agent 行為中的趨勢。

關(guān)鍵日志條目解析
要重建 Agent 的“思考過程”，日志必須包含豐富的上下文。結(jié)構(gòu)化的JSON格式是黃金標(biāo)準(zhǔn)。

核心信息：一份優(yōu)質(zhì)的日志應(yīng)包含完整的上下文：提示詞/輸入輸出、中間推理步驟（智能體的“思維鏈”，）、結(jié)構(gòu)化工具調(diào)用（輸入、輸出、錯(cuò)誤）以及 Agent 內(nèi)部狀態(tài)的任何變化。

權(quán)衡：冗長與性能：高度詳細(xì)的DEBUG日志是開發(fā)人員排查問題的得力助手，但在生產(chǎn)環(huán)境中可能過于“嘈雜”，并造成性能開銷。這就是結(jié)構(gòu)化日志如此強(qiáng)大的原因：它允許你收集詳細(xì)數(shù)據(jù)，同時(shí)高效地對(duì)其進(jìn)行過濾。

以下是一個(gè)展示結(jié)構(gòu)化日志強(qiáng)大功能的實(shí)際示例，改編自ADK的DEBUG輸出：

// 一條記錄單次 LLM 請求的結(jié)構(gòu)化日志 ... 2025-07-10 15:26:13,778 - DEBUG - google_adk.google.adk.models.google_llm - Sending out request, model: gemini-2.0-flash, backend: GoogleLLMVariant.GEMINI_API, stream: False 2025-07-10 15:26:13,778 - DEBUG - google_adk.google.adk.models.google_llm - LLM Request: System Instruction: 關(guān)于你的行為描述是："可擲 8 面骰子并判斷結(jié)果數(shù)值的 Hello World agent"。你需執(zhí)行擲骰子操作，并回答與骰子結(jié)果相關(guān)的問題..... Contents: {"parts":[{"text":"擲一個(gè) 6 面骰子"}],"role":"user"} {"parts":[{"function_response":{"name":"roll_die","response":{"result":2}}}],"role":"user"} {"parts":[{"function_call":{"args":{"sides":6},"name":"roll_die"}}],"role":"model"} Functions: roll_die: {'sides': {'type': <Type.INTEGER: 'INTEGER'>}} check_prime: {'nums': {'items': {'type': <Type.INTEGER: 'INTEGER'>}, 'type': <Type.ARRAY: 'ARRAY'>}} 2025-07-10 15:26:13,779 - INFO - google_genai.models - AFC is enabled with max remote calls: 10. 2025-07-10 15:26:14,309 - INFO - google_adk.google.adk.models.google_llm - LLM Response: Text: 我已擲出一個(gè) 6 面骰子，結(jié)果為 2.

一種有效的日志記錄模式是在行動(dòng)前記錄 Agent 的意圖，在行動(dòng)后記錄結(jié)果。這能立即明確失敗的嘗試與故意決定不采取行動(dòng)之間的區(qū)別。

1.4.3. 支柱二：Tracing

什么是Tracing? 如果說 logs 是日記條目，那么traces就是將它們串聯(lián)成一個(gè)連貫故事的敘事線索。追蹤會(huì)從最初的用戶查詢到最終的答案，全程跟進(jìn)單個(gè)任務(wù)，將各個(gè)日志（稱為spans）拼接成一個(gè)完整的端到端視圖。追蹤通過展示事件之間的因果關(guān)系揭示出關(guān)鍵的“原因”。

1.4.3.1. 為什么追蹤至關(guān)重要

考慮一種復(fù)雜的 Agent 故障：用戶提出問題，卻得到了毫無意義的答案。

孤立日志可能顯示：錯(cuò)誤：RAG搜索失敗 以及 錯(cuò)誤：LLM響應(yīng)驗(yàn)證失敗。你能看到這些錯(cuò)誤，但根本原因尚不明確。

Trace記錄揭示了完整的因果鏈：用戶查詢 → RAG 搜索（失?。?錯(cuò)誤的工具調(diào)用（收到空輸入）→ LLM 錯(cuò)誤（被錯(cuò)誤的工具輸出弄混淆）→ 不正確的最終答案

這條 Trace 能讓根本原因立即顯現(xiàn)，這使其在調(diào)試復(fù)雜、多步驟的智能體行為時(shí)不可或缺。

1.4.3.2. 智能體 Trace 的關(guān)鍵要素

現(xiàn)代追蹤基于 OpenTelemetry 等開放標(biāo)準(zhǔn)構(gòu)建。其核心組件包括：

Spans：trace 中各個(gè)已命名的操作（例如，llm_call span、tool_execution span）。

Attributes：每個(gè) Span 附帶的豐富元數(shù)據(jù)——prompt_id、latency_ms、token_count、user_id等。

上下文傳播：通過唯一的 trace_id 將 Spans 鏈接在一起的“魔法”。整合完整圖景，將 Agent 調(diào)用與所有后續(xù)的模型和工具調(diào)用關(guān)聯(lián)起來。

OpenTelemetry 視圖允許您查看屬性、日志、事件和其他詳細(xì)信息

1.4.4. 支柱三：Metrics

什么是Metrics？ Metrics 就是評(píng)論家發(fā)布的最終評(píng)分卡。它們是定量的、匯總的健康分?jǐn)?shù)，能讓你立即、一目了然地了解 Agent 的整體表現(xiàn)。
評(píng)論家并非僅憑對(duì)最終結(jié)果評(píng)判就隨意給出評(píng)分。他們的判斷是基于所觀察到的一切得出的。Metrics 也是如此：它們并非新的數(shù)據(jù)來源，而是通過長期匯總日志和追蹤數(shù)據(jù)得出的。它們要回答的問題是：“平均而言，性能表現(xiàn)有多好？”
對(duì)于AI Agents 而言，將 Metrics 分為兩個(gè)不同的類別是很有用的：可直接測量的系統(tǒng)指標(biāo)和更復(fù)雜、更具評(píng)估性的質(zhì)量指標(biāo)。

1.4.4.1. 系統(tǒng)指標(biāo)：生命體征

系統(tǒng)指標(biāo)是衡量運(yùn)營健康狀況的基本量化指標(biāo)。它們通過聚合函數(shù)（如平均值、總和或百分位數(shù)）直接從日志和追蹤的屬性中計(jì)算得出?？梢詫⑦@些指標(biāo)視為 Agent 的生命體征：脈搏、體溫和血壓。
需要跟蹤的關(guān)鍵系統(tǒng)指標(biāo)包括：

性能：延遲(P99)和錯(cuò)誤率

成本：tokens 和 API Cost

有效性：任務(wù)完成率和工具使用頻率

1.4.4.2. 質(zhì)量指標(biāo)：評(píng)判決策過程

質(zhì)量指標(biāo)是在原始可觀測性數(shù)據(jù)基礎(chǔ)上，超越了效率層面的進(jìn)一步評(píng)估，用于評(píng)估 Agent 的推理過程及最終輸出質(zhì)量本身。這些并非簡單的計(jì)數(shù)器或平均值，而是通過在原始可觀測性數(shù)據(jù)之上應(yīng)用一個(gè)判斷層而得出的二階指標(biāo)，包括：

正確性與準(zhǔn)確性：Agent 提供的答案是否符合事實(shí)？如果它對(duì)文檔進(jìn)行了總結(jié)，該總結(jié)是否忠實(shí)于原文？

軌跡遵循度：Agent 是否遵循了給定任務(wù)的預(yù)期路徑或“理想方案”？它是否按正確順序調(diào)用了正確的工具？

安全性與責(zé)任性：Agent 的響應(yīng)是否避免了有害、有偏見或不適當(dāng)?shù)膬?nèi)容？

有用性與相關(guān)性：Agent 的最終回復(fù)對(duì)用戶是否真的有幫助，且與他們的查詢相關(guān)?

生成這些指標(biāo)不僅需要簡單的數(shù)據(jù)庫查詢。這通常涉及將Agent的輸出與“黃金”標(biāo)準(zhǔn)數(shù)據(jù)集進(jìn)行比較，或者使用 LLM-as-a-Judge，根據(jù)評(píng)分標(biāo)準(zhǔn)對(duì)響應(yīng)進(jìn)行打分。

1.4.5. 整合：原始數(shù)據(jù)到可執(zhí)行

擁有 logs、traces 和 metrics 之后，你需要將它們整合并轉(zhuǎn)化為實(shí)際行動(dòng)和可落地的業(yè)務(wù)洞見。這涉及三個(gè)關(guān)鍵的操作實(shí)踐：

儀表盤與告警
單一儀表盤無法滿足智能體多維度的管理需求，必須按 “系統(tǒng)健康” 和 “模型質(zhì)量” 拆分視圖，讓不同角色精準(zhǔn)獲取所需信息：

運(yùn)營儀表盤（面向 SRE/DevOps 團(tuán)隊(duì)）

核心定位：監(jiān)控智能體 “基礎(chǔ)生命體征”，確保系統(tǒng)穩(wěn)定運(yùn)行

追蹤指標(biāo)：P99 延遲（反映極端情況下的用戶等待時(shí)間）、錯(cuò)誤率（工具調(diào)用 / API 請求失敗比例）、API 成本（外部服務(wù)調(diào)用開銷）、令牌消耗（LLM 使用成本）

核心價(jià)值：實(shí)時(shí)捕捉 “硬故障”，比如當(dāng) P99 延遲連續(xù) 5 分鐘超過 3 秒時(shí)，立即觸發(fā)告警，提示工程團(tuán)隊(duì)排查系統(tǒng)瓶頸（如服務(wù)器負(fù)載過高、工具響應(yīng)超時(shí)），避免影響用戶體驗(yàn)

質(zhì)量儀表盤（面向產(chǎn)品 / 數(shù)據(jù)科學(xué) / AgentOps 團(tuán)隊(duì)）

核心定位：洞察智能體 “決策與輸出質(zhì)量”，發(fā)現(xiàn)細(xì)微的性能漂移

追蹤指標(biāo)：事實(shí)準(zhǔn)確率（輸出內(nèi)容與真實(shí)信息的匹配度）、軌跡合規(guī)性（智能體推理步驟是否符合預(yù)設(shè)流程）、實(shí)用性評(píng)分（用戶對(duì)輸出的滿意度）、幻覺率（生成虛假信息的比例）

核心價(jià)值：捕捉 “軟問題”，例如當(dāng) “實(shí)用性評(píng)分” 24 小時(shí)內(nèi)下降 10% 時(shí)，即便系統(tǒng)指標(biāo)（如延遲、錯(cuò)誤率）正常，也能及時(shí)預(yù)警 —— 提示團(tuán)隊(duì)排查是否是新模型部署后推理邏輯變化、或訓(xùn)練數(shù)據(jù)偏差導(dǎo)致質(zhì)量退化

安全與隱私保護(hù)
在生產(chǎn)環(huán)境中，日志和軌跡會(huì)不可避免地記錄用戶輸入，其中可能包含身份證號(hào)、手機(jī)號(hào)等個(gè)人身份信息（PII）。因此，數(shù)據(jù)脫敏機(jī)制必須成為日志流水線的 “標(biāo)配環(huán)節(jié)”：在數(shù)據(jù)長期存儲(chǔ)前，需通過技術(shù)手段自動(dòng)過濾或加密 PII 信息，既符合《個(gè)人信息保護(hù)法》等隱私法規(guī)，也能避免用戶數(shù)據(jù)泄露風(fēng)險(xiǎn)。這不是 “可選項(xiàng)”，而是智能體合規(guī)運(yùn)營的底線。

平衡數(shù)據(jù)粒度與系統(tǒng)開銷
若對(duì)生產(chǎn)環(huán)境中每一次請求都記錄高細(xì)節(jié)日志（如 DEBUG 級(jí)別），會(huì)導(dǎo)致兩大問題：一是存儲(chǔ)與計(jì)算成本飆升，二是系統(tǒng) latency（延遲）增加。解決之道在于 “動(dòng)態(tài)采樣” 這一最佳實(shí)踐：

開發(fā)環(huán)境：使用高粒度日志（DEBUG 級(jí)別），方便工程師調(diào)試代碼、驗(yàn)證邏輯；

生產(chǎn)環(huán)境：默認(rèn)采用低粒度日志（INFO 級(jí)別），同時(shí)按場景靈活采樣 —— 例如僅追蹤 10% 的成功請求，用于統(tǒng)計(jì)整體性能；但對(duì) 100% 的錯(cuò)誤請求完整記錄軌跡，確保每個(gè)故障都有詳細(xì)診斷數(shù)據(jù)。
這種方式既能為指標(biāo)計(jì)算提供足夠的性能樣本，又不會(huì)讓系統(tǒng)過載，實(shí)現(xiàn) “成本可控” 與 “故障可查” 的雙贏。

1.5. 總結(jié)

在 AI 智能體（Agent）技術(shù)飛速發(fā)展的今天，如何讓具備自主性與非確定性的智能體突破傳統(tǒng)軟件質(zhì)量模型的局限，成為企業(yè)可信賴的工具？本文將整合白皮書核心內(nèi)容，拆解智能體質(zhì)量保障的 “飛輪體系” 與三大核心原則，為落地企業(yè)級(jí)智能體提供行動(dòng)藍(lán)圖。

1.5.1. 從 “能做事” 到 “可信任” 的跨越

AI 智能體的特殊性在于其 “自主決策” 能力 —— 它不像傳統(tǒng)軟件那樣遵循固定邏輯，而是會(huì)基于模型推理、工具調(diào)用、環(huán)境交互動(dòng)態(tài)調(diào)整行為。這種特性讓評(píng)估標(biāo)準(zhǔn)從 “任務(wù)是否完成” 升級(jí)為 “任務(wù)如何完成”：效率是否最優(yōu)？操作是否安全？用戶體驗(yàn)是否良好？畢竟，當(dāng)智能體的失誤可能引發(fā)業(yè)務(wù)風(fēng)險(xiǎn)（如金融領(lǐng)域的決策偏差、醫(yī)療場景的建議錯(cuò)誤）時(shí)，“盲目部署” 絕不可行。
為應(yīng)對(duì)這一挑戰(zhàn)，白皮書首先確立了智能體質(zhì)量的四大支柱，作為所有評(píng)估與優(yōu)化的核心目標(biāo)：

有效性：是否精準(zhǔn)達(dá)成用戶真實(shí)意圖（如零售智能體不僅要找到商品，更要推動(dòng)轉(zhuǎn)化）；

成本效益：完成任務(wù)的資源消耗是否合理（如避免過多工具調(diào)用、冗余推理步驟）；

安全性：是否符合倫理邊界與合規(guī)要求（如規(guī)避偏見、防止數(shù)據(jù)泄露）；

用戶信任：是否能持續(xù)提供可靠、可解釋的服務(wù)，建立長期信任關(guān)系。

1.5.2. 智能體質(zhì)量飛輪：讓系統(tǒng) “自我進(jìn)化”

優(yōu)秀的智能體不僅能穩(wěn)定執(zhí)行任務(wù)，更能通過持續(xù)評(píng)估不斷優(yōu)化。白皮書提出的 “智能體質(zhì)量飛輪”，正是將 “定義質(zhì)量 - 觀測行為 - 評(píng)估過程 - 反饋迭代” 整合為閉環(huán)的運(yùn)營體系，像推動(dòng)一個(gè)重型飛輪般，從初始的 “費(fèi)力啟動(dòng)” 到后續(xù)的 “慣性加速”，形成質(zhì)量與信任的良性循環(huán)。其四大核心步驟如下：

智能體質(zhì)量飛輪

步驟 1：定義質(zhì)量（明確方向）

飛輪的第一步是鎖定目標(biāo) —— 以 “四大質(zhì)量支柱” 為具體標(biāo)準(zhǔn)，而非抽象的 “好與壞”。例如，為客服智能體設(shè)定 “有效性” 指標(biāo)為 “用戶問題解決率≥90%”，“安全性” 指標(biāo)為 “敏感信息泄露率 = 0”，讓后續(xù)評(píng)估有明確依據(jù)。

步驟 2：構(gòu)建可見性（筑牢基礎(chǔ)）

“看不見的過程無法管理”。通過可觀測性實(shí)踐（對(duì)應(yīng)白皮書第 3 章），讓智能體生成兩類關(guān)鍵數(shù)據(jù)：

結(jié)構(gòu)化日志：像 “智能體日記”，記錄每一步操作（如 “15:30 調(diào)用天氣 API，參數(shù)為北京”）；

端到端軌跡：像 “敘事線索”，串聯(lián)零散日志，呈現(xiàn)完整決策鏈（如 “用戶請求→LLM 規(guī)劃→工具調(diào)用→結(jié)果生成”）。
這些數(shù)據(jù)是衡量 “四大支柱” 的 “證據(jù)庫”，也是飛輪轉(zhuǎn)動(dòng)的核心燃料。

步驟 3：評(píng)估過程（驅(qū)動(dòng)運(yùn)轉(zhuǎn)）

有了可見性數(shù)據(jù)，下一步就是用 “由外而內(nèi)” 的評(píng)估框架（對(duì)應(yīng)白皮書第 2 章）判斷性能：

外部評(píng)估（黑盒視角）：看最終輸出是否達(dá)標(biāo)（如任務(wù)成功率、用戶滿意度）；

內(nèi)部評(píng)估（玻璃盒視角）：拆解決策軌跡，定位問題根源（如 “推理邏輯混亂”“工具調(diào)用參數(shù)錯(cuò)誤”）。
評(píng)估時(shí)需結(jié)合 “自動(dòng)化工具” 與 “人類判斷”：用 LLM-as-a-Judge 實(shí)現(xiàn)規(guī)?；u(píng)分（如批量檢測輸出準(zhǔn)確性），用人機(jī)協(xié)同（HITL）處理復(fù)雜場景（如醫(yī)療、法律領(lǐng)域的專業(yè)驗(yàn)證），兼顧效率與精準(zhǔn)度。

步驟 4：構(gòu)建反饋循環(huán)（加速慣性）

飛輪的關(guān)鍵在于 “失敗即資產(chǎn)”—— 將生產(chǎn)環(huán)境中捕獲的每一次失誤（如智能體生成錯(cuò)誤金融建議、未識(shí)別 API 異常），通過標(biāo)注轉(zhuǎn)化為 “黃金評(píng)估集” 中的回歸測試用例。這樣一來，系統(tǒng)會(huì)從錯(cuò)誤中學(xué)習(xí)：下次遇到類似場景時(shí)，自動(dòng)規(guī)避風(fēng)險(xiǎn)，實(shí)現(xiàn) “越用越聰明” 的自我進(jìn)化。

1.5.3. 三大核心原則：落地可信智能體的 “底層思維”

若只能記住白皮書的一個(gè)知識(shí)點(diǎn)，那一定是這三條原則 —— 它們是所有技術(shù)實(shí)踐與運(yùn)營策略的 “指南針”：

原則 1：評(píng)估是 “架構(gòu)級(jí)設(shè)計(jì)”，而非 “最后一步測試”

就像一級(jí)方程式賽車從設(shè)計(jì)之初就嵌入遙測傳感器，而非賽后加裝一樣，智能體的 “可評(píng)估性” 必須從第一行代碼開始規(guī)劃。例如，在開發(fā)初期就定義日志格式、軌跡采集規(guī)則，讓后續(xù)的質(zhì)量分析無需 “返工補(bǔ)課”。質(zhì)量不是 “測試出來的”，而是 “設(shè)計(jì)出來的”。

原則 2：軌跡即真相，過程比結(jié)果更重要

智能體的最終輸出只是 “故事的最后一句話”，真正決定質(zhì)量的是其 “思考過程”。比如，兩個(gè)客服智能體都回答了用戶的物流問題，但一個(gè)是通過精準(zhǔn)調(diào)用物流 API 獲取實(shí)時(shí)數(shù)據(jù)，另一個(gè)是靠模型 “ hallucination（幻覺）” 生成虛假信息 —— 僅看結(jié)果無法區(qū)分優(yōu)劣，只有分析完整軌跡才能判斷可靠性。而這一切，都依賴于步驟 2 中構(gòu)建的深度可觀測性。

原則 3：人類是最終仲裁者，自動(dòng)化是輔助工具

自動(dòng)化（如 LLM 評(píng)估、安全過濾器）能解決 “規(guī)?；?問題，但 “好” 的定義、微妙場景的判斷（如客服語氣是否親切、法律建議是否合規(guī)）必須錨定人類價(jià)值觀。就像 AI 可以幫老師批改試卷，但評(píng)分標(biāo)準(zhǔn)（什么是 “A+”）、作文的創(chuàng)意與邏輯判斷，最終仍需人類決定。

1.5.4. 未來：可靠的 Agentic

當(dāng)前正處于智能體時(shí)代初期，打造具備推理、規(guī)劃與行動(dòng)能力的 AI 是極具變革性的技術(shù)突破，但能力提升伴隨構(gòu)建可信系統(tǒng)的重大責(zé)任。

掌握 “評(píng)估工程”（即白皮書所闡述的智能體評(píng)估理念與方法）是下一波 AI 競爭的核心差異點(diǎn)。若仍將智能體質(zhì)量視為事后補(bǔ)充，會(huì)陷入 “演示前景好、落地卻失敗” 的循環(huán)；而投入資源建立嚴(yán)謹(jǐn)且與架構(gòu)深度融合的評(píng)估體系，才能突破概念炒作，落地真正具備變革力的企業(yè)級(jí) AI 系統(tǒng)。

智能體研發(fā)的終極目標(biāo)不只是 “能運(yùn)行”，更是 “被信任”。這種信任并非偶然，而是通過持續(xù)、全面且架構(gòu)層面可靠的評(píng)估體系逐步構(gòu)建而成。

2. 代碼實(shí)驗(yàn)室

2.1. Log in Develop

通過 Web 界面運(yùn)行 Agent 然后觀察 lm_call 和 tool_call 的具體細(xì)節(jié)內(nèi)容

通過本地 debug 級(jí)別日志查看LLM 請求和回復(fù)的具體細(xì)節(jié)

2.2. Log in Production

通過 Callbacks 回調(diào)函數(shù)添加日志到代碼中

不同時(shí)間的回調(diào)函數(shù)

Google ADK 支持將 Callbacks 封裝進(jìn)自定義 Plugin 或者使用內(nèi)置的 LoggingPlugin 自動(dòng)捕獲 Agent 活動(dòng)。

from google.adk.runners import InMemoryRunner from google.adk.plugins.logging_plugin import ( LoggingPlugin, ) # <---- 1. Import the Plugin from google.genai import types import asyncio runner = InMemoryRunner( agent=research_agent_with_plugin, plugins=[ LoggingPlugin() ], # <---- 2. Add the plugin. Handles standard Observability logging across ALL agents ) print("? Runner configured")

LangGraph 內(nèi)部有 BaseCallbackHandler 同樣可以實(shí)現(xiàn)回調(diào)函數(shù)；LangSmith 可以實(shí)現(xiàn) Web 頁面觀察 Trace Timeline；使用開源的 LangFuse 也可以實(shí)現(xiàn)觀測和分析。

2.3. Evaluation

Web界面運(yùn)行保存成功的用例用于后續(xù)在運(yùn)行時(shí)評(píng)估對(duì)比使用

用 JSON 文件記錄多個(gè)場景運(yùn)行成功用例+評(píng)估標(biāo)準(zhǔn)，Agent批量執(zhí)行這些場景并和JSON記錄結(jié)果進(jìn)行自動(dòng)化型評(píng)估

LangGraph 原生沒有 Evaluation 模塊，不過實(shí)現(xiàn)起來很簡單。

參考文獻(xiàn)：
5-Day AI Agents Intensive Course with Google
Agent Quality
Day 4a - Agent Observability
Day 4b - Agent Evaluation

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

4. Agent Quality ——【Google 5-Day AI Agents】

1. 白皮書

1.1. 如何閱讀這個(gè)白皮書

1.2. 非確定性世界中的 Agent 質(zhì)量

1.2.1. 為什么 Agent Quality 需要新的方法

1.2.2. 范式轉(zhuǎn)變：從可預(yù)測代碼到不可預(yù)測 Agents

1.2.3. Agent Quality 支柱：評(píng)估框架

1.3. Agent 評(píng)估的藝術(shù)：過程評(píng)判

1.3.1. Outside-In 評(píng)估層級(jí)

1.3.1.1 Outside-In 端到端評(píng)估

1.3.1.2 Inside-Out 軌跡評(píng)估

1.3.2. Agent 評(píng)判的主題和內(nèi)容

1.3.2.1. 自動(dòng)化評(píng)估指標(biāo)

1.3.2.2. LLM 作為評(píng)判者

1.3.2.3. Agent 作為評(píng)判者

1.3.2.4. HITL 評(píng)判

1.3.2.5. 用戶反饋和 Reviewer 界面

1.3.3. AI 歸責(zé) & 安全評(píng)估

1.4. 可觀測性：洞悉 Agent 的思維

1.4.1. 從監(jiān)控到可觀測性

1.4.1.1. 可觀測性三大支柱

1.4.2. 支柱一：Logging

1.4.3. 支柱二：Tracing

1.4.3.1. 為什么追蹤至關(guān)重要

1.4.3.2. 智能體 Trace 的關(guān)鍵要素

1.4.4. 支柱三：Metrics

1.4.4.1. 系統(tǒng)指標(biāo)：生命體征

1.4.4.2. 質(zhì)量指標(biāo)：評(píng)判決策過程

1.4.5. 整合：原始數(shù)據(jù)到可執(zhí)行

1.5. 總結(jié)

1.5.1. 從 “能做事” 到 “可信任” 的跨越

1.5.2. 智能體質(zhì)量飛輪：讓系統(tǒng) “自我進(jìn)化”

步驟 1：定義質(zhì)量（明確方向）

步驟 2：構(gòu)建可見性（筑牢基礎(chǔ)）

步驟 3：評(píng)估過程（驅(qū)動(dòng)運(yùn)轉(zhuǎn)）

步驟 4：構(gòu)建反饋循環(huán)（加速慣性）

1.5.3. 三大核心原則：落地可信智能體的 “底層思維”

原則 1：評(píng)估是 “架構(gòu)級(jí)設(shè)計(jì)”，而非 “最后一步測試”

原則 2：軌跡即真相，過程比結(jié)果更重要

原則 3：人類是最終仲裁者，自動(dòng)化是輔助工具

1.5.4. 未來：可靠的 Agentic

2. 代碼實(shí)驗(yàn)室

2.1. Log in Develop

2.2. Log in Production

2.3. Evaluation

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

原則 1：評(píng)估是 “架構(gòu)級(jí)設(shè)計(jì)”，而非 “最后一步測試”

原則 3：人類是最終仲裁者，自動(dòng)化是輔助工具