合成數(shù)據(jù)的可驗(yàn)證性比較重要,參考美團(tuán)這篇論文:EvoCUA
在 EvoCUA 報(bào)告中,Verifiable Synthesis Engine(可驗(yàn)證合成引擎) 是其三大核心支柱之一 。該引擎旨在解決計(jì)算機(jī)使用智能體(CUA)在訓(xùn)練中面臨的數(shù)據(jù)稀缺、獎(jiǎng)勵(lì)黑客(Reward Hacking)以及缺乏精確監(jiān)督信號(hào)等核心痛點(diǎn) 。
以下是該章節(jié)的詳細(xì)介紹:
1. 核心理念:以生成即驗(yàn)證 (Generation-as-Validation)
該引擎不再采用傳統(tǒng)的被動(dòng)數(shù)據(jù)收集方式,而是轉(zhuǎn)向一種主動(dòng)的合成范式。其核心邏輯是:在生成一個(gè)合成指令 的同時(shí),同步生成一個(gè)確定的、可執(zhí)行的驗(yàn)證器 。
目的:確保獎(jiǎng)勵(lì)信號(hào) 源于對(duì)最終環(huán)境狀態(tài)的嚴(yán)格校驗(yàn),從而繞過(guò)自然語(yǔ)言匹配中存在的語(yǔ)義模糊性 。
2. 引擎的三階段架構(gòu)
該引擎由三個(gè)級(jí)聯(lián)模塊組成:結(jié)構(gòu)化任務(wù)空間構(gòu)建、代理式雙流合成以及嚴(yán)格的質(zhì)量保證 。
第一階段:結(jié)構(gòu)化任務(wù)空間構(gòu)建 (Structured Task Space Construction)
為了捕獲現(xiàn)實(shí)世界計(jì)算機(jī)使用的復(fù)雜性,引擎首先構(gòu)建了一個(gè)多維度的任務(wù)空間 :
層次化領(lǐng)域分類 (Hierarchical Domain Taxonomy):將核心桌面應(yīng)用(如 Web 瀏覽器、Excel、Word)的各種行為分解為原子能力 。這種分解允許智能體通過(guò)重新組合基本技能來(lái)泛化到各種復(fù)雜場(chǎng)景 。
- 混合資源注入 (Hybrid Resource Injection):
參數(shù)化合成:利用代碼生成器批量產(chǎn)生 Word、Excel 或 PDF 文檔,通過(guò)參數(shù)化變量(如姓名、價(jià)格、日期)確保數(shù)值和布局的多樣性 。
非參數(shù)化注入:引入來(lái)自互聯(lián)網(wǎng)的真實(shí)數(shù)據(jù)(如圖像、音頻、復(fù)雜幻燈片),強(qiáng)迫智能體處理真實(shí)文件中的視覺(jué)噪聲和結(jié)構(gòu)多樣性 。
第二階段:代理式雙流合成 (Agentic Dual-Stream Synthesis)
這一階段采用基于 ReAct 的代理工作流,由一個(gè)基礎(chǔ)視覺(jué)語(yǔ)言模型 (VLM) 擔(dān)任“任務(wù)建筑師” :
指令流 (Instruction stream):根據(jù)給定的場(chǎng)景元組(角色、能力、資源)制定自然語(yǔ)言查詢 。
驗(yàn)證器流 (Validator stream):同步生成地面真值 (Ground Truth) 和對(duì)應(yīng)的可執(zhí)行評(píng)估代碼 。
閉環(huán)反饋機(jī)制:生成的代碼會(huì)在真實(shí)的沙盒環(huán)境中立即運(yùn)行。如果運(yùn)行失敗(如語(yǔ)法錯(cuò)誤或 API 不匹配),錯(cuò)誤信息會(huì)反饋給模型進(jìn)行自我修正,直到代碼成功運(yùn)行并通過(guò)質(zhì)量檢查 。
第三階段:嚴(yán)格的質(zhì)量保證 (Rigorous Quality Assurance)
該階段通過(guò)一系列協(xié)議過(guò)濾合成的數(shù)據(jù)對(duì),以消除誤報(bào)(幻覺(jué)成功)、漏報(bào)和數(shù)據(jù)泄露 :
基于一致性的過(guò)濾:部署一個(gè)參考智能體在沙盒中執(zhí)行合成任務(wù)。只有被沙盒執(zhí)行、獎(jiǎng)勵(lì)模型和人工抽檢三方交叉驗(yàn)證的任務(wù)才會(huì)被保留 。
三重去重 (Tri-fold decontamination):為了防止數(shù)據(jù)泄露(即模型在預(yù)訓(xùn)練中見(jiàn)過(guò)測(cè)試基準(zhǔn)),執(zhí)行語(yǔ)義去重、配置去重(剔除應(yīng)用初始化設(shè)置相同的任務(wù))以及驗(yàn)證器去重(確保成功條件不與現(xiàn)有基準(zhǔn)腳本重疊) 。
3. 主要貢獻(xiàn)與成效
規(guī)?;?/strong>:通過(guò)該流水線,研究團(tuán)隊(duì)成功將可驗(yàn)證的訓(xùn)練數(shù)據(jù)擴(kuò)展到了數(shù)萬(wàn)個(gè)實(shí)例,打破了人工標(biāo)注數(shù)據(jù)的瓶頸 。
精準(zhǔn)監(jiān)督:為智能體提供了精確、確定性的監(jiān)督信號(hào),使其能夠通過(guò)學(xué)習(xí)合成軌跡來(lái)持續(xù)提升能力 。