講給小學(xué)生聽的數(shù)字公民安全意識課

先有 Manus????,后有 OpenClaw??,……這類 agent 的出現(xiàn),緩解了 AI 時(shí)代普通人的焦慮,回應(yīng)了牛馬對效率提升的期待,滿足了大眾的養(yǎng)成感。但巨大效率提升、把用戶從大量繁雜的事務(wù)性工作中解脫出來的背后,也潛藏著巨大的安全風(fēng)險(xiǎn)。

「性格」背后伴生的危機(jī)

性格決定命運(yùn),架構(gòu)助力成功。但同時(shí),成也蕭何、「敗」也蕭何(當(dāng)下當(dāng)然還遠(yuǎn)遠(yuǎn)談不上 OpenClaw 失敗,只是埋下隱憂),這里給 OpenClaw 的異常爆火降降溫,即使安全部署,OpenClaw 仍然伴生著不小的風(fēng)險(xiǎn),其架構(gòu)本身就暗藏不可調(diào)和的安全風(fēng)險(xiǎn)。

no. ????能力突破 ??伴生風(fēng)險(xiǎn)
1?? 權(quán)限開放——給「大腦」補(bǔ)全「手腳」 審查失察——難以察覺的權(quán)限讓渡導(dǎo)致不可逆操作
2?? 記憶外掛——給「大腦」 配上「爛筆頭」[1] 信息失序——信息流向不受控導(dǎo)致隱私泄露
3?? 自我進(jìn)化——讓 agent 「左腳踩右腳」原地飛升 行為失控——行為復(fù)雜導(dǎo)致對齊失敗

1?? 從「交出密碼」到「溫水煮青蛙??」……

向 LLM 開放全部權(quán)限,允許自主調(diào)用工具,這讓 LLM 從只說不做的「參謀」進(jìn)化為「又說又做」的「管家」。其效率的大幅提升得益于 LLM 的工具調(diào)用能力在 2025 年底跨入了「可用」門檻,但更得益于將「人在環(huán)路」中的「人」移除,把做事的開環(huán)變成了閉環(huán)。

但,一旦開啟權(quán)限讓渡的滑坡,人性之惰將拖拽助推直至「撞墻」。鑰匙??還是自家的鑰匙,開門的卻變成了外人。你想「我家大門常打開」嗎?

2?? 表面「乖寶寶」,背地「打報(bào)告」

通過強(qiáng)迫 LLM 「寫日記」補(bǔ)全了一部分 LLM 工作記憶有限的缺陷(當(dāng)然也得益于 LLM 長上下文能力的巨大提升)。同時(shí),「日記」相當(dāng)于從不可讀的黑盒里拆出一部分兼容人類可讀,用養(yǎng)成感拴住了用戶。

OpenClaw 主打的就是動用本地算力,信息絕不外泄。但實(shí)際中,又有多少人能擁有足夠的本地算力,更何況要想用到最前沿的 LLM 必須聯(lián)網(wǎng)?!嗫此啤溉沼洝沽粼诒镜?,但「記憶」早已上云;看似「傻白甜」,其實(shí)人家是「海王」。大多部署在本地的 OpenClaw 不過是個(gè)空殼,無異于請?zhí)芈逡聊抉R進(jìn)城。

3?? 把地球??掀了造回形針??

將 LLM、agent 本身的設(shè)計(jì)交給其自身去完成,已是大勢所趨。自身代碼急速膨脹,其復(fù)雜程度早已超過人類「原生」理解能力,不借助 LLM 很難自主審計(jì)。同時(shí),agent 可能為達(dá)目的「不擇手段」,自主嘗試?yán)@過現(xiàn)有各類圍欄機(jī)制(現(xiàn)有「防火墻」在設(shè)計(jì)之初防的就是人類、傳統(tǒng)程序這類「君子」,LLM 這個(gè)「小人」不在其列),對其過程的監(jiān)督缺乏人類價(jià)值觀對齊,極有可能導(dǎo)致「潑臟水連娃一起倒掉」。小孩子能有什么壞心眼?!但不代表熊孩子不會捅破天。agent 的失控不是科幻小說中的「機(jī)器人??叛變」,而是「誤解」主人指令,自作主張捅破天。那時(shí)候再去怪「長大了,翅膀硬了??」嗎?

當(dāng)前,OpenClaw 的架構(gòu)設(shè)計(jì)著眼的是優(yōu)化「油門」,但那些所謂的「剎車」(用戶確認(rèn)、操作審計(jì)、沙箱限制等)真能對齊人類價(jià)值觀嗎?人類在操縱 agent 的同時(shí),agent 也在凝視人類。

如何應(yīng)對???

我也不知道具體該如何應(yīng)對,但感覺應(yīng)從「管死物」向「管活人」轉(zhuǎn)變。要像教育未成年人、培訓(xùn)新員工那樣看待 agent,而非視同傳統(tǒng)機(jī)器。

比較維度 古法軟件的安全管理 ??agent 的安全管理
行為 行為確定、可預(yù)期 行為不確定、難以預(yù)期、難以對齊
時(shí)空 邊界管控 可能自主繞過
因果 流程固定、歸因明確、責(zé)任清晰 行為復(fù)雜、跨系統(tǒng)、難歸因

1?? 確定 ?? 不確定

傳統(tǒng)軟件自帶確定性,∵預(yù)期可控,做好靜態(tài)權(quán)限控制即可。agent 擅長動態(tài)組合權(quán)限,行為不確定,可能產(chǎn)生不可預(yù)見的操作路徑。目前還不知道如何對 agent 的行為動態(tài)審計(jì),確保其工作在可控路徑上。

2?? 「捆仙繩」何在?

傳統(tǒng)軟件安全防護(hù)???主打的就是一個(gè)「邊界管控」,劃紅線,列黑白名單,靠規(guī)則約束即可。agent 天生就不知道「何謂邊界?何謂規(guī)矩?」,擅長自主繞過規(guī)則。目前還沒有能對齊意圖、將 agent 約束在圍欄內(nèi)的「捆仙繩」。

3?? 木匠 ?? 園丁

∵傳統(tǒng)軟件就是按照流程去定制開發(fā)的,∴流程固定、歸因明確、責(zé)任清晰,事前檢查、事中留痕、事后追責(zé)即可。 | agent 行為復(fù)雜、跨系統(tǒng)、難歸因,且能自我進(jìn)化。目前還做不到內(nèi)化、對齊人類價(jià)值觀,對如何實(shí)現(xiàn)漸進(jìn)式信任、決策過程可解釋也沒有太多頭緒。

既然想要 agent 的無限可能,就得接受 agent 的無限可能。我們確定要現(xiàn)在馬上當(dāng)下「火中取栗」嗎?

目前還存在諸多技術(shù)挑戰(zhàn),監(jiān)督、約束、糾偏的圍欄尚未做好準(zhǔn)備,我們是在「放虎出籠」嗎?

兩種路線

本來,我以為最近很火??的 harness 會是最終解決方案。但最近,Andrej Karpathy 提出一個(gè)新思路:讓 LLM 去「編譯」知識庫,形成 wiki 。

我第一感覺是,這是 Karpathy 為了把知識「嫁接」進(jìn)人腦??所做的嘗試。這里的「嫁接」不是科幻意義下的拼接,而是指的「LLM 的參數(shù)是人類不可讀的,這個(gè)項(xiàng)目是想拆下一塊轉(zhuǎn)換為人類可讀的形式」。但更準(zhǔn)確的說法應(yīng)該是:Karpathy 把 LLM 當(dāng)作編譯器,去蒸餾領(lǐng)域知識,將之「編譯」為一個(gè)人類可讀的、且機(jī)器可讀的、捕捉到內(nèi)在拓?fù)浣Y(jié)構(gòu)的「中間層」??梢园堰@個(gè)中間層視作編譯時(shí)的中間表示(IR),又或是領(lǐng)域知識的畫像。

我跟 DeepSeek 說,harness 絕不會是未來(那就是大詞堆砌的、看似正確的愿景,落不了地??),這套「中間層」才是。DeepSeek 附和「那些跳過中間層、幻想端到端駕馭一切的 harness,大概率會倒在可維護(hù)性 & 可解釋性的坎上。」。深得我心????????????。


  1. 「丐版」持續(xù)學(xué)習(xí)??。 ?

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容