
頭條
GLM-5: 從 vibe 編程到智能體工程
https://simonwillison.net/2026/Feb/11/glm-5/
GLM-5 是一個(gè)具有 7540 億參數(shù)的新 MIT 許可模型。相比 GLM-4.7,在廣泛的學(xué)術(shù)基準(zhǔn)測(cè)試中表現(xiàn)出顯著改進(jìn),并在推理、編碼和智能體任務(wù)方面達(dá)到所有開源模型中的最佳性能。GLM-5 設(shè)計(jì)用于復(fù)雜的系統(tǒng)工程和長(zhǎng)期智能體任務(wù)。它已在 Hugging Face 和 ModelScope 上開源,并可在 Z.ai 上免費(fèi)試用。
OpenAI 推出 ChatGPT Skills,升級(jí)深度研究功能
https://www.testingcatalog.com/openai-works-on-chatgpt-skills-upgrades-deep-research/
OpenAI 在 ChatGPT 中推出了改進(jìn)的深度研究功能,引入了交互式會(huì)話,允許限制特定網(wǎng)站和應(yīng)用程序上下文,由 GPT-5.2 提供支持。該更新有利于分析師、研究人員和專業(yè)人士,通過增強(qiáng)源控制、中期干預(yù)和報(bào)告清晰度來提升效果。人們期待著 GPT-5.3 的發(fā)布,以及潛在的 ChatGPT "Skills" 可能會(huì)標(biāo)準(zhǔn)化工作流程,通過可安裝指令實(shí)現(xiàn)可重復(fù)程序。
前沿
Codex 如何構(gòu)建內(nèi)部產(chǎn)品
https://openai.com/index/harness-engineering
OpenAI 描述了一個(gè)內(nèi)部實(shí)驗(yàn),一個(gè)小團(tuán)隊(duì)開發(fā)的產(chǎn)品其代碼庫(kù)——應(yīng)用程序邏輯、測(cè)試、CI、文檔和工具——完全由 Codex 智能體生成,而非人工編寫。
Cognition 如何使用 Devin 構(gòu)建 Devin
https://nader.substack.com/p/how-cognition-uses-devin-to-build
Cognition 的 Devin 是一個(gè)面向工程團(tuán)隊(duì)的云智能體平臺(tái)。它像一個(gè)隊(duì)友一樣行動(dòng),處理任務(wù)并創(chuàng)建拉取請(qǐng)求。Cognition 使用 Devin 來處理目標(biāo)重構(gòu)、錯(cuò)誤修復(fù)、拉取請(qǐng)求審查、編寫單元測(cè)試、現(xiàn)代化和遷移等任務(wù)。一般來說,如果初級(jí)工程師在足夠指導(dǎo)的情況下能夠解決,Devin 很可能完成這個(gè)任務(wù)。然而,Devin 在大規(guī)模挑戰(zhàn)、UI 美學(xué)、移動(dòng)開發(fā)和任何需要大量測(cè)試和驗(yàn)證的工作上仍有困難。
Perplexity Comet:反向故事
https://labs.zenity.io/p/perplexity-comet-a-reversing-story
Comet 是一個(gè)智能瀏覽器,具有能夠自主與網(wǎng)頁交互的 AI 模型。這篇文章詳細(xì)介紹了 Comet 的架構(gòu),解釋了模型如何與瀏覽器通信,有哪些工具可用,以及模型如何感知和與網(wǎng)頁內(nèi)容交互。瀏覽器架構(gòu)成熟且周到。它向模型暴露了訪問下載、表單填寫、文件上傳和任意導(dǎo)航的功能。
研究
你的 LLM 崩潰了。是提示詞、模型還是檢索步驟的問題?
https://www.datadoghq.com/resources/llm-observability-best-practices/
當(dāng)你的 AI 智能體產(chǎn)生幻覺或提示注入漏洞出現(xiàn)時(shí),傳統(tǒng)監(jiān)控?zé)o法告訴你原因。Datadog 的免費(fèi)指南詳細(xì)介紹了如何監(jiān)控多步驟鏈路、捕捉提示注入嘗試并在用戶之前發(fā)現(xiàn)質(zhì)量問題。下載指南。
OpenAI API 中的技能
https://developers.openai.com/cookbook/examples/skills_in_api/
OpenAI API 現(xiàn)在支持技能,即可重用的文件包,詳細(xì)說明了可重復(fù)的工作流程。智能體技能讓開發(fā)者可以在托管和本地 shell 環(huán)境中上傳和重用版本化的技能。當(dāng)開發(fā)者希望模型遵循可重復(fù)的工作流程、使用腳本或模板,或在沙箱中執(zhí)行代碼時(shí),應(yīng)使用技能。本文詳細(xì)介紹了如何通過 API 創(chuàng)建技能。
LLM 上下文稅:最佳避稅技巧
https://www.nicolasbustamante.com/p/the-llm-context-tax-best-tips-for
構(gòu)建可持續(xù)智能體產(chǎn)品的最佳團(tuán)隊(duì)都在關(guān)注令牌效率。每個(gè)浪費(fèi)的令牌都是在燒錢。通過合適的架構(gòu)可以避免上下文稅。雖然上下文工程并不光彩,但它決定了演示是否令人印象深刻和產(chǎn)品能否以合理的毛利率擴(kuò)展。
智能體連接沙盒的兩種模式
https://x.com/hwchase17/status/2021261552222158955
沙盒提供了智能體可以運(yùn)行代碼、安裝包和訪問文件的工作空間。有兩種將智能體與沙盒集成的架構(gòu)模式。第一種是智能體在沙盒內(nèi)運(yùn)行,開發(fā)者通過網(wǎng)絡(luò)與其通信。另一種是智能體在開發(fā)者的服務(wù)器上本地運(yùn)行,然后遠(yuǎn)程調(diào)用沙盒進(jìn)行執(zhí)行。deepagents 是一個(gè)開源智能體框架,內(nèi)置沙盒支持,通過簡(jiǎn)單配置支持這兩種模式。
Qwen-Image-2.0
https://qwen.ai/blog?id=qwen-image-2.0
Qwen-Image-2.0 是一個(gè)基礎(chǔ)圖像模型,旨在高保真地生成信息圖表和現(xiàn)實(shí)的 2K 輸出,并具有更強(qiáng)的提示遵循能力。
速讀
通往自主數(shù)學(xué)研究之路
https://github.com/google-deepmind/superhuman/blob/main/aletheia/Aletheia.pdf
Alethia 是一個(gè)數(shù)學(xué)研究智能體,能夠端到端地迭代生成、驗(yàn)證和修訂解決方案。它由 Gemini Deep Think 的高級(jí)版本驅(qū)動(dòng)。該模型可以解決奧林匹克問題和博士水平的練習(xí)。本文介紹了 Alethia 與數(shù)學(xué)家合作取得的首批數(shù)學(xué)研究論文,并進(jìn)行了反思。
Clawdbot 和 Moltbook 只是虛驚一場(chǎng)
https://secondthoughts.ai/p/clawdbot-and-moltbook
OpenClaw 和 Moltbook 是最近的 AI 實(shí)驗(yàn),承諾獨(dú)立的 AI 智能體,但由于可靠性和安全性問題而未能達(dá)到預(yù)期。OpenClaw 在沒有用戶許可的情況下運(yùn)行,存在數(shù)據(jù)處理不當(dāng)?shù)娘L(fēng)險(xiǎn),而 Moltbook AI 討論自我改進(jìn)和哲學(xué)。盡管目前存在局限性,這些 AI 仍然突顯了未來人工智能自主性的潛力和挑戰(zhàn)。
OpenAI 重新分配其使命對(duì)齊團(tuán)隊(duì)
OpenAI 解散了其使命對(duì)齊團(tuán)隊(duì),并將其成員重新分配到其他角色。
魔法技巧、護(hù)城河和 AI 網(wǎng)絡(luò)的三體問題
https://www.caseyaccidental.com/p/magic-tricks-moats-and-the-three
AI 原生網(wǎng)絡(luò)在創(chuàng)造可持續(xù)業(yè)務(wù)方面面臨困難,因?yàn)樗鼈円蕾囉诓《臼降?魔法技巧",但留存率很低。
AI 定價(jià)和貨幣化手冊(cè)
https://www.bvp.com/atlas/the-ai-pricing-and-monetization-playbook
創(chuàng)始人和 AI 產(chǎn)品領(lǐng)導(dǎo)者如何在一個(gè)每個(gè)令牌都有成本且每個(gè)客戶都期望指數(shù)級(jí)成果的世界中捕獲價(jià)值的入門指南。
五分之一的企業(yè)現(xiàn)在支付 Anthropic
https://x.com/arakharazian/status/2021637704039993437
一年前,只有五分之二的企業(yè)在 Ramp 支付 Anthropic。
在 12.8GB VRAM 上本地訓(xùn)練 GPT-OSS
https://x.com/unslothai/status/2021244131927023950
你現(xiàn)在可以通過 Unsloth AI 的新 Triton 內(nèi)核以 35% 更少的 VRAM 速度提高 12 倍,同時(shí)不損失準(zhǔn)確性地訓(xùn)練 MoE 模型。
介紹 Lab
https://x.com/primeintellect/status/2021403222502670765
Lab 是一個(gè)用于訓(xùn)練智能體模型的全棧平臺(tái)。