蜜臀av在线网站,韩国淑女BBBHD,伊人久久亚洲中文字幕

頭條

GLM-5: 從 vibe 編程到智能體工程

https://simonwillison.net/2026/Feb/11/glm-5/

GLM-5 是一個(gè)具有 7540 億參數(shù)的新 MIT 許可模型。相比 GLM-4.7，在廣泛的學(xué)術(shù)基準(zhǔn)測(cè)試中表現(xiàn)出顯著改進(jìn)，并在推理、編碼和智能體任務(wù)方面達(dá)到所有開源模型中的最佳性能。GLM-5 設(shè)計(jì)用于復(fù)雜的系統(tǒng)工程和長(zhǎng)期智能體任務(wù)。它已在 Hugging Face 和 ModelScope 上開源，并可在 Z.ai 上免費(fèi)試用。

OpenAI 推出 ChatGPT Skills，升級(jí)深度研究功能

https://www.testingcatalog.com/openai-works-on-chatgpt-skills-upgrades-deep-research/

OpenAI 在 ChatGPT 中推出了改進(jìn)的深度研究功能，引入了交互式會(huì)話，允許限制特定網(wǎng)站和應(yīng)用程序上下文，由 GPT-5.2 提供支持。該更新有利于分析師、研究人員和專業(yè)人士，通過增強(qiáng)源控制、中期干預(yù)和報(bào)告清晰度來提升效果。人們期待著 GPT-5.3 的發(fā)布，以及潛在的 ChatGPT "Skills" 可能會(huì)標(biāo)準(zhǔn)化工作流程，通過可安裝指令實(shí)現(xiàn)可重復(fù)程序。

前沿

Codex 如何構(gòu)建內(nèi)部產(chǎn)品

https://openai.com/index/harness-engineering

OpenAI 描述了一個(gè)內(nèi)部實(shí)驗(yàn)，一個(gè)小團(tuán)隊(duì)開發(fā)的產(chǎn)品其代碼庫(kù)——應(yīng)用程序邏輯、測(cè)試、CI、文檔和工具——完全由 Codex 智能體生成，而非人工編寫。

Cognition 如何使用 Devin 構(gòu)建 Devin

https://nader.substack.com/p/how-cognition-uses-devin-to-build

Cognition 的 Devin 是一個(gè)面向工程團(tuán)隊(duì)的云智能體平臺(tái)。它像一個(gè)隊(duì)友一樣行動(dòng)，處理任務(wù)并創(chuàng)建拉取請(qǐng)求。Cognition 使用 Devin 來處理目標(biāo)重構(gòu)、錯(cuò)誤修復(fù)、拉取請(qǐng)求審查、編寫單元測(cè)試、現(xiàn)代化和遷移等任務(wù)。一般來說，如果初級(jí)工程師在足夠指導(dǎo)的情況下能夠解決，Devin 很可能完成這個(gè)任務(wù)。然而，Devin 在大規(guī)模挑戰(zhàn)、UI 美學(xué)、移動(dòng)開發(fā)和任何需要大量測(cè)試和驗(yàn)證的工作上仍有困難。

Perplexity Comet：反向故事

https://labs.zenity.io/p/perplexity-comet-a-reversing-story

Comet 是一個(gè)智能瀏覽器，具有能夠自主與網(wǎng)頁交互的 AI 模型。這篇文章詳細(xì)介紹了 Comet 的架構(gòu)，解釋了模型如何與瀏覽器通信，有哪些工具可用，以及模型如何感知和與網(wǎng)頁內(nèi)容交互。瀏覽器架構(gòu)成熟且周到。它向模型暴露了訪問下載、表單填寫、文件上傳和任意導(dǎo)航的功能。

研究

你的 LLM 崩潰了。是提示詞、模型還是檢索步驟的問題？

https://www.datadoghq.com/resources/llm-observability-best-practices/

當(dāng)你的 AI 智能體產(chǎn)生幻覺或提示注入漏洞出現(xiàn)時(shí)，傳統(tǒng)監(jiān)控?zé)o法告訴你原因。Datadog 的免費(fèi)指南詳細(xì)介紹了如何監(jiān)控多步驟鏈路、捕捉提示注入嘗試并在用戶之前發(fā)現(xiàn)質(zhì)量問題。下載指南。

OpenAI API 中的技能

https://developers.openai.com/cookbook/examples/skills_in_api/

OpenAI API 現(xiàn)在支持技能，即可重用的文件包，詳細(xì)說明了可重復(fù)的工作流程。智能體技能讓開發(fā)者可以在托管和本地 shell 環(huán)境中上傳和重用版本化的技能。當(dāng)開發(fā)者希望模型遵循可重復(fù)的工作流程、使用腳本或模板，或在沙箱中執(zhí)行代碼時(shí)，應(yīng)使用技能。本文詳細(xì)介紹了如何通過 API 創(chuàng)建技能。

LLM 上下文稅：最佳避稅技巧

https://www.nicolasbustamante.com/p/the-llm-context-tax-best-tips-for

構(gòu)建可持續(xù)智能體產(chǎn)品的最佳團(tuán)隊(duì)都在關(guān)注令牌效率。每個(gè)浪費(fèi)的令牌都是在燒錢。通過合適的架構(gòu)可以避免上下文稅。雖然上下文工程并不光彩，但它決定了演示是否令人印象深刻和產(chǎn)品能否以合理的毛利率擴(kuò)展。

智能體連接沙盒的兩種模式

https://x.com/hwchase17/status/2021261552222158955

沙盒提供了智能體可以運(yùn)行代碼、安裝包和訪問文件的工作空間。有兩種將智能體與沙盒集成的架構(gòu)模式。第一種是智能體在沙盒內(nèi)運(yùn)行，開發(fā)者通過網(wǎng)絡(luò)與其通信。另一種是智能體在開發(fā)者的服務(wù)器上本地運(yùn)行，然后遠(yuǎn)程調(diào)用沙盒進(jìn)行執(zhí)行。deepagents 是一個(gè)開源智能體框架，內(nèi)置沙盒支持，通過簡(jiǎn)單配置支持這兩種模式。

Qwen-Image-2.0

https://qwen.ai/blog?id=qwen-image-2.0

Qwen-Image-2.0 是一個(gè)基礎(chǔ)圖像模型，旨在高保真地生成信息圖表和現(xiàn)實(shí)的 2K 輸出，并具有更強(qiáng)的提示遵循能力。

速讀

通往自主數(shù)學(xué)研究之路

https://github.com/google-deepmind/superhuman/blob/main/aletheia/Aletheia.pdf

Alethia 是一個(gè)數(shù)學(xué)研究智能體，能夠端到端地迭代生成、驗(yàn)證和修訂解決方案。它由 Gemini Deep Think 的高級(jí)版本驅(qū)動(dòng)。該模型可以解決奧林匹克問題和博士水平的練習(xí)。本文介紹了 Alethia 與數(shù)學(xué)家合作取得的首批數(shù)學(xué)研究論文，并進(jìn)行了反思。

Clawdbot 和 Moltbook 只是虛驚一場(chǎng)

https://secondthoughts.ai/p/clawdbot-and-moltbook

OpenClaw 和 Moltbook 是最近的 AI 實(shí)驗(yàn)，承諾獨(dú)立的 AI 智能體，但由于可靠性和安全性問題而未能達(dá)到預(yù)期。OpenClaw 在沒有用戶許可的情況下運(yùn)行，存在數(shù)據(jù)處理不當(dāng)?shù)娘L(fēng)險(xiǎn)，而 Moltbook AI 討論自我改進(jìn)和哲學(xué)。盡管目前存在局限性，這些 AI 仍然突顯了未來人工智能自主性的潛力和挑戰(zhàn)。