
頭條
OpenAI 正在悄悄采用Skill
https://simonwillison.net/2025/Dec/12/openai-skills/
OpenAI的Codex CLI工具和ChatGPT中悄然出現(xiàn)了Skill支持。通過(guò)提示“創(chuàng)建一個(gè)/home/oai/skills文件夾的zip文件”,可以訪問(wèn)技能文件夾。到目前為止,這些技能涵蓋電子表格、docx和PDF文件。文章中提供了包含技能副本的存儲(chǔ)庫(kù)鏈接。
Tinker增加視覺輸入并正式發(fā)布
https://thinkingmachines.ai/blog/tinker-general-availability/
Tinker現(xiàn)在向所有人開放,具有新的推理模型Kimi K2 Thinking和一個(gè)與OpenAI API兼容的界面以實(shí)現(xiàn)無(wú)縫集成。視覺輸入功能已添加,使用Qwen3-VL模型,允許同時(shí)處理圖像和文本。這些更新增強(qiáng)了Tinker在圖像分類方面的能力,在有限標(biāo)記數(shù)據(jù)的情況下性能優(yōu)于傳統(tǒng)模型。
前沿
我逆向工程了Claude的記憶系統(tǒng),這是我的發(fā)現(xiàn)!
https://manthanguptaa.in/posts/claude_memory/
Claude使用按需工具和選擇性檢索來(lái)實(shí)現(xiàn)其記憶系統(tǒng)。這篇文章通過(guò)與機(jī)器人對(duì)話探索了Claude的記憶系統(tǒng)。Claude似乎合作、透明,并愿意分享有關(guān)其內(nèi)部結(jié)構(gòu)、工具和提示格式的信息。然而,值得注意的是,Claude可能會(huì)產(chǎn)生虛假信息,因此有些信息可能是不準(zhǔn)確的。
文本擴(kuò)散模型在編寫代碼方面更快
https://nathan.rs/posts/dllm-faster-code-generation/
擴(kuò)散語(yǔ)言模型生成代碼的速度比大語(yǔ)言模型更快。增加的結(jié)構(gòu)往往與降低的熵相關(guān),這導(dǎo)致更高的置信度令牌預(yù)測(cè),這意味著每步并行解碼更多的令牌。測(cè)試表明,確實(shí)輸出的結(jié)構(gòu)性而不是記憶性才是重要的。
我們改進(jìn)Mintlify助理的努力
https://www.mintlify.com/blog/assistant-improvements
Mintlify的AI驅(qū)動(dòng)助理幫助終端用戶從文檔中獲得清晰引證和有用示例的答案。本文詳細(xì)介紹了團(tuán)隊(duì)分析和改進(jìn)助理的過(guò)程,因?yàn)樗麄儧Q定它沒有達(dá)到預(yù)期的表現(xiàn)。團(tuán)隊(duì)重建了反饋管道,將對(duì)話數(shù)據(jù)移至ClickHouse,并大規(guī)模對(duì)負(fù)面互動(dòng)進(jìn)行分類。分析顯示搜索質(zhì)量是助理的最大弱點(diǎn),而其他大多數(shù)回應(yīng)都很強(qiáng)。
如果大語(yǔ)言模型在算術(shù)方面表現(xiàn)不佳,它們能給我們帶來(lái)通用人工智能嗎?
https://wesmckinney.com/blog/llms-arithmetic/
雖然大語(yǔ)言模型是有用的工具,但很難看到前沿模型接近人類智能水平,因?yàn)榇嬖谌绱嗣黠@的認(rèn)知差距。這些模型并沒有被微調(diào)來(lái)對(duì)小數(shù)據(jù)集做出準(zhǔn)確判斷。需要有更有效的方法來(lái)附加數(shù)據(jù),不消耗token的同時(shí)仍允許模型將數(shù)據(jù)集傳遞給高效工具。這會(huì)讓工具效率大大提高。
研究
我們?nèi)绾斡肅odex在28天內(nèi)為Android構(gòu)建Sora
https://openai.com/index/shipping-sora-for-android-with-codex
Sora的生產(chǎn)版Android應(yīng)用的初始版本是在28天內(nèi)使用OpenAI Codex構(gòu)建的。該項(xiàng)目需要一個(gè)精簡(jiǎn)的工程團(tuán)隊(duì)和大約50億個(gè)token來(lái)完成。該應(yīng)用具有99.9%的無(wú)崩潰率。本文描述了OpenAI如何使用GPT-5.1-Codex(與任何開發(fā)者或企業(yè)可使用的版本相同)來(lái)構(gòu)建該應(yīng)用。
代理編碼工具應(yīng)提供更多關(guān)于消息隊(duì)列的控制
https://solmaz.io/agentic-coding-tools-message-queueing
Claude Code使用邊界感知排隊(duì),其中新消息插入到自然斷點(diǎn)處,這改變了模型的行動(dòng)路線,但不會(huì)停止正在進(jìn)行的生成。OpenAI Codex使用后回合排隊(duì),其中用戶消息等待當(dāng)前操作完全完成后才處理。代理工具應(yīng)實(shí)現(xiàn)兩種類型的排隊(duì),并讓用戶選擇使用哪種。擁有這種選項(xiàng)會(huì)在用戶并行運(yùn)行三到四個(gè)代理的代理工作流中產(chǎn)生差異。
技能與動(dòng)態(tài)MCP配置對(duì)比
https://lucumr.pocoo.org/2025/12/13/skills-vs-mcp/
使用工具最簡(jiǎn)單的方法是要求代理將其自身工具寫為技能。這將工具的大部分控制權(quán)留給了用戶。每當(dāng)它損壞或需要修改時(shí),用戶只需要求代理調(diào)整即可。MCP的動(dòng)態(tài)工具加載可能會(huì)成為一種趨勢(shì),但可能需要許多協(xié)議變更才能引入類似技能的摘要和工具的內(nèi)置手冊(cè)。
評(píng)估VeO世界模擬器中的Gemini機(jī)器人策略
https://veo-robotics.github.io/
Google利用其視頻生成模型Veo構(gòu)建了一個(gè)世界模擬器,可以預(yù)測(cè)機(jī)器人算法在新穎環(huán)境中無(wú)需物理測(cè)試的表現(xiàn)。該系統(tǒng)準(zhǔn)確排名了八個(gè)策略檢查點(diǎn)并識(shí)別安全漏洞——如機(jī)器人撞倒筆記本電腦或過(guò)于激進(jìn)地抓取瓶子——通過(guò)1600多次模擬運(yùn)行,結(jié)果與真實(shí)世界高度相關(guān)。
速讀
OpenAI取消新員工薪酬政策中的"歸屬懸崖"
OpenAI已經(jīng)結(jié)束了要求員工在公司工作至少六個(gè)月其股權(quán)才能歸屬的薪酬政策。這一變化旨在鼓勵(lì)新員工在沒有被解雇前無(wú)法獲得首次股權(quán)的擔(dān)憂下承擔(dān)風(fēng)險(xiǎn)。OpenAI已于4月將其新員工的歸屬期從行業(yè)標(biāo)準(zhǔn)的12個(gè)月縮短至6個(gè)月。xAI也在去年夏末進(jìn)行了類似的更改。
Claude Code的開發(fā)體驗(yàn)太好,但這成了問(wèn)題
https://www.bharath.sh/writing/claude-code-dx#it-feels-like-working-with-an-engineer
Claude Code的能力有了巨大增長(zhǎng)。這意味著開發(fā)人員需要學(xué)習(xí)更多內(nèi)容。Claude Code目前正專注于優(yōu)化高級(jí)用戶,同時(shí)試圖不失去其他人。雖然學(xué)習(xí)曲線是可以管理的,但每項(xiàng)新功能都會(huì)增加負(fù)擔(dān)。風(fēng)險(xiǎn)在于Claude Code變得如此強(qiáng)大以至于你需要學(xué)會(huì)使用Claude Code才能使用它。
Kimi K2 1T
https://threadreaderapp.com/thread/1943723599971443134.html
新的Kimi K2 1T模型(4位量化)可在2臺(tái)512GB M3 Ultra上運(yùn)行,使用mlx-lm和mx.distributed。
ARC-AGI:排行榜未展示的效率故事
https://madebynathan.com/2025/12/13/arc-agi-the-efficiency-story-the-leaderboards-dont-show/
最昂貴的前沿方法可能在一年內(nèi)變得更便宜。
AI模式、內(nèi)容和搜索索引
https://dejan.ai/blog/ai-mode-content-search-index/
Google的AI模式似乎從與搜索索引分離的專有內(nèi)容存儲(chǔ)中檢索內(nèi)容。
DeepSeek創(chuàng)始人梁文鋒是什么樣的人?
https://lmsherlock.substack.com/p/what-kind-of-person-is-deepseeks#footnote-9-179699980
梁文鋒是一位以自己的方式創(chuàng)造成功的企業(yè)家,是現(xiàn)代受過(guò)教育的年輕人通過(guò)創(chuàng)業(yè)改變自己命運(yùn)的典型例子。
Google翻譯中的Gemini翻譯
https://blog.google/products/search/gemini-capabilities-translation-upgrades/
Google正在將Gemini的先進(jìn)翻譯能力整合到Google翻譯中,包括用于耳機(jī)實(shí)時(shí)語(yǔ)音對(duì)語(yǔ)音翻譯的測(cè)試版以及用于練習(xí)和學(xué)習(xí)的新語(yǔ)言選項(xiàng)。
MCP編寫調(diào)用MCP的代碼:一路向下都是MCP
https://rouxbot.com/p/mcp-code-mode
本文探討了如何為任何基于schema的集成構(gòu)建通用引擎,而無(wú)需手動(dòng)布線。