
頭條
Claude Opus 4.5
https://www.anthropic.com/news/claude-opus-4-5
Claude Opus 4.5 是首個(gè)在 SWE-bench Verified 測試中得分超 80% 的模型。它在編碼、工具使用和推理基準(zhǔn)測試中都取得了頂尖成績。該模型定價(jià)為每百萬Token 5 美元/25 美元,比之前的 Opus 定價(jià)有所降低。它新增了“努力”參數(shù),讓開發(fā)者可以在速度和性能之間做權(quán)衡;具備自動上下文壓縮功能,能實(shí)現(xiàn)無限長對話;Claude for Chrome 和 Claude for Excel 的使用范圍也擴(kuò)大了。
ChatGPT 推出購物研究功能
https://openai.com/index/chatgpt-shopping-research
正值假期,OpenAI推出了一個(gè)交互式產(chǎn)品發(fā)現(xiàn)功能,它能搜索網(wǎng)絡(luò)、詢問澄清問題,還能生成個(gè)性化的購買指南。用戶可以通過標(biāo)記產(chǎn)品“不感興趣”或“類似的產(chǎn)品”來實(shí)時(shí)引導(dǎo)搜索。該系統(tǒng)借助ChatGPT的記憶實(shí)現(xiàn)個(gè)性化推薦。它由專門針對購物任務(wù)訓(xùn)練的GPT - 5迷你模型提供支持。
深度分析
Nano Banana Pro 力推太空船工程
https://angadh.com/inkhaven-23
Nano Banana Pro 能根據(jù)論文做出不錯的圖表。就算是免費(fèi)版,它也能做出相當(dāng)不錯的演示文稿。這篇文章展示了給該模型輸入宇宙飛船工程學(xué)論文后會有什么效果。雖然幻燈片里的內(nèi)容仍需核實(shí),但很明顯,這項(xiàng)技術(shù)正朝著令人驚艷的方向發(fā)展,以后只會越來越好。
成本海嘯
https://betterthanrandom.substack.com/p/a-tsunami-of-cogs
人工智能行業(yè)正在調(diào)整。OpenAI、Anthropic和Cursor正以負(fù)利潤率補(bǔ)貼需求。谷歌被人工智能熱潮打了個(gè)措手不及,花了一段時(shí)間才重整旗鼓,不過現(xiàn)在它強(qiáng)勢回歸了。它資金充裕,更有能力打負(fù)利潤率這場仗。要是挑戰(zhàn)者不想被成本的海嘯淹沒,就得做出改變。
通用大語言模型(LLM)記憶并不存在
https://fastpaca.com/blog/memory-isnt-one-thing
語義記憶負(fù)責(zé)記錄偏好、長期經(jīng)歷和融洽關(guān)系。工作記憶負(fù)責(zé)記錄文件路徑、變量名和即時(shí)錯誤日志。語義記憶在跨會話個(gè)性化方面表現(xiàn)出色,但在處理任務(wù)執(zhí)行狀態(tài)時(shí)效果不佳。要把語義記憶和工作記憶當(dāng)作有不同需求的獨(dú)立系統(tǒng)。
工程
Claude 開發(fā)者平臺推出高級工具使用功能
https://www.anthropic.com/engineering/advanced-tool-use
Anthropic為開發(fā)者推出了三項(xiàng)測試版功能?!肮ぞ咚阉鞴ぞ摺笨砂葱璨檎夜ぞ撸瑹o需提前加載所有定義,能減少85%的Toekn消耗?!熬幊淌焦ぞ哒{(diào)用”能讓Claude通過Python代碼編排多個(gè)工具,而非單獨(dú)調(diào)用API,可減少37%的令牌使用。“工具使用示例”能提供JSON模式之外的具體使用模式,處理復(fù)雜參數(shù)的準(zhǔn)確率從72%提升至90%。
組建以人工智能為核心的工程團(tuán)隊(duì)
https://developers.openai.com/codex/guides/build-ai-native-engineering-team/
AI編碼智能體正在革新軟件開發(fā)流程,能處理從規(guī)劃、原型設(shè)計(jì)到實(shí)施和運(yùn)維分診等任務(wù),讓工程師專注于架構(gòu)和產(chǎn)品設(shè)計(jì)?,F(xiàn)在,這些智能體可以進(jìn)行長達(dá)數(shù)小時(shí)的推理,在規(guī)劃、設(shè)計(jì)、開發(fā)、測試、代碼審查和部署等環(huán)節(jié)都能發(fā)揮作用。采用編碼智能體處理明確任務(wù)的團(tuán)隊(duì),無需大幅改變現(xiàn)有工作流程,就能更快交付成果,提高效率。
其他
認(rèn)真對待參差不齊的狀況
https://helentoner.substack.com/p/taking-jaggedness-seriously
人工智能能力提升不均衡的情況會持續(xù)下去。因?yàn)橛行┤蝿?wù)有明確、可驗(yàn)證的獎勵,可用于強(qiáng)化學(xué)習(xí),但大多數(shù)實(shí)際工作沒有。大多數(shù)工作需要從不同系統(tǒng)和人際關(guān)系中收集并整合信息。圍繞人工智能現(xiàn)有最強(qiáng)能力重新設(shè)計(jì)工作流程的機(jī)構(gòu),將比那些等待業(yè)內(nèi)所承諾的“全能遠(yuǎn)程員工”的機(jī)構(gòu)更有優(yōu)勢。
Meta超大型新數(shù)據(jù)中心:人工智能與激進(jìn)會計(jì)手段相遇
https://www.wsj.com/tech/meta-ai-data-center-finances-d3a6b464
Meta正舉債建設(shè)一座價(jià)值270億美元的數(shù)據(jù)中心。這座數(shù)據(jù)中心和相關(guān)債務(wù)都不會計(jì)入其資產(chǎn)負(fù)債表。從2029年開始,Meta將租賃該數(shù)據(jù)中心,最長可達(dá)20年。初始租期為4年,之后每4年可續(xù)租。這種租賃結(jié)構(gòu)能讓Meta確認(rèn)的租賃負(fù)債和相關(guān)資產(chǎn)降至最低。
人工智能真的在吞噬世界嗎?
https://philippdubach.com/2025/11/23/is-ai-really-eating-the-world/
目前的證據(jù)表明正在走向商品化,因?yàn)閮r(jià)值正向上游流動,而非流向模型供應(yīng)商。
大語言模型(LLM)擴(kuò)展的慘痛教訓(xùn)
https://www.sawyerhood.com/blog/llm-extension
我們從簡單的系統(tǒng)提示,發(fā)展到復(fù)雜的客戶端 - 服務(wù)器協(xié)議,現(xiàn)在又繞了回來。
阿爾特曼稱,他們終于有了一款人工智能硬件原型。
https://www.theverge.com/news/827607/openai-hardware-prototype-chatgpt-jony-ive-sam-altman
OpenAI的首款硬件設(shè)備可能在兩年內(nèi)推出。
超火的國產(chǎn)編程應(yīng)用
https://www.businessinsider.com/chinese-vibe-coding-app-lingguang-ant-group-china-viral-2025-11
螞蟻集團(tuán)的靈犀代碼協(xié)作應(yīng)用在六天內(nèi)下載量突破200萬(達(dá)到首個(gè)100萬下載量的速度比ChatGPT或Sora還快)。
在埃爾德什問題網(wǎng)站上,人工智能輔助現(xiàn)已成為常規(guī)操作
https://mathstodon.xyz/@tao/115591487350860999
頂尖數(shù)學(xué)家正用人工智能來推導(dǎo)證明和解決問題。
亞馬遜($AMZN)旗下的 AWS 今年夏天遭遇 AI 算力短缺問題
https://threadreaderapp.com/thread/1992908857870520450.html
AWS Bedrock 達(dá)到了關(guān)鍵容量限制,導(dǎo)致一些客戶轉(zhuǎn)投谷歌云等競爭對手。