2025-12-24 簡訊 : ChatGPT 添加了語氣個(gè)性化


頭條


ChatGPT 添加了語氣個(gè)性化

https://x.com/openai/status/2002099459883479311

OpenAI 在 ChatGPT 中引入了新的個(gè)性化選項(xiàng),讓用戶可以直接調(diào)整熱情度、溫暖度和表情符號(hào)使用。這些控制功能可在個(gè)性化菜單中找到,提供"更多"、"更少"或"默認(rèn)"設(shè)置,擴(kuò)展了現(xiàn)有的基礎(chǔ)樣式和語氣功能。

Cursor 收購 Graphite

https://techcrunch.com/2025/12/19/cursor-continues-acquisition-spree-with-graphite-deal/

Cursor 收購了以性能為導(dǎo)向的內(nèi)部開發(fā)者門戶公司 Graphite。這是 Cursor 的第三次收購,旨在構(gòu)建一個(gè)全面的 AI 驅(qū)動(dòng)開發(fā)平臺(tái)。

推出 Bloom:自動(dòng)化行為評(píng)估的開源工具

https://www.anthropic.com/research/bloom

Anthropic 的 Bloom 是一個(gè)開源工具,用于生成 AI 模型的行為評(píng)估。Bloom 通過創(chuàng)建場景并量化行為在模型中的發(fā)生情況來評(píng)估特定行為,如自我偏好偏差和破壞行為。它能夠有效地區(qū)分對(duì)齊和不對(duì)齊的模型,并與人類判斷高度相關(guān),從而實(shí)現(xiàn)可擴(kuò)展和可靠的行為評(píng)估。


前沿


LLM 落地的新驅(qū)動(dòng)力

https://epochai.substack.com/p/the-changing-drivers-of-llm-adoption

LLM 使用正在上升。人們?cè)絹碓蕉嗟厥褂貌煌?LLM、不同的產(chǎn)品和不同的地方。ChatGPT 仍然占主導(dǎo)地位并持續(xù)獲得新用戶,但 Gemini 過去幾個(gè)月的增長更快。OpenAI 的收入似乎在軌道上,但消費(fèi)者收入可能作為份額正在下降。大量工作場所 AI 使用涉及員工自行采用工具,而不是等待雇主提供的訪問權(quán)限。

評(píng)估 AI 代理的上下文壓縮

https://factory.ai/news/evaluating-compression

當(dāng)代理內(nèi)存不足時(shí)會(huì)發(fā)生什么決定了它們是否能繼續(xù)高效工作還是必須從頭開始。本文探討了一個(gè)評(píng)估框架,測量不同壓縮策略保留多少上下文。結(jié)構(gòu)化摘要比其他方法保留了更多有用信息,而不會(huì)犧牲壓縮效率。

理解 AI 基準(zhǔn)測試

https://blog.sshh.io/p/understanding-ai-benchmarks

基準(zhǔn)測試是 AI 生態(tài)系統(tǒng)中最廣泛被誤解的部分。敘述不斷暗示著普遍的智能增長,但數(shù)字可能是誤導(dǎo)性的。為了應(yīng)對(duì)這種噪音,要看整體情況、相對(duì)情況,并用自己的任務(wù)驗(yàn)證。最終最重要的基準(zhǔn)測試就是你自己的工作負(fù)載。

實(shí)驗(yàn)日記

https://docs.google.com/document/d/1Sm-XUZ4MvYHcOw7gsoIpdEu38GhCpgNCMnx6Fa0grks/edit?tab=t.3awwxw6mhl75#heading=h.xy9wi236lxm

這份文檔包含了一個(gè)旨在使用 GRPO 教授 LLM 生成正則表達(dá)式給定描述的實(shí)驗(yàn)日記。它詳細(xì)記錄了每次實(shí)驗(yàn)的性能、學(xué)習(xí)、修改和關(guān)鍵收獲。最初的訓(xùn)練運(yùn)行是在 12 月 17 日進(jìn)行的。它很快學(xué)會(huì)了如何生成有效的正則表達(dá)式標(biāo)簽,但模型基本上在生成隨機(jī)的正則表達(dá)式字符串。

Andrej Karpathy 的 2025 LLM 年度回顧

https://karpathy.bearblog.dev/year-in-review-2025/

Andrej Karpathy 概述了 2025 年 LLM 的范式轉(zhuǎn)變,包括快速推理引擎、模型蒸餾趨勢、實(shí)時(shí)代理、神經(jīng) GPU 以及高質(zhì)量開源模型如 DeepSeek-V2 和 RWKV 的興起。


研究


Qwen-Image-Layered (GitHub 倉庫)

https://github.com/QwenLM/Qwen-Image-Layered

Qwen-Image-Layered 是一個(gè)能夠?qū)D像分解為多個(gè) RGBA 層的模型。每層都可以獨(dú)立操作而不影響其他內(nèi)容。它們可以調(diào)整大小、重新定位和重新著色。這種方法實(shí)現(xiàn)了高保真和一致的編輯。

引入 MiMo-V2-Flash

https://mimo.xiaomi.com/blog/mimo-v2-flash

MiMo-V2-Flash 是一個(gè)強(qiáng)大、高效且超快的基礎(chǔ)語言模型,在推理、編碼和代理場景中表現(xiàn)出色。它作為日常任務(wù)的優(yōu)秀通用助手。該模型在全球范圍內(nèi)可在 Hugging Face、AI Studio 和小米 API 平臺(tái)上使用?;鶞?zhǔn)測試結(jié)果見文章。

JAX-JS (GitHub 倉庫)

https://github.com/ekzhang/jax-js

jax-js 是一個(gè)面向?yàn)g覽器的機(jī)器學(xué)習(xí)框架。它將 JAX 風(fēng)格的高性能 CPU 和 GPU 內(nèi)核帶到 JavaScript 中,讓用戶可以在網(wǎng)絡(luò)上運(yùn)行數(shù)值應(yīng)用程序。該庫從頭編寫,沒有外部依賴。它可以在任何可以運(yùn)行瀏覽器的地方運(yùn)行。

為代理專業(yè)化多路復(fù)用 MCP 服務(wù)器

https://www.cloudnativedeepdive.com/multiplexing-mcp-servers-for-agentic-specialization/

MCP 服務(wù)器為代理提供了完成任務(wù)所需的工具。本文討論了如何多路復(fù)用 MCP 服務(wù)器來簡化連接到各種工具。多路復(fù)用允許在單個(gè)交互中通過網(wǎng)關(guān)使用多個(gè) MCP 服務(wù)器。它允許代理訪問具有不同堆棧、云、應(yīng)用和框架的多個(gè) MCP 服務(wù)器,以執(zhí)行專門任務(wù)。

TCGen05 入門指南

https://gau-nernst.github.io/tcgen05/

tcgen05 是在最新 NVIDIA Blackwell GPU 上運(yùn)行 Tensor Cores 的 PTX 指令集。本文包含了一個(gè)使用純 CUDA C++ 和 PTX 的 Blackwell 教程。它記錄了作者學(xué)習(xí) tcgen05 并達(dá)到 CuBLAS 98% 速度的過程。讀者可以使用 Modal 或任何其他 B200 云提供商跟隨教程。


速讀


如何操控 METR 圖表

https://shash42.substack.com/p/how-to-game-the-metr-plot

METR 主題是公開的,這使得前沿實(shí)驗(yàn)室很容易操控 METR 時(shí)間長度測量。在 METR 假設(shè)下的時(shí)間長度可能除了基準(zhǔn)準(zhǔn)確性之外幾乎沒有增加信息。有一個(gè)基于一個(gè)團(tuán)隊(duì)在 METR 圖表上實(shí)現(xiàn)一到四小時(shí)范圍的模因。本文解釋了圖表為什么被錯(cuò)誤解讀。

AI 的形狀:不連續(xù)性、瓶頸和顯著特征

https://www.oneusefulthing.org/p/the-shape-of-ai-jaggedness-bottlenecks

AI 在某些任務(wù)上非常出色而在其他任務(wù)上非常糟糕。這是 AI 能力的"不連續(xù)前沿"。不連續(xù)性可能會(huì)繼續(xù)成為 AI 發(fā)展的重要部分。然而,不斷擴(kuò)大的前沿將超過不連續(xù)性。

軟銀急于履行對(duì) OpenAI 的 225 億美元資金承諾

https://finance.yahoo.com/news/exclusive-softbank-races-fulfill-22-233202534.html

Masayoshi Son 已經(jīng)出售了軟銀在英偉達(dá)的全部 58 億美元股份,處置了 48 億美元的 T-Mobile US 股份,并裁員以籌集資金。

世界模擬器的時(shí)代

https://odyssey.ml/the-dawn-of-a-world-simulator

世界模擬器是經(jīng)過訓(xùn)練預(yù)測世界隨時(shí)間演變的模型,逐幀使用大量視頻和交互數(shù)據(jù)。

摩爾 threads 推出下一代游戲 GPU,性能提升 15 倍,光線追蹤提升 50 倍

https://www.tomshardware.com/pc-components/gpus/moore-threads-unveils-next-gen-gaming-gpu-with-15x-performance-and-50x-ray-tracing-improvement-ai-gpu-with-claimed-performance-between-hopper-and-blackwell-also-in-the-works

中國 GPU 制造商 Moore Threads 的 Huagang 架構(gòu)承諾在游戲和 AI 方面顯著提升性能。

AI 驅(qū)動(dòng)的工廠將在 2026 年重塑美國工業(yè)

https://x.com/a16z/status/2001310405675860390

2026 年,美國公司將通過將 AI 和自主性與熟練勞動(dòng)力結(jié)合,對(duì)能源、采礦、建筑和制造業(yè)應(yīng)用工廠思維來標(biāo)準(zhǔn)化復(fù)雜工作

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容