
頭條
Gemini 智能即將上線 Nest 攝像頭、智能音箱和智能顯示器
https://www.theverge.com/2024/8/6/24213639/google-gemini-intelligence-ai-google-home-nest-aware
Google 宣布為 Google Home 推出 Gemini AI 驅(qū)動(dòng)的新功能,包括 Nest 攝像頭鏡頭的智能字幕、用于創(chuàng)建家庭日常活動(dòng)的自然語(yǔ)言處理,以及升級(jí)版、聽(tīng)起來(lái)更自然的 Google Assistant。這些高級(jí)功能主要隱藏在 Nest Aware 訂閱付費(fèi)墻后面,旨在增強(qiáng)智能家居體驗(yàn),推出的 Beta 版將于明年開(kāi)始,并將進(jìn)一步擴(kuò)展。作為邁向更智能家居自動(dòng)化的一部分,Google 設(shè)想了一個(gè)可以主動(dòng)管理復(fù)雜和動(dòng)態(tài)家庭環(huán)境的助手。
隨著監(jiān)管的升級(jí),Nvidia 忙于做出回應(yīng)
https://www.nytimes.com/2024/08/06/technology/nvidia-antitrust-scrutiny.html
Nvidia 因其在 AI 芯片和銷售實(shí)踐中占據(jù)主導(dǎo)地位而面臨歐盟、英國(guó)、中國(guó)和美國(guó)司法部的政府越來(lái)越嚴(yán)格的審查。該公司在盈利增長(zhǎng)的同時(shí),正在迅速組建法律和政策團(tuán)隊(duì),以解決反壟斷問(wèn)題,因?yàn)樗紦?jù)了 AI 系統(tǒng)必不可少的 GPU 市場(chǎng)的 90%。Nvidia 也在適應(yīng)日益嚴(yán)格的競(jìng)爭(zhēng)監(jiān)督,最近人們的注意力轉(zhuǎn)向了其計(jì)劃收購(gòu) Run.ai 及其對(duì) AI 供應(yīng)鏈的影響。
扎克伯格表示,Meta 訓(xùn)練 Llama 4 所需的計(jì)算能力將比 Llama 3 多 10 倍
Meta 計(jì)劃大幅提高訓(xùn)練其下一代大型語(yǔ)言模型 Llama 4 的計(jì)算能力,預(yù)計(jì)計(jì)算能力將比 Llama 3 增加 10 倍。對(duì)人工智能訓(xùn)練基礎(chǔ)設(shè)施的投資將在 2025 年推高資本支出。盡管投入巨額資金,但 Meta 并不認(rèn)為 Gen AI 產(chǎn)品會(huì)立即帶來(lái)可觀的收入。
研究
優(yōu)化測(cè)試時(shí)間計(jì)算的擴(kuò)展可能比擴(kuò)展模型參數(shù)更有效
https://arxiv.org/abs/2408.03314
在推理時(shí)使用計(jì)算來(lái)提高模型性能的壓力很大。本文展示了幾種可以使用的方法,并討論了它們之間的權(quán)衡??偟膩?lái)說(shuō),這表明了一種更廣泛的趨勢(shì),即從較小的模型中榨取性能。
LLaVA-OneVision:輕松的視覺(jué)任務(wù)轉(zhuǎn)移
https://arxiv.org/abs/2408.03326
視覺(jué)語(yǔ)言模型一直在努力使其易于調(diào)整和在任務(wù)之間轉(zhuǎn)移。這讓人想起了十年前的計(jì)算機(jī)視覺(jué)。重要的是,這可以通過(guò)仔細(xì)的數(shù)據(jù)管理和架構(gòu)更新來(lái)實(shí)現(xiàn),這些都在 LLaVA-OneVision 中得到展示。
一個(gè)物體值 64x64 像素:通過(guò)圖像擴(kuò)散生成 3D 物體
將 3D 物體視為 UV 包裹圖像,可以輕松使用 DiT 模型根據(jù)文本輸入合成新物體。
工程
ABC 不變性
https://gist.github.com/cloneofsimo/c799c863154d5da4cae65e83491d918d
muP 是一種調(diào)整超參數(shù)以從較小模型轉(zhuǎn)移到較大模型的方法。這個(gè) GitHub 要點(diǎn)在實(shí)踐中展示了一個(gè)很棒的定理,它指出你可以更改模型輸出的縮放位置,而不會(huì)影響最終的傳輸性能。
Flux Canny 控制網(wǎng)
https://huggingface.co/XLabs-AI/flux-controlnet-canny
XLabs 發(fā)布了第一個(gè) Flux-Dev 控制網(wǎng),允許根據(jù) Canny 圖像輸入進(jìn)行生成。
創(chuàng)建隱私保護(hù)的表格數(shù)據(jù)
https://arxiv.org/abs/2408.02927
HARMONIC 是一個(gè)使用大型語(yǔ)言模型生成和評(píng)估合成表格數(shù)據(jù)的框架。
雜七雜八
GitHub 如何利用 AI 將客戶反饋轉(zhuǎn)化為行動(dòng)
GitHub 正在利用 AI 和機(jī)器學(xué)習(xí)來(lái)大規(guī)模分析和總結(jié)客戶反饋,通過(guò)可操作的見(jiàn)解為產(chǎn)品改進(jìn)和功能優(yōu)先級(jí)排序提供信息。這種自動(dòng)化方法可以捕獲多語(yǔ)言反饋并推動(dòng)數(shù)據(jù)驅(qū)動(dòng)的決策,從而增強(qiáng)對(duì)開(kāi)發(fā)人員需求的響應(yīng)能力。該計(jì)劃凸顯了 GitHub 致力于整合 AI 以維持以開(kāi)發(fā)人員為中心的產(chǎn)品開(kāi)發(fā)流程。
OpenAI 如何生存?
https://www.wheresyoured.at/to-serve-altman/
考慮到生成式 AI 缺乏廣泛的市場(chǎng)效用以及開(kāi)發(fā)和運(yùn)行大型語(yǔ)言模型的成本高昂,本文對(duì) OpenAI 的可持續(xù)性提出了深深的懷疑。作者質(zhì)疑 OpenAI 在沒(méi)有重大技術(shù)突破或持續(xù)、前所未有的籌款努力的情況下能否長(zhǎng)期生存。盡管 OpenAI 對(duì) AI 行業(yè)具有影響力,但該公司仍面臨著盈利能力、高運(yùn)營(yíng)成本以及對(duì)戰(zhàn)略合作伙伴關(guān)系(尤其是與微軟的合作伙伴關(guān)系)的依賴等挑戰(zhàn)。
AMD 正在成為一家 AI 芯片公司,就像 Nvidia 一樣
https://www.theverge.com/2024/7/30/24209938/amd-q2-2024-earnings-datacenter-ai-revenue
AMD 2024 年第二季度的收益顯示,其業(yè)務(wù)向數(shù)據(jù)中心產(chǎn)品發(fā)生了重大轉(zhuǎn)變,目前近一半的銷售額來(lái)自該領(lǐng)域,這主要?dú)w功于 Instinct MI300 AI 芯片。該公司致力于每年發(fā)布新的 AI 芯片,與 Nvidia 的產(chǎn)品競(jìng)爭(zhēng),盡管供應(yīng)限制預(yù)計(jì)將持續(xù)到 2025 年。盡管 Nvidia 在數(shù)據(jù)中心市場(chǎng)仍保持領(lǐng)先地位,但 AMD 的 CPU 和 GPU 細(xì)分市場(chǎng)(包括 Ryzen 處理器和 Radeon 6000 GPU)均實(shí)現(xiàn)了增長(zhǎng)。
微軟在 AI 上損失慘重
https://futurism.com/the-byte/microsoft-losing-money-ai
微軟的 AI 投資上個(gè)季度飆升至 190 億美元,專注于數(shù)據(jù)中心的 AI 功能,但 AI 收入是否可觀仍不確定。
Taco Bell 的免下車 AI 可能會(huì)接你的下一份訂單
https://www.theverge.com/2024/7/31/24210506/taco-bell-drive-thru-ai-order-expansion
Yum! Brands 正在將其 AI 驅(qū)動(dòng)的語(yǔ)音 AI 技術(shù)擴(kuò)展到數(shù)百家 Taco Bell 免下車餐廳,以提高效率,目標(biāo)是在年底前更廣泛地推廣。
OpenAI 投資一家網(wǎng)絡(luò)攝像頭公司轉(zhuǎn)型為 AI 初創(chuàng)公司
https://www.theverge.com/2024/8/7/24215370/openai-invests-in-a-webcam-company-turned-ai-startup
OpenAI 正在牽頭為 Opal 進(jìn)行 6000 萬(wàn)美元的融資,Opal 是高端 Tadpole 網(wǎng)絡(luò)攝像頭背后的公司。