頭條
Voicemod 籌集了 1450 萬美元以推動生成式 AI(聲波)繁榮
Voicemod 已成為實時變聲和音板技術(shù)的領(lǐng)先創(chuàng)造者。他們的使命是讓每個人都能通過聲音表達(dá)自己。他們構(gòu)建了富有表現(xiàn)力和身臨其境的音頻工具,可以輕松創(chuàng)建獨特的聲音特性并實現(xiàn)與個性化聲音的交互。這將是巨大的,因為播客、畫外音和有聲讀物空間在過去幾年里爆炸式增長。
Deep Graph Library 達(dá)到 1.0
DGL 是圖深度學(xué)習(xí)中一個強(qiáng)大而有用的工具,現(xiàn)已推出 1.0 版!其中包括數(shù)百個最先進(jìn)的圖形網(wǎng)絡(luò)、基線和各種圖形編輯實用程序的示例。它們還具有用于消息傳遞算法和多 GPU 訓(xùn)練的模塊化構(gòu)建塊。所有這些都組合成一個工具包,可以擴(kuò)展強(qiáng)大的算法來繪制數(shù)十億個連接圖。
研究
通過檢索文檔生成代碼
由于代碼接口經(jīng)常變化和上下文學(xué)習(xí)的局限性,強(qiáng)烈需要能夠在不進(jìn)行昂貴的數(shù)據(jù)收集和模型再訓(xùn)練的情況下更新程序綜合性能。這項工作表明使用文檔可以改進(jìn) CodeT5 的生成代碼。結(jié)果很好,提高了約 3% 這不是根本性的變化,但對從業(yè)者來說可能是一個有用的技巧
語言不是你所需要的全部:將感知與語言模型相結(jié)合
KOSMOS-12 是一種多模式大型語言模型,可以在上下文中學(xué)習(xí)、遵循指令并感知一般模式。它在一系列任務(wù)上取得了令人印象深刻的表現(xiàn),包括語言理解、感知語言和視覺任務(wù)。該模型在網(wǎng)絡(luò)規(guī)模的多模態(tài)語料庫上進(jìn)行了訓(xùn)練,并受益于跨模態(tài)遷移。作者還介紹了一個用于診斷 MLLM 的非語言推理能力的數(shù)據(jù)集。
定向擴(kuò)散:通過注意力引導(dǎo)直接控制物體放置
文本引導(dǎo)的擴(kuò)散模型很難在特定位置組成具有多個對象的場景,這在講故事中至關(guān)重要。為了解決這個問題,作者提出了 Directed Diffusion,這是一種通過在交叉注意力圖中的所需位置注入“激活”同時衰減其余位置來提供對多個對象的位置控制的方法。此方法可與現(xiàn)有的預(yù)訓(xùn)練模型一起使用,并且只需要幾行代碼即可實現(xiàn)。
工程
ChatLLaMA:基于 Meta 的 LLaMA 模型的 ChatGPT (GitHub Repo)
Meta 最近發(fā)布了 LLaMA 集合,包含 7 到 650 億個參數(shù)模型,這些模型比 GPT-3 更小,但表現(xiàn)出更好的性能。這個新系列為更快的推理性能和實時助手打開了大門,同時具有成本效益并在單個 GPU 上運(yùn)行。然而,它們并沒有針對教學(xué)任務(wù)進(jìn)行微調(diào)。為了解決這個問題,ChatLLaMA 作為第一個基于人類反饋強(qiáng)化學(xué)習(xí) (RLHF) 訓(xùn)練過程的 LLaMA 開源實現(xiàn)被引入。它支持所有 LLaMA 模型架構(gòu),與原始 ChatGPT 相比,允許更快、更便宜的訓(xùn)練和推理。
VoxFormer:3D 語義占用預(yù)測的前沿基線 (Github Repo)
作者提出了 voxformer,這是一個框架,旨在使 AI 系統(tǒng)能夠從 2D 圖像中想象出被遮擋物體和場景的完整 3D 幾何形狀。 VoxFormer 使用兩階段設(shè)計,其中一組稀疏的可見和占用的體素查詢來自深度估計,然后是生成密集 3D 體素的致密化階段。該框架采用掩碼自動編碼器設(shè)計,通過自注意力將信息傳播到所有體素。 SemanticKITTI 上的實驗表明,VoxFormer 優(yōu)于現(xiàn)有技術(shù),在幾何方面相對改進(jìn)了 20.0%,在語義方面相對改進(jìn)了 18.1%,并且在訓(xùn)練期間將 GPU 內(nèi)存減少了約 45% 至不到 16GB。
雜七雜八
人工智能計算 40 年
對 AI 多年來的各種趨勢的一個很好的匯編。所需的計算量每 9 個月翻一番,而參數(shù)數(shù)量每 18 個月翻一番。到 2031 年,硬件改進(jìn)可能會得到改善。訓(xùn)練超過 15 個月的模型沒有意義。這不僅限于語言,還包括視覺和 RL。包括交互式圖表。
冷靜,沒有有意識的AI
這篇文章提醒我們,盡管 Bing AI 和 ChatGPT 看似人類的反應(yīng),但這些聊天機(jī)器人并沒有意識或感知力。在我們實現(xiàn)通用人工智能 (AGI) 之前,我們還有很長的路要走,這正是 OpenAI 最初著手解決和保護(hù)人類免受侵害的問題。
Ask Seneca (Product Launch)
從基于 Seneca 的基于 GPT3 的斯多葛哲學(xué)家那里獲得生活建議。
組建人工智能產(chǎn)品團(tuán)隊
Meta 正在組建一個 AI 產(chǎn)品團(tuán)隊,專注于為 WhatsApp、Messenger 和 Instagram 添加生成 AI 功能。
Learn Prompting (Online Course)
Learn prompting 是關(guān)于提示工程的免費(fèi)開源課程。