數(shù)據(jù)科學(xué)簡(jiǎn)訊 2023-03-31


頭條


技術(shù)領(lǐng)導(dǎo)者呼吁 AI 暫停 6 個(gè)月

一群著名的計(jì)算機(jī)科學(xué)家和行業(yè)專家,包括埃隆·馬斯克和史蒂夫·沃茲尼亞克,呼吁暫停 6 個(gè)月,以考慮推出具有“人類競(jìng)爭(zhēng)情報(bào)”的人工智能系統(tǒng)可能會(huì)勝過人類的風(fēng)險(xiǎn)。他們的請(qǐng)?jiān)笗煞菭I利組織“未來生命研究所”組織,警告說此類人工智能系統(tǒng)可能對(duì)社會(huì)和人類構(gòu)成深遠(yuǎn)風(fēng)險(xiǎn),包括虛假信息充斥互聯(lián)網(wǎng)、工作自動(dòng)化以及未來更具災(zāi)難性的風(fēng)險(xiǎn)。雖然這封信已經(jīng)引起了懷疑,但一些政府已經(jīng)在努力監(jiān)管高風(fēng)險(xiǎn)的人工智能工具。

Cerebras 發(fā)布了首個(gè)未在 GPU 上訓(xùn)練的計(jì)算最優(yōu) GPT 模型

GPU 是訓(xùn)練大規(guī)模 AI 模型的主要硬件。許多團(tuán)體正在嘗試開發(fā)定制的 AI 芯片。 Cerebras 的 CS-2 系統(tǒng)具有高吞吐量和片上內(nèi)存。他們聲稱由于芯片的強(qiáng)大功能,這項(xiàng)工作(111M - 13B 參數(shù)模型)在短短幾周內(nèi)就完成了。這與大約 5 個(gè)月的 Llama 項(xiàng)目(最多 65B 參數(shù))形成對(duì)比。他們接受過“最佳計(jì)算”訓(xùn)練,這意味著它們不如同等大小的 Llama 模型強(qiáng)大。


研究


StyleDiffusion:基于Text-Based Editing 的Prompt-Embedding Inversion

研究人員通過優(yōu)化交叉注意力層中價(jià)值線性網(wǎng)絡(luò)的輸入并引入注意力正則化來維護(hù)類似對(duì)象的注意力圖,從而解決了用于圖像編輯的預(yù)訓(xùn)練擴(kuò)散模型的局限性。這些改進(jìn)帶來了卓越的編輯功能,通過對(duì)各種圖像進(jìn)行廣泛的實(shí)驗(yàn)性即時(shí)編輯證明了這一點(diǎn)。

介紹 GPT4All (GitHub Repo)

GPT4All 是一個(gè) 7B 參數(shù)語言模型,在高質(zhì)量的輔助數(shù)據(jù)上訓(xùn)練,并附有 800K 數(shù)據(jù)樣本、訓(xùn)練代碼和模型權(quán)重,用于開放研究和可復(fù)現(xiàn)性。還提供了可以在 CPU 上運(yùn)行的 4 位量化版本。

Try out text to video (HuggingFace Space)

雖然此演示一次只能生成 8 幀,但它可以讓人們深入了解其中一些生成視頻模型的功能。這里仍然存在許多懸而未決的問題,例如世代長(zhǎng)度、一致性和世界知識(shí)——但事情正在向前發(fā)展。生成視頻所需的計(jì)算量遠(yuǎn)高于圖像或文本,因此這些模型往往運(yùn)行速度較慢且訓(xùn)練時(shí)間較長(zhǎng)。


工程


增加文本到 3D 模型的一致性 (GitHub Repo)

自從去年強(qiáng)大的文本到圖像模型問世以來,人們一直在嘗試從 2d 轉(zhuǎn)向 3d。一個(gè)問題是“多視圖一致性”問題,如果你只看到一個(gè)對(duì)象的一部分,你如何推斷其他部分的樣子。許多天真的方法會(huì)復(fù)制并粘貼對(duì)象周圍的 2d 圖像,這會(huì)導(dǎo)致非常奇怪的圖像。通過使用一致性注入技術(shù),您可以利用 2d 模型的語義理解來創(chuàng)建相當(dāng)健壯的 3d 模型。文本到 3d 打印管道來了!

VIVE3D:使用 3D 感知 GAN 進(jìn)行獨(dú)立于視點(diǎn)的視頻編輯(GitHub Repo)

作者介紹了 VIVE3D,這是一種將基于圖像的 3D GAN 的功能擴(kuò)展到視頻編輯的新技術(shù)。它使用了針對(duì)相機(jī)參數(shù)優(yōu)化的新型 GAN 反轉(zhuǎn)技術(shù),并引入了新的編輯,顯示頭部的新視圖,使用光流引導(dǎo)合成將頭部與背景視頻相結(jié)合,從而從各種相機(jī)中獲得高保真、質(zhì)量一致的面部編輯觀點(diǎn)。

Instruct 3D-to-3D: Text Instruction Guided 3D-to-3D conversion (GitHub Repo)

nstruct 3D-to-3D 是一種高質(zhì)量的 3D 到 3D 轉(zhuǎn)換方法,它利用預(yù)訓(xùn)練的圖像到圖像擴(kuò)散模型根據(jù)文本指令轉(zhuǎn)換 3D 場(chǎng)景,同時(shí)保持一致性和可控性。與基線方法相比,定量和定性評(píng)估證明了卓越的轉(zhuǎn)換質(zhì)量,并增加了可調(diào)節(jié)幾何轉(zhuǎn)換強(qiáng)度的動(dòng)態(tài)縮放。


雜七雜八


Attention is All You Need from Not Boring by Packy McCormick (25 minute read)

ChatGPT,OpenAI 日益強(qiáng)大的人工智能,正在轉(zhuǎn)變?yōu)橐粋€(gè)可以去中介化和顛覆各行各業(yè)的平臺(tái)。通過引入插件和第三方集成,ChatGPT 可以吸收許多產(chǎn)品的功能,將它們轉(zhuǎn)化為 API,并創(chuàng)建滿足用戶需求的一站式目的地。作為“Apex Aggregator”,ChatGPT 準(zhǔn)備簡(jiǎn)化用戶體驗(yàn)、重塑消費(fèi)者行為并迫使企業(yè)進(jìn)行調(diào)整,這可能會(huì)影響利潤(rùn)率及其運(yùn)營方式。

AI 風(fēng)險(xiǎn)不等于 AGI 風(fēng)險(xiǎn)(5 minute read)

Gary Marcus 認(rèn)為,盡管 AGI 的風(fēng)險(xiǎn)還很遙遠(yuǎn),但當(dāng)前的 AI LLM 模型具有其獨(dú)特而嚴(yán)重的風(fēng)險(xiǎn)。

微軟限制聊天機(jī)器人競(jìng)爭(zhēng)對(duì)手的 Bing 訪問 (2 minute read)

微軟現(xiàn)在限制其 AI 聊天機(jī)器人競(jìng)爭(zhēng)對(duì)手訪問 Bing。

Flux (Tweet Thread)

Flux 允許用戶在樹結(jié)構(gòu)中為每個(gè)提示生成多個(gè)補(bǔ)全,并并行探索最佳補(bǔ)全。

GPT4All (GitHub Repo)

GPT4All 提供演示、數(shù)據(jù)和代碼來訓(xùn)練助理式 LLM。

Lit-LLaMA (GitHub Repo)

Lit-LLaMA 是 LLaMA 的完全開源模型。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容