頭條
Andrej Karpathy 離開(kāi) OpenAI
OpenAI 創(chuàng)始成員、特斯拉 Autopilot 團(tuán)隊(duì)前負(fù)責(zé)人 Andrej Karpathy 宣布離開(kāi) OpenAI,專(zhuān)注于個(gè)人項(xiàng)目。 他的退出并不是由于任何特定事件、問(wèn)題或戲劇性事件。
NVIDIA 的新聊天機(jī)器人可以在PC 上本地運(yùn)行
https://www.engadget.com/nvidias-new-ai-chatbot-runs-locally-on-your-pc-163406121.html
NVIDIA 推出了 Chat with RTX 演示,這是一個(gè)本地 PC 運(yùn)行的聊天機(jī)器人,可以分析和總結(jié)各種文件格式的個(gè)人數(shù)據(jù),甚至可以集成 YouTube 視頻中的知識(shí),旨在打造更加個(gè)性化的數(shù)字助理體驗(yàn)。 這項(xiàng)創(chuàng)新不需要云處理或敏感數(shù)據(jù)的互聯(lián)網(wǎng)連接,目前僅限于配備特定 NVIDIA GPU 的 Windows PC。
研究
視頻語(yǔ)言模型可以回答有關(guān)長(zhǎng)達(dá)一小時(shí)的視頻的問(wèn)題
https://largeworldmodel.github.io/
該模型使用環(huán)注意力和微調(diào)的 7B 參數(shù)模型來(lái)準(zhǔn)確回答百萬(wàn)令牌視頻長(zhǎng)度問(wèn)題。 它的性能優(yōu)于商業(yè) VLM,并且在檢索基準(zhǔn)方面具有極其準(zhǔn)確的性能。
Lumiere 文本到視頻模型
https://lumiere-video.github.io/
谷歌有一個(gè)新的文本到視頻模型,可以幫助將圖像和樣式作為輸入。 它使用一種新穎的“時(shí)空UNet”來(lái)一次性擴(kuò)散一切。
利用創(chuàng)意 AI 轉(zhuǎn)場(chǎng)制作長(zhǎng)視頻
https://vchitect.github.io/SEINE-project/
SEINE 是一種以文本描述為指導(dǎo)的創(chuàng)新視頻傳播模型,旨在將人工智能生成的短視頻剪輯擴(kuò)展為更長(zhǎng)的故事級(jí)序列,并具有無(wú)縫和富有想象力的場(chǎng)景過(guò)渡。
工程
MaGNET 音頻生成模型 (GitHub Repo)
https://github.com/facebookresearch/audiocraft/blob/main/docs/MAGNET.md
Facebook 發(fā)布了最先進(jìn)的開(kāi)源音頻模型,其速度比其他模型快 7 倍,且質(zhì)量不受影響。 它可以生成音樂(lè)和聲音效果。 該論文現(xiàn)已上市。
大型語(yǔ)言模型中的隱私 (GitHub Repo)
https://github.com/iamgroot42/mimir
研究人員進(jìn)行了一項(xiàng)全面的研究,探討是否有可能判斷一個(gè)數(shù)據(jù)點(diǎn)是否用于訓(xùn)練大型語(yǔ)言模型。 他們測(cè)試了各種模型,發(fā)現(xiàn)在大多數(shù)情況下,這些攻擊并不比隨機(jī)猜測(cè)更好。
值得信賴(lài)的自治代理 (GitHub Repo)
https://github.com/AAAI-DISIM-UnivAQ/DALI
該項(xiàng)目引入了先進(jìn)的方法,以確保在依賴(lài)生命的應(yīng)用中至關(guān)重要的自主智能代理即使在不斷發(fā)展的過(guò)程中也能保持可信和道德。
雜七雜八
為什么“談?wù)撃愕臄?shù)據(jù)”比你想象的更難
https://www.arcus.co/blog/chat
構(gòu)建特定領(lǐng)域、基于聊天的 LLM 應(yīng)用程序和副駕駛比人們想象的要困難。 其中一些挑戰(zhàn)包括實(shí)現(xiàn)穩(wěn)健的性能、處理復(fù)雜的數(shù)據(jù)和復(fù)雜的查詢(xún),以及為基于 LLM 的聊天應(yīng)用程序?qū)崿F(xiàn)穩(wěn)健的數(shù)據(jù)檢索。
無(wú)遮罩的文本驅(qū)動(dòng)圖像編輯
https://yuanze-lin.me/LearnableRegions_page/
研究人員開(kāi)發(fā)了一種基于文本提示編輯圖像的獨(dú)特方法。 這種方法使用文本到圖像模型和邊界框生成器來(lái)識(shí)別要編輯的區(qū)域,從而無(wú)需遮罩或草圖即可進(jìn)行更改。
用于增強(qiáng)視頻分類(lèi)的視頻注釋器 (GitHub Repo)
https://github.com/netflix/videoannotator
視頻注釋器框架讓領(lǐng)域?qū)<抑苯訁⑴c注釋過(guò)程。 這種新方法將人類(lèi)專(zhuān)業(yè)知識(shí)與零樣本和主動(dòng)學(xué)習(xí)技術(shù)相結(jié)合,提高了模型的準(zhǔn)確性和效率。
PressPulse (Product)
https://www.presspulse.ai/
使用人工智能建立媒體提及。
英偉達(dá)現(xiàn)在的市值相當(dāng)于整個(gè)中國(guó)股市的市值
https://finance.yahoo.com/news/nvidia-now-worth-much-whole-010315545.html
得益于人工智能的蓬勃發(fā)展,NVIDIA 的市值已達(dá)到 1.7 萬(wàn)億美元,相當(dāng)于所有在香港證券交易所上市的中國(guó)公司的市值總和。
Reor (GitHub Repo)
https://github.com/reorproject/reor
一款在本地運(yùn)行模型的人工智能筆記應(yīng)用程序。