頭條

構(gòu)建 LLM 應(yīng)用程序

用 LLM 構(gòu)建看起來很酷的東西很容易，而讓這個看起來很酷的東西產(chǎn)生實(shí)際生產(chǎn)力卻有很多困難。許多挑戰(zhàn)來自自然語言的歧義，以及如何存儲提示。 Chip Huyen 的這篇文章給出了他對此問題的深刻的見解，并給出了一個他覺得比較有前途的 LLM 應(yīng)用程序列表。

亞馬遜宣布了一項(xiàng)名為 Bedrock 的 AWS 新服務(wù)，允許客戶使用來自不同公司的基礎(chǔ)模型，例如anthropic 和stability AI。這個想法是采用開放模型加上客戶自己的書（只需將其指向 s3）。最近有很多關(guān)于數(shù)據(jù)隱私和安全的討論，有了這項(xiàng)服務(wù)，人們可以在自己的 AWS 基礎(chǔ)設(shè)施中運(yùn)行模型，從隱私的角度來看這很有吸引力。亞馬遜還宣布了兩個新模型，并允許個人開發(fā)者免費(fèi)訪問他們的代碼模型。

研究

DreamPose：通過Stable Diffusion實(shí)現(xiàn)時尚圖像到視頻的合成

DreamPose 是一種基于Stable Diffusion的圖像到視頻合成模型。給定人物和姿勢序列的輸入圖像，DreamPose 會按照姿勢序列合成輸入人物的逼真視頻。

兒童動畫數(shù)據(jù)集

2021 年，Meta 發(fā)布了一個很酷的演示，演示了使用 AI 為孩子們的圖畫制作動畫。現(xiàn)在他們已經(jīng)開源了包含 100k+ 個示例、動畫代碼、姿勢查找等的數(shù)據(jù)集。它似乎獲得了版權(quán)許可，因此對那些有興趣在自動化動畫領(lǐng)域工作的人很有用。很高興看到這次Meta 在過濾數(shù)據(jù)集時采取了一些額外的努力來保護(hù)隱私。

Vicuna：一款開源聊天機(jī)器人，以 90% 的 ChatGPT 質(zhì)量給 GPT-4 留下深刻印象

本文介紹了 Vicuna-13B，這是一種開源聊天機(jī)器人，通過在用戶對話數(shù)據(jù)上 fine tuen LLaMA 得到。 Vicuna-13B 在超過 90% 的情況下優(yōu)于 LLaMA 和 Stanford Alpaca 等其他模型，同時與 OpenAI ChatGPT 和 Google Bard 相比，質(zhì)量達(dá)到 90% 他們以上。訓(xùn)練 Vicuna-13B 的費(fèi)用在 300 美元左右，代碼和演示是公開的，可用于非商業(yè)用途。

工程

使用 VidStyleODE 進(jìn)行視頻編輯

VidStyleODE 結(jié)合了 StyleGAN 和 Neural-ODEs 用于分離視頻表示，支持外觀操作、運(yùn)動操作、圖像動畫和視頻插值/外推等應(yīng)用。

Continual Diffusion

文本到圖像的 diffusion models 在使用順序概念進(jìn)行定制化時會面臨災(zāi)難性的遺忘問題，導(dǎo)致對過去概念的圖像生成效果不佳。我們提出的 C-LoRA 方法通過持續(xù)自我調(diào)節(jié)的low-rank適應(yīng)克服了這個問題，在持續(xù)擴(kuò)散中優(yōu)于baseline，并在圖像分類的 rehearsal-free 持續(xù)學(xué)習(xí)中設(shè)置了最新的最高標(biāo)準(zhǔn)。

動態(tài)視頻的自適應(yīng)人像摳圖

Adam 是一種用于動態(tài)視頻的自適應(yīng)遮罩框架，它通過同時區(qū)分前景和背景并捕獲各種非結(jié)構(gòu)化視頻中的 alpha 遮罩細(xì)節(jié)來解決無 trimap 方法的局限性。利用互連的編碼器-解碼器網(wǎng)絡(luò)和Transformer網(wǎng)絡(luò)，Adam 提高了消光真實(shí)感和時間相干性，為復(fù)雜的真實(shí)世界視頻實(shí)現(xiàn)了同類模型中的最佳的通用性。

雜七雜八

Chroma 的駐場黑客

在最近的籌款活動之后，矢量數(shù)據(jù)庫初創(chuàng)公司 Chroma 希望聘請一名黑客，為期 3 個月，以構(gòu)建需要長期記憶的酷炫 AI 應(yīng)用程序。具體來說，他們希望這位黑客能夠自我驅(qū)動并構(gòu)建強(qiáng)大的應(yīng)用程序！考慮到在語言模型之上進(jìn)行 MVP 開發(fā)的便利性，我希望看到更多此類職位出現(xiàn)。