頭條
Phi 2 在 Azure 模型工作室中可用
https://www.microsoft.com/en-us/research/blog/phi-2-the-surprising-power-of-small-language-models/
Phi 2 是 Azure 系列中的下一代微型語(yǔ)言模型,主要基于合成數(shù)據(jù)進(jìn)行訓(xùn)練。這個(gè)具有 27 億參數(shù)的模型達(dá)到了 130 億參數(shù)模型的性能。這里的挑戰(zhàn)是檢測(cè)和減輕“測(cè)試集改寫”,但無(wú)論如何,這個(gè)模型都相當(dāng)強(qiáng)大。
OpenAI 領(lǐng)導(dǎo)層在 Sam Altman 被解雇前警告過(guò)濫用行為
https://www.msn.com/en-us/money/companies/warning-from-openai-leaders-helped-trigger-sam-altman-s-ouster/ar-AA1ldAfV
OpenAI 的一群高級(jí)領(lǐng)導(dǎo)向董事會(huì)提出對(duì) Sam Altman 據(jù)稱心理虐待行為的擔(dān)憂,這包括制造混亂和挑撥員工對(duì)立,以及對(duì) Altman 在董事會(huì)溝通中的不誠(chéng)實(shí)行為的指控,這導(dǎo)致了他的短暫解雇。Altman 的復(fù)職是在員工的壓倒性支持和大規(guī)模辭職威脅后進(jìn)行的,但這一事件給公司內(nèi)部留下了不確定性,也對(duì)其未來(lái)的方向提出了疑問(wèn)。
Mistral 平臺(tái)
https://mistral.ai/news/la-plateforme/
Mistral 現(xiàn)在擁有一個(gè)帶有新模型、嵌入式和指令調(diào)優(yōu)模型的 API。它有一個(gè)未發(fā)布的中等大小模型,性能超過(guò) GPT-3.5。
研究
使用減少的 GPU 使用量的視覺(jué)語(yǔ)言建模
https://arxiv.org/abs/2312.06401v1
研究人員引入了一種新方法,Compound Text-Guided Prompt Tuning (TGP-T),用于視覺(jué)語(yǔ)言模型,如 CLIP。TGP-T 在顯著降低 GPU 內(nèi)存使用的同時(shí)提高了性能。它通過(guò)使用文本監(jiān)督來(lái)優(yōu)化提示,提高了在處理多種類別時(shí)的靈活性和效率。
使用圖像對(duì)應(yīng)先驗(yàn)增強(qiáng) NeRF 訓(xùn)練
https://yxlao.github.io/corres-nerf/
CorresNeRF 引入了一種改進(jìn)神經(jīng)輻射場(chǎng) (NeRFs) 性能的新方法,特別是在輸入視圖有限的情況下。通過(guò)利用圖像對(duì)應(yīng)先驗(yàn)進(jìn)行監(jiān)督,這種方法改進(jìn)了 NeRF 訓(xùn)練,從而提高了光度和幾何精度。
使用擴(kuò)散模型進(jìn)行異常檢測(cè)
https://arxiv.org/abs/2312.06607v1
DiAD 利用擴(kuò)散模型的力量來(lái)檢測(cè)異常。它獨(dú)特地結(jié)合了像素空間自動(dòng)編碼器、語(yǔ)義引導(dǎo) (SG) 網(wǎng)絡(luò)和特征空間提取器,以準(zhǔn)確地檢測(cè)和定位多類設(shè)置中的異常。
工程
通過(guò) 2D 圖像處理簡(jiǎn)化 3D 編輯
https://felixcheng97.github.io/AGAP/
AGAP 是一種簡(jiǎn)化 3D 編輯的新方法。通過(guò)使用稱為規(guī)范圖像的 2D 圖像,AGAP 允許用戶輕松編輯 3D 場(chǎng)景,而無(wú)需為每個(gè)更改重新優(yōu)化。
增強(qiáng)基于文本提示的 3D 內(nèi)容創(chuàng)建
https://liuff19.github.io/Sherpa3D/
Sherpa3D 是一個(gè)開(kāi)創(chuàng)性的框架,它改進(jìn)了從文本提示創(chuàng)建 3D 內(nèi)容的過(guò)程。它結(jié)合了 2D 和 3D 擴(kuò)散模型的優(yōu)勢(shì),使用粗略的 3D 知識(shí)指導(dǎo)創(chuàng)建過(guò)程。這導(dǎo)致了高質(zhì)量、多樣性和幾何上一致的 3D 資產(chǎn)的生成,克服了現(xiàn)有方法的限制。
加速神經(jīng)體積視頻研究 (GitHub 倉(cāng)庫(kù))
https://github.com/zju3dv/easyvolcap
EasyVolcap 是一個(gè)用于加速神經(jīng)體積視頻研究的 PyTorch 庫(kù),特別是在體積視頻捕獲、重建和渲染方面。
雜七雜八
可互操作的認(rèn)證協(xié)議
https://www.artifact.io/iap
鑒于模型能力的快速發(fā)展,協(xié)調(diào)語(yǔ)言模型與用戶之間的溝通至關(guān)重要??苫ゲ僮魇跈?quán)協(xié)議 (IAP) 旨在通過(guò)建立安全、適應(yīng)性強(qiáng)的通信渠道和同意管理系統(tǒng)來(lái)解決這一問(wèn)題。這種開(kāi)源方法鼓勵(lì) AI 社區(qū)合作,以使 AI 操作與多樣化的人類價(jià)值和目標(biāo)保持一致。
MIT 小組發(fā)布關(guān)于 AI 治理的白皮書
https://news.mit.edu/2023/mit-group-releases-white-papers-governance-ai-1211
MIT 的領(lǐng)導(dǎo)人和學(xué)者組成的委員會(huì)發(fā)布了政策簡(jiǎn)報(bào),為美國(guó) AI 治理提供了框架,倡導(dǎo)將現(xiàn)有的監(jiān)管和責(zé)任方法擴(kuò)展到有效監(jiān)管 AI。他們的提議旨在加強(qiáng)美國(guó)在 AI 領(lǐng)域的領(lǐng)導(dǎo)地位,最小化潛在的危害,并鼓勵(lì)有益的 AI 應(yīng)用,強(qiáng)調(diào)在 AI 工具中明確定義目的和意圖的需要,并建議可能的新監(jiān)督結(jié)構(gòu)。
關(guān)于平臺(tái)轉(zhuǎn)變和 AI
https://caseyaccidental.com/on-platform-shifts-and-ai/
在 2022 年 TCV Engage 峰會(huì)上的討論強(qiáng)調(diào),盡管 AI 代表著技術(shù)轉(zhuǎn)變,但它缺乏新的分銷渠道,這對(duì)于創(chuàng)造重大的消費(fèi)者機(jī)會(huì)至關(guān)重要。當(dāng)前的 AI 創(chuàng)新必須依賴傳統(tǒng)的分銷方法,有利于已經(jīng)建立的公司或創(chuàng)新型初創(chuàng)企業(yè),但新分銷平臺(tái)的潛力仍不確定。
谷歌考慮 Gemini AI 項(xiàng)目,使用手機(jī)數(shù)據(jù)、照片講述人們的生活故事
https://www.cnbc.com/2023/12/08/google-weighing-project-ellmann-uses-gemini-ai-to-tell-life-stories.html
谷歌的“Project Ellmann”提出使用 AI 分析移動(dòng)數(shù)據(jù),如照片和搜索,創(chuàng)建用戶生活的詳細(xì)“鳥瞰”敘述,盡管其是否整合到現(xiàn)有產(chǎn)品如 Google Photos 中仍然不確定。
Ollama 多模態(tài)預(yù)發(fā)布 (GitHub 發(fā)布)
https://github.com/jmorganca/ollama/releases/tag/v0.1.15
Ollama 是使用現(xiàn)代語(yǔ)言模型的一種驚人的簡(jiǎn)單方式。它正在增加多模態(tài)支持,帶有像 Llava 這樣的模型。
Respell (產(chǎn)品)
https://www.respell.ai/
使用 AI 工作流程和代理自動(dòng)化知識(shí)工作。