2019
- 一月 - 3D 姿勢估計
姿勢估計器將視頻作為輸入,并輸出與視頻中存在的人類個體的姿勢相對應的圖形。
創(chuàng)建可靠且實時的 3D 姿勢估計器的當前困難包括這樣的事實:幾乎沒有訓練數(shù)據(jù),以及必須考慮遮擋的事實。例如,如果特定身體部位被阻擋而不能看到,則姿勢估計器仍必須能夠從身體其余部分的位置推斷出其位置。
該模型優(yōu)于所有現(xiàn)有模型,因為它創(chuàng)建姿勢的 2D 和 3D 表示。它使用初始 2D 姿態(tài)估計,然后利用將該 2D 估計轉換為 3D 形式的神經網絡。然后,它使用 3D 到 2D 神經網絡網絡將姿勢轉換回 2D 形式,這有助于通過自我監(jiān)督校正機制改進中間 3D 姿勢預測,該機制可以檢測第一個 2D 到 3D 的準確度神經網絡。
網絡允許在大約 50 毫秒內獲得姿勢估計,其接近每秒 20 幀。這接近實時,適用于姿勢估計的許多應用
- 二月 - SC-FEGAN:面部編輯 GAN
該 AI 能夠從一組可控模式生成逼真的圖像。它建立在該領域以前的幾篇論文的基礎上 - 第一篇是從稀疏描述中生成圖像的論文(比如一個判決書),第二篇是允許定制圖像上的面部特征的論文(例如合并兩個不同的面孔)。
這種技術允許我們編輯更具體的因素 - 例如,在某人的臉上微笑或刪除個人的太陽鏡。顏色也可以改變 - 例如,可以操縱一只眼睛的顏色。它非??欤褂?512 x 512 圖像創(chuàng)建這些圖像只需 50 毫秒。
它在電影制作的編輯行業(yè)中有應用,但也可以被尋求對其照片進行簡單編輯的新穎消費者使用。雖然目前沒有可用的網絡應用程序,但它確實公開了其源代碼。
- 二月 - 深度規(guī)劃網絡(PlaNet)
谷歌的 PlaNet AI 旨在學習如何規(guī)劃必須采取的一系列步驟,以執(zhí)行物理目標 - 執(zhí)行,桿平衡或像人一樣行走。 AI 必須以與人類相同的方式學習 - 通過查看這些圖像的像素(這需要對上下文的視覺理解)。
AI 使用稀疏獎勵方法,這意味著它幾乎無法獲得有關這些任務的性能的反饋。然而,這與經典的強化學習方法之間的關鍵區(qū)別在于,這種 AI 使用模型進行學習。這意味著它不是從頭開始學習每一項新任務,而是利用它從以前的活動中獲得的基本理解(例如引力的性質),并將其應用于未來的任務。因此,它在學習游戲時有一個良好的開端,使其效率通常比從頭開始學習的技術高 50 倍。
它在大多數(shù)任務中明顯優(yōu)于其他最先進的 AI 系統(tǒng),例如獵豹跑步或人行走。該代理不需要對每項活動進行單獨培訓,因為它會混合其培訓。此外,它可以僅使用 5 幀參考特定活動來學習它,相當于大約五分之一秒的素材。然后,它可以學習如何在更長的時間內繼續(xù)此活動。
- 三月 - 人類可以破譯對抗性圖像
雖然最近的卷積神經網絡系統(tǒng)在圖像檢測問題上已超過人類表現(xiàn),但問題確實存在 - 只需修改圖像中的一個或兩個像素就可以使系統(tǒng)將圖像分類為極為不同的東西。例如,重新配置一兩個像素就是計算機將蘋果分類為汽車所需的全部內容。這種 “愚弄” 圖像識別系統(tǒng)的能力被批評為這種系統(tǒng)無法以與人類相同的方式解釋圖像的跡象,盡管最近的一篇論文表明情況可能并非如此。
在一篇論文中,一對認知心理學家展示了一組超過 1800 個主題的圖像,這些圖像已經欺騙了計算機,將其分類為錯誤的標簽。他們問人們計算機預測對象的兩種選擇中的哪一種 - 一種選擇是計算機的真實結論,另一種是隨機答案。受試者在 75%的時間內選擇與計算機相同的答案,其中 98%的人傾向于像計算機那樣回答。
接下來,研究人員讓受試者在系統(tǒng)的答案和對猜測錯誤的圖像的下一個最佳猜測之間做出選擇。再次,受試者再次驗證了計算機的選擇 - 91%的受試者同意系統(tǒng)的決定。
因此,該研究提供了一定程度的證據(jù)表明卷積神經網絡架構的明顯缺陷可能沒有許多人想象的那么糟糕。它提供了一個新的視角,以及一個可以探索的新實驗范式。
2018
- 四月 - ProGanSR
為了實現(xiàn)超分辨率,允許將低分辨率圖像轉換為更高分辨率的圖像,本文建議通過漸進方法改善圖像分辨率。它需要幾個中間步驟,其中產生的圖像略好于前一個,稱為 “課程學習”。
本文使用的是 GAN,而不僅僅是 CNN。與最先進的模型相比,使用本文提出的方法生成的圖像精度略低,但速度是其 5 倍。
機器學習模型的最終目標是在新的,看不見的實例上準確地預測輸出。因此,在訓練機器學習模型時,測試數(shù)據(jù)不參與創(chuàng)建模型的過程至關重要,因為這會給測試集帶來偏差。不幸的是,我們通常只能從同一個發(fā)行版訪問新數(shù)據(jù),導致許多研究人員使用測試集代替驗證集。這允許根據(jù)所選測試集的分布來優(yōu)化諸如學習速率的超參數(shù)。
該研究論文提出了一個新的測試集,其中包含大約 2000 個實例,這些實例與 CIFAR-10 數(shù)據(jù)集的測試集的分布相匹配,這是一個眾所周知的數(shù)據(jù)集,許多現(xiàn)代圖像分類器模型都經過測試。然后評估 30 種不同的現(xiàn)代圖像分類模型的性能。它發(fā)現(xiàn)從原始測試集到新測試集的準確性有顯著下降 - 例如,VGG 和 ResNet 架構從其完善的 93%精度下降到大約 85%。然而,分類器相對于彼此的性能保持或多或少是恒定的 - 因此,分類器的性能分布可以被認為是簡單地水平移位。
結果對當前分類器的穩(wěn)健性產生了懷疑。廣泛使用的模型的分類準確性顯著下降 - 例如,VGG 和 ResNet 的準確度損失對應于 CIFAR-10 數(shù)據(jù)集的多年進展。因此,分配轉移質疑當前模型真正推廣的程度
- 六月 - RF-Pose
本文通過墻壁和遮擋提供準確的人體姿勢估計。它利用了 WiFi 頻率中的無線信號穿過墻壁并反射出人體的事實,并使用深度神經網絡方法來解析這些無線電信號以估計 2D 姿勢。無論光照條件如何,姿勢估計都能很好地工作,并且還可以檢測多個人。
在網絡中,有一個教師網絡,可以查看墻壁的彩色圖像,并預測人體所處的姿勢。還有一個學生網絡將信號作為輸入,并了解不同的分布意思是,它們與不同的人類姿勢和姿勢有何關聯(lián)。教師網絡向學生網絡顯示正確的結果,學生學習如何通過無線電信號而不是圖像來制作它們。
除了用于交互式視頻游戲中的動作捕捉,以及幫助為電影創(chuàng)建特殊效果之外,姿勢估計還可用于幫助檢測患者姿勢的問題,跟蹤動物的活動,理解手語和自己的行人活動。 - 駕駛汽車。
本文強調了一種評估圖像分類器在抵抗損壞和擾動能力方面的性能的方法。它創(chuàng)建了兩個數(shù)據(jù)集 - ImageNet-C(用于損壞)和 ImageNet-P(用于擾動) - 這有助于測試圖像分類器對這種變化的穩(wěn)健性,這在現(xiàn)實場景中很常見。
在圖像的上下文中,損壞通過扭曲其細節(jié)來描述對基本圖像的修改。本文在 ImageNet 圖像上使用了 15 種不同的損壞函數(shù),每種函數(shù)都有 5 個嚴重級別。這些損壞函數(shù)描述的方法包括高斯噪聲,雪和像素化的添加。
擾動通過變換方法改變其外觀來描述圖像的扭曲。本文在 ImageNet 圖像上使用了 8 種不同的擾動函數(shù),包括縮放,傾斜和平移。
使用從 ImageNet-C 和 ImageNet-P 數(shù)據(jù)集中獲得的圖像測試分類器,通過在每種類型的所有函數(shù)和所有嚴重級別上平均其準確性,本文創(chuàng)建了關于其對損壞和擾動的魯棒性的魯棒性評分。
- 七月 - Phrank
所產生的算法使基因診斷中最勞動密集的部分自動化,即將患者的基因序列和癥狀與科學文獻中描述的疾病相匹配。如果沒有計算機幫助,這個匹配過程每個患者需要 20 到 40 個小時 - 這個過程需要專家查看大約 100 名患者可疑的突變列表,做出有根據(jù)的猜測,哪一個可能導致疾病,檢查科學文學,然后繼續(xù)下一個。 Bejerano 團隊開發(fā)的算法將所需時間縮短了 90%。
算法的名稱,Phrank,一個 “表型” 和“等級”的混搭,給出了它如何工作的暗示:它將患者的癥狀和基因數(shù)據(jù)與醫(yī)學文獻知識庫進行比較,然后簡單地生成一個排序列表,其中罕見的遺傳性疾病最容易引起癥狀。平均而言,Phrank 在其產生的潛在診斷列表中將真正的診斷排在第 4 位。
- 十二月 - GAN 剖析
本文提出了一個框架,用于在單元,對象和場景級別可視化和理解 GAN。它提供了生成場景圖像,識別對作為場景一部分的特定對象有貢獻的 GAN 單元或神經元的能力,然后利用這些來激活或停用該特定對象的存在。因此,這使我們能夠在不需要 Photoshop 等工具的情況下操作圖像。
例如,如果我們有一個教堂的圖像,我們可以向這個框架表明我們希望移除圖像中存在的門。因此,框架將移除門,同時以合適的方式保持圖像的其余部分的結構。如果需要,我們可以將門添加回去。除此之外,我們可以選擇圖像的特定區(qū)域,我們希望在其中添加新內容 - 例如,我可以在教堂圖像的右側添加一棵樹??蚣芾斫鈽淠驹诘孛嫔嫌懈?,因此在指定位置從地面構建。該框架還能夠識別添加不適合的地方 - 例如,如果我們希望在天空中繪制一扇門,框架將不接受此請求。
該框架使用分段網絡和解剖方法來識別與有意義的對象類(如樹)匹配的生成器的各個單元。然后,當它們在圖像中被修改時,它激活和停用對應于每個對象類的神經元 - 例如,插入樹激活 GAN 中與樹對應的神經元。什么被允許,這是本文的一個重要發(fā)現(xiàn) - 相同的神經元控制各種環(huán)境中的特定對象類,即使對象的最終外觀變化很大。相同的神經元可以打開 “門” 的概念,即使一個巨大的石墻需要一個朝向左側的大型重型門,或者一個小小屋需要一個面向右側的小型門簾。
- 十二月 - 基于樣式的生成器
這篇由處理器和顯卡公司 Nvidia 的科學家撰寫的研究論文展示了從樣式轉移文獻中借鑒的生成對抗網絡的替代生成器架構的潛力。它允許對人臉中的特征進行特定的定制和控制。它有可能應用于其他領域,迄今已在汽車和房間上成功測試過。
生成器可以組合圖像的不同方面。例如,如果希望將一個面部的性別與另一個面部的性別重疊,則生成器可以這樣做??梢赞D移的方面包括性別,頭發(fā)長度,姿勢和眼鏡的存在。
還可以逐個控制發(fā)生器的參數(shù)而不修改圖像的核心內容。例如,可以修改殘茬的存在。
生成器也可以執(zhí)行插值。這意味著如果我們有兩個圖像 A 和 B,則生成器可以創(chuàng)建將這些圖像映射到另一個的中間圖像。它甚至可以改變過程中的性別。所有中間圖像也都是真實的。
2017
當今開發(fā)機器學習算法和系統(tǒng)的組織面臨的一個大問題是隱私 - 消費者不愿意讓他人查看他們的數(shù)據(jù),因為這些數(shù)據(jù)被認為對他們敏感。 Google AI 對聯(lián)合學習的新研究提出了一個解決方案。
聯(lián)盟學習技術依賴于分布式訓練 - 它允許在通用數(shù)據(jù)的子集上獨立訓練模型,然后將這些獨立模型組裝成單個主模型。
有幾個用例可以更好地描述它的功能。首先,醫(yī)療患者不愿意將他們的健康記錄發(fā)送給他們不能信任的其他醫(yī)院和組織。 聯(lián)盟學習建議每家醫(yī)院使用其擁有的有限患者數(shù)據(jù)構建自己的模型,然后使用 Google 的聯(lián)合平均算法將每個醫(yī)院的模型組裝成單個統(tǒng)一模型。其次,假設我們希望訓練一個預測鍵盤,以便在我們的智能手機上獨特地適合我們的個人打字模式。我們可以使用 Federated 模型,該模型已經根據(jù)許多不同用戶及其數(shù)據(jù)的預測模式進行了訓練和編譯,然后傳遞我們自己的個人鍵盤輸入數(shù)據(jù)以更新模型以更好地適應我們的個人打字習慣。
聯(lián)盟學習技術自那時起就經歷了許多更新和改進,并且當人工智能在其開發(fā)過程中進入以隱私為中心的時代時,它肯定會保持相關性。
假設您需要縮小您的圖像而不降低主要功能的準確性,或者您希望從圖像中刪除 RGB 顏色,或者如果您在不支持該范圍的屏幕上顯示高動態(tài)范圍的圖像。雖然有數(shù)百個現(xiàn)有結構可以做到這些,但本文描述了一種方法,與現(xiàn)有方法相比,這些結構非常好。
本文提出了深度特征一致的深度圖像變換(DFC-DIT)框架。它利用卷積神經網絡(CNN)為輸入圖像生成三個輸出 - 縮小版本,脫色版本和 HDR 色調映射版本。它還使用了另一種采用深度特征一致性原理的預訓練和固定深度 CNN - 這確保了所有主要特征都保留在圖像中。
原文:https://github.com/iOSDevLog/Virgilio/blob/master/zh-CN/Research/Papers.md