轉(zhuǎn)載請注明作者:夢里茶
目錄
- 機器學(xué)習(xí)與跨媒體智能
- 傳統(tǒng)方法與深度學(xué)習(xí)
- 圖像分割
- 小數(shù)據(jù)集下的深度學(xué)習(xí)
- 語音前沿技術(shù)
- 生成模型
- 基于貝葉斯的視覺信息編解碼
- 珠算:基于別噎死推斷的深度生成模型庫
- 圖像與視頻生成的規(guī)則約束
- 景深風(fēng)景生成
- 骨架約束的人體視頻生成
- 跨媒體智能
- 視頻檢索的哈希學(xué)習(xí)
- 多媒體與知識圖譜
- 基于錨圖的視覺數(shù)據(jù)分析
- 視頻問答
- 細粒度分類
- 跨媒體關(guān)聯(lián)與檢索(待補充)
- 傳統(tǒng)方法與深度學(xué)習(xí)
正片開始
傳統(tǒng)方法與深度學(xué)習(xí)
圖像分割
圖像分割是醫(yī)療圖像中一個很重要的任務(wù),通常分為分割,配準(zhǔn),可視化幾個子任務(wù)。這里貼一張廣義的圖像分割的圖:

存在的困難:
- 不同目標(biāo)區(qū)域亮度一致,區(qū)分度小,
- 不同目標(biāo)區(qū)域邊界模糊,
- 圖像采集存在噪聲
常用分割步驟
檢測(定位)-> 邊界尋優(yōu)
常用分割方法
- 按照圖像中區(qū)域的能量與聯(lián)系,建立
圖模型,用圖割,圖搜索的方法對圖像進行分割 -
外觀模型:特定的目標(biāo)區(qū)域往往具有特殊的外觀,包括輪廓,形狀,可以用外觀模型進行匹配,做粗粒度的分割,或者對細粒度處理后的圖像進行校正 - 多模態(tài)圖像處理:融合
結(jié)構(gòu)信息和功能信息進行分割- 對準(zhǔn)兩個模型(結(jié)構(gòu)和功能)的圖像,對兩個模型的預(yù)測結(jié)果進行約束(比如希望兩個模型的輸出相近)
雙模型交互迭代優(yōu)化
- 多邊形近似
- 對于某種目標(biāo)區(qū)域,有著固定的多邊形外觀,可通過多邊形近似的方法,標(biāo)記出圖像中近似的特征點
語音前沿技術(shù)
任務(wù)
降噪,增強,雜音分離,消除回響
結(jié)合領(lǐng)域知識和DNN
- 數(shù)據(jù)標(biāo)注:結(jié)合領(lǐng)域知識提出需要標(biāo)注哪些數(shù)據(jù)
- 不直接學(xué)習(xí)目標(biāo),而是根據(jù)領(lǐng)域知識將目標(biāo)任務(wù)進行分解
- 比如識別字母,分解為識別摩擦音,爆破音
- 將傳統(tǒng)模型中里程碑式的東西拿過來用
移動端語音挑戰(zhàn)
模型壓縮,輕量化
生成模型
基于貝葉斯的視覺信息編解碼
任務(wù)
- 視覺信息編碼:視覺信息通過人腦轉(zhuǎn)為神經(jīng)活動的過程
- 視覺信息解碼:神經(jīng)活動新號轉(zhuǎn)為視覺信息的過程
模型(基于卷積和反卷積的自編碼器)
- 推理網(wǎng)絡(luò):卷積神經(jīng)網(wǎng)絡(luò),得到中間特征,建立中間特征與神經(jīng)活動信號之間的關(guān)聯(lián),從而得到神經(jīng)活動得到編碼
- 生成網(wǎng)絡(luò):將神經(jīng)活動進行反卷積,得到圖像
- 對于兩個信號,學(xué)習(xí)兩個信號產(chǎn)生于同一對象的概率(相似度分析),建立起一個貝葉斯推斷模型
多視圖生成式自編碼器
除了視覺數(shù)據(jù)之外,還有其他模態(tài)的數(shù)據(jù),可以根據(jù)多個模態(tài)的數(shù)據(jù)構(gòu)建多視圖的生成時自編碼器
珠算:基于貝葉斯推斷的深度生成模型庫
任務(wù)
大數(shù)據(jù)中有許多不確定因素,需要學(xué)習(xí)對不確定性建模
模型

給定一個輸入z,用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)變量x的分布的參數(shù)(均值和方差),約束生成樣本與真實樣本的相似性
有約束的GAN

在GAN的基礎(chǔ)上,加一個分類器C,對生成器G生成的對象加中間約束,使得生成的對象更符合實際需求,比如生成不同姿態(tài)的人臉,要求不同人的人臉盡量不同,同個人的人臉盡量相同。
珠算
- 基于Tensorflow的python庫,無監(jiān)督生成模型
- 貝葉斯推斷
- 適合傳統(tǒng)多層貝葉斯推斷模型以及深度生成模型
- 可用于
- 多變量回歸
- 變分自編碼器實現(xiàn)
- http://zhusuan.readthedocs.io
圖像與視頻生成的規(guī)則約束學(xué)習(xí)
-
GAN成為無監(jiān)督領(lǐng)域的新框架
- WGAN,DCGAN
- 在生成中,往往通過隨機性引入創(chuàng)意
-
已有工作
- 人臉姿態(tài)轉(zhuǎn)換,人臉年齡轉(zhuǎn)換,人臉表情轉(zhuǎn)換
- 圖像超分辨率生成,畫風(fēng)轉(zhuǎn)換,字體轉(zhuǎn)換,圖像轉(zhuǎn)視頻
-
應(yīng)用
- 動畫自動制作,手語生成
- 視頻自動編輯(如生成不同天氣情況下的風(fēng)景)
創(chuàng)意+規(guī)則約束+復(fù)雜場景+復(fù)雜交互
-
難點
- 解空間巨大:需要找出解所在的低維子空間
- 宏觀結(jié)構(gòu)的一致性(視頻生成需要的像素感受野(pooling)很大,難以預(yù)測長期運動變化)
- 微觀結(jié)構(gòu)的清晰度,要同時逼近多模分布,避免單模生成的結(jié)果不夠精確
-
解決方法
- 用領(lǐng)域中的規(guī)則去約束GAN,加入破壞規(guī)則的代價
- 縮小預(yù)測空間,保證宏觀結(jié)構(gòu),加快細節(jié)生成
景深風(fēng)景生成
- 難點:要求空間結(jié)構(gòu)合理,不能有嚴重的模糊
- 約束:從現(xiàn)有風(fēng)景圖像中對景深關(guān)系建模(對區(qū)域進行標(biāo)注, 不同區(qū)域,即圖層,有不同的遠近限制)
- 建立位置和對象的關(guān)系,得到某個位置有某個對象的概率分布
- Hawkes過程模型
- 根據(jù)對象對圖層做分解,由概率約束建立圖層約束(樹在人之前的概率有多大)
- 層內(nèi)DCGAN,層間LSTM聚合出整圖
骨架約束的人體視頻生成
- 骨架運動有約束
- 骨架提取很魯棒,可以得到很多有標(biāo)簽知識(傳統(tǒng)方法用來提取知識),作為約束條件
- 靜圖+動作序列變動圖
- CNN編碼解碼,孿生網(wǎng)絡(luò)雙輸入進行生成
- 判別器:對生成和實際幀做Triplet loss優(yōu)化
- gan loss和視頻相似度loss相加
- 交互運動視頻生成
視頻檢索的哈希學(xué)習(xí)
Learning Multifunctional Binary Codes for Both Category and Attribute Oriented Retrieval Tasks
視頻檢索基于圖像檢索,大規(guī)模圖像檢索對性能要求較高
- 圖像檢索
- 任務(wù):通常圖像特征很大,直接檢索特征太慢
- 方法:
- 用二進制編碼出一個哈希值來表達特征
- 對哈希值做高效的異或運算求相似度
- 模型(添加了對二進制編碼的約束,希望絕對值與1盡量相近):

多媒體與知識圖譜
Cross-media analysis and reasoning: advances and directions
-
任務(wù):
- 將文本,圖像,語音,視頻及其交互屬性進行混合
- 多源融合+知識演化+系統(tǒng)演化
-
難點:
- 解決語義鴻溝(機器認識世界是什么)
- 意圖鴻溝(機器理解人要達到什么目標(biāo))
- 離散的知識和連續(xù)的特征如何轉(zhuǎn)化如何關(guān)聯(lián)
-
典型問題:
- 跨媒體知識學(xué)習(xí)推理,多媒體情感分析
-
現(xiàn)狀:
- 機器學(xué)習(xí)助力多媒體效果很好
- 多媒體助力機器學(xué)習(xí)還不成熟
-
任務(wù):
- 跨媒體深度分析和綜合推理
-
方法:
- 從淺層到深度
- 知識圖譜指導(dǎo)多媒體分析,屬性補全
- 深度學(xué)習(xí)+反饋(知識和規(guī)則進行反饋/強化學(xué)習(xí))(黑箱方法)
- 統(tǒng)計推理,貝葉斯推理(白盒方法)
-
趨勢:
- 知識表達理解,多媒體理解
基于錨圖的視覺數(shù)據(jù)分析
- 圖學(xué)習(xí)
- 對視覺數(shù)據(jù)可以計算相似度,對于整個數(shù)據(jù)集就可以得到一個相似度矩陣,學(xué)過圖論的同學(xué)都知道,矩陣就是圖
- 相似度矩陣 -> 圖的鄰接矩陣 -> 用圖的方法對鄰接矩陣進行優(yōu)化
- 標(biāo)號建模 標(biāo)號平滑 標(biāo)號學(xué)習(xí)
- 錨圖學(xué)習(xí)(速度+)
- 這是一種coarse to fine的思路
- 利用數(shù)據(jù)點圖,生成錨點圖,先采一部分有代表性的數(shù)據(jù)(例如聚類中心)生成一個圖模型,然后推理出其他圖
- 圖模型中需要建立表示矩陣(特征工程),鄰接矩陣(度量學(xué)習(xí)),并加快相似度計算
- 高效錨圖(性能速度+)
- 從數(shù)學(xué)上優(yōu)化錨圖的約束條件,使得優(yōu)化問題的復(fù)雜度大大降低
- 層次化錨圖(速度++)
- 建立多層的錨圖,也就是對采樣點再采樣
- 錨點是線性增加的,也會增加得很快
- 對第一層采樣的點做再采樣,多層采樣減少了錨點數(shù)目,從最少的錨點的層逐層推理
- 標(biāo)號預(yù)測器(速度+++)
- 優(yōu)化對錨點的標(biāo)號(打偽標(biāo)簽進行半監(jiān)督學(xué)習(xí))
- 對最小的錨點層接一個優(yōu)化器進行標(biāo)號預(yù)測
- 主動學(xué)習(xí)(樣本選擇)
- 是一種hard mining的思路,選擇更有用的樣本作為錨點
- 減小標(biāo)號的誤差損失
- 對比Google Expander Graph Learning平臺:經(jīng)典方法,并行運算,而錨圖可以通過并行進一步提升速度
視頻問答
- 任務(wù):
- 輸入視頻,問題,輸出答案
- 模型(層次記憶網(wǎng)絡(luò)+視頻時序推理):
- 對圖像進行分層
- 對問題進行記憶
- 用文本和圖像特征一同訓(xùn)練生成答案
- 用LSTM做時序推理
細粒度分類
- 任務(wù):
- 識別圖像同一大類中的子類
- 挑戰(zhàn):
- 姿態(tài)視角不同導(dǎo)致類內(nèi)差異大,外形顏色相似導(dǎo)致類間差異小
基于模型動態(tài)擴容的增量深度學(xué)習(xí)方法
論文:Error-Driven Incremental Learning in Deep Convolutional Neural Network for Large-Scale Image Classification
- 將目標(biāo)的多個類別按相似度劃分為幾個大類,
- 增加一個新的類別時,將其歸入最相近的大類中,重用大類的參數(shù),擴展小類分類層參數(shù)
-
利用類別子集合劃分實現(xiàn)模型動態(tài)擴容,利用特征遷移學(xué)習(xí)實現(xiàn)訓(xùn)練加速(對類別做聚類)
p23_incremental.png
局部兩級注意力深度模型
The Application of Two-level Attention Models in Deep Convolutional Neural Network for Fine-grained Image Classification
給定圖片-類別,不給出對象位置(bounding box)和局部的位置(part location),用Attention學(xué)習(xí)對象位置和局部特征
- Object level: 首先用公開的數(shù)據(jù)集預(yù)訓(xùn)練模型,top-down地作用在整圖上,選出跟目標(biāo)相關(guān)的區(qū)域(響應(yīng)度最高的區(qū)域),相當(dāng)于摳圖,對摳過的區(qū)域再加上類別標(biāo)簽進行遷移學(xué)習(xí)。

- Part level:
- 對于Object level得到的模型,對卷積層的filter做相似度聚類,同一類的卷積層合為一個part detector,用來為具體的對象局部做識別

- 結(jié)合總體評分和局部評分來對對象做細粒度分類
空間約束的顯著性部件選擇模型
Weakly Supervised Learning of Part Selection Model with Spatial Constraints for Fine-grained Image Classification
- 顯著性提取和協(xié)同分割定位對象
- 先通過顯著性聚類提出備選局部,
-
再對局部位置關(guān)系提出兩個空間約束:局部和整體必須有盡可能多的重疊,局部之間有盡可能少的重疊。
p26_constraint.png
上面兩篇都是不需要局部組件的標(biāo)注,就學(xué)到了局部的特征和約束
顯著性引導(dǎo)的細粒度辨識性定位方法
Fine-grained Discriminative Localization via Saliency-guided Faster R-CNN
結(jié)合分類模型和檢測模型做更高精度的細粒度分類
- 顯著性模型提供弱標(biāo)記的圖片訓(xùn)練faster r-cnn檢測模型
- 檢測模型提供更精確的備選區(qū)域進行分類

視覺文本聯(lián)合建模的圖像細粒度表示
Fine-grained Image Classification via Combining Vision and Language
- 在圖片數(shù)據(jù)集的基礎(chǔ)上,增加對圖片的描述文本,利用這兩個模態(tài)的數(shù)據(jù)提供更高精度的細粒度分類
- 卷積做圖像分類,CNN+LSTM做文本分類,兩個分類結(jié)果合起來

跨媒體關(guān)聯(lián)與檢索
- 跨媒體統(tǒng)一表征學(xué)習(xí):使用相同的特征類型表征不同媒體的數(shù)據(jù)
- 跨媒體相似度計算:通過分析跨媒體關(guān)聯(lián)關(guān)系,計算不同媒體數(shù)據(jù)的語義相似性
這里的六篇論文我還沒讀完,讀完之后補具體的理解
跨媒體關(guān)聯(lián)傳遞方法
IJCV2013: Exhaustive and Efficient Constraint Propagation
基于稀疏和半監(jiān)督的統(tǒng)一表征方法
Learning Cross-Media Joint Representation With Sparse and Semisupervised Regularization
基于跨媒體語義單元的統(tǒng)一表征方法
Semi-Supervised Cross-Media Feature Learning with Unified Patch Graph Regularization
基于跨媒體多深度網(wǎng)絡(luò)的統(tǒng)一表征方法
Cross-media Shared Representation by Hierarchical Learning with Multiple Deep Networks
基于多粒度層級網(wǎng)絡(luò)跨媒體關(guān)聯(lián)學(xué)習(xí)方法
CCL: Cross-modal Correlation Learning with Multi-grained Fusion by Hierarchical Network
跨媒體混合遷移網(wǎng)絡(luò)方法
Cross-modal Common Representation Learning by Hybrid Transfer Network, IJCAI2017
跨媒體檢索數(shù)據(jù)集PKU-XMedia
- www.icst.pku.edu.cn/mlpl/XMedia
- 五種媒體類型(圖像、文本、視頻、音頻、3D)
- 10萬標(biāo)注數(shù)據(jù),200個語義類別,基于wordNet的層次結(jié)構(gòu)
- 來自Wikipedia, Flickr, Youtube, Findsounds, Freesound, Yobi3D

