學(xué)號(hào):19011210109
姓名:苑航
嵌牛導(dǎo)讀:大數(shù)據(jù)時(shí)代,需要對(duì)樣式繁多,數(shù)目巨大的數(shù)據(jù)集進(jìn)行處理。其中,數(shù)據(jù)擴(kuò)充技術(shù),可以作為一種關(guān)鍵技術(shù),可以應(yīng)用的場(chǎng)景包括并不限于對(duì)有限數(shù)據(jù)集的擴(kuò)充,異常信號(hào)的檢測(cè)等。這里介紹了一種基于對(duì)抗自動(dòng)編碼器(AAE)的DOPING算法的小樣本數(shù)據(jù)擴(kuò)充技術(shù)。
嵌牛鼻子:基于對(duì)抗自動(dòng)編碼器(AAE)的DOPING算法的小樣本數(shù)據(jù)擴(kuò)充技術(shù)
嵌牛提問(wèn):這里只是選了一篇關(guān)于大數(shù)據(jù)的論文進(jìn)行解讀,希望能拋磚引玉,相互學(xué)習(xí)。
一種基于對(duì)抗自動(dòng)編碼器(AAE)的DOPING算法的小樣本數(shù)據(jù)擴(kuò)充技術(shù)。技術(shù)方案示意圖如圖1所示。

本技術(shù)使用一種稱(chēng)為對(duì)抗自動(dòng)編碼器(AAE)的GAN變體,將高維多峰數(shù)據(jù)分布X轉(zhuǎn)換為具有明確尾部概率的低維單峰潛在分布Z。然后,我們?cè)跐撛诜植嫉摹斑吘墶毕到y(tǒng)地對(duì)樣本進(jìn)行過(guò)采樣,以增加不頻繁的正常樣本的密度。從而擴(kuò)大數(shù)據(jù)集,減少對(duì)靠近邊界的樣本進(jìn)行錯(cuò)誤分類(lèi)。
DOPING算法主要分為三個(gè)模塊,首先對(duì)輸入訓(xùn)練集X (要擴(kuò)充的對(duì)象)在AAE進(jìn)行編碼,挖掘出潛在變量信息Z,然后將求X的邊緣樣本轉(zhuǎn)移到求Z的邊緣樣本Zedge,并對(duì)進(jìn)行插值,在潛在空間Z就實(shí)現(xiàn)了邊緣樣本的密度的增加,最后將AAE第一層的輸出結(jié)果和第二層輸出結(jié)果Xsynth相加,得到了擴(kuò)充后的數(shù)據(jù)集X。下面對(duì)各個(gè)模塊進(jìn)行詳細(xì)說(shuō)明。
A.編碼輸入樣本X
對(duì)抗自編碼器(AAE, Adversarial Autoencoder )不同于自編碼器(AE, Autoencoder), 具有兩層結(jié)構(gòu),如下圖2所示:

第一個(gè)模塊只使用了第一行的自編碼器,將訓(xùn)練集X通過(guò)AE,對(duì)其編碼,生成一個(gè)潛在向量Z用于下一步的插值(這里假設(shè)該變量滿足概率分布q(z)),然后解碼器會(huì)嘗試對(duì)這個(gè)潛在向量Z進(jìn)行解碼,重新生成數(shù)據(jù)。
B.?dāng)U充潛在空間Z
通過(guò)將求訓(xùn)練集X的邊緣樣本轉(zhuǎn)移到求由AAE編碼器生成的潛在空間Z的邊緣樣本上,并對(duì)Zedge進(jìn)行插值,在潛在空間就實(shí)現(xiàn)了增加了邊緣樣本的密度,實(shí)現(xiàn)小樣本數(shù)據(jù)擴(kuò)充。
分兩步,一是采樣Z得到來(lái)自邊緣潛在向量Zedge的樣本集合,經(jīng)查閱文獻(xiàn)可知,通過(guò)潛在向量的范數(shù)對(duì)Z進(jìn)行濾波,可以形成子集Zedge。方法如下,
?

其中,按如下方法固定β和α:將β大小設(shè)置為3個(gè)標(biāo)準(zhǔn)差,該標(biāo)準(zhǔn)差大于訓(xùn)練集的潛在矢量范數(shù)的平均值;將α設(shè)置為處于第90個(gè)百分位數(shù)后其余潛在向量的范數(shù)。
第二步,對(duì)邊緣Zedge進(jìn)行插值,插值方案如下: Zedge集合潛在分布的尾端附近鄰域的潛在向量zNN,將其擴(kuò)充為集合Zsynth。設(shè)樣本服從分布,zsample是集合Zedge中挑選出要插值的向量,按如下公式進(jìn)行插值:
? ? ?

? ?
將Zedge擴(kuò)充為集合Zsynth。
C.合成樣本Xsynth
由圖2,AAE需要第二層生成器來(lái)將擴(kuò)充后的潛在空間解碼為擴(kuò)充數(shù)據(jù)集樣本。
設(shè)訓(xùn)練集X的潛在空間Z服從q(z)概率分布, p(z)是我們想要對(duì)擴(kuò)充集合施加的先驗(yàn)分布,判別器D通過(guò)不斷學(xué)習(xí),預(yù)測(cè)輸入的z來(lái)自于負(fù)樣本(服從q(z)概率分布)還是正樣本(服從預(yù)定義的p(z)概率分布)。由于這里的p(z)可以是任何我們可以生成的一個(gè)概率分布,因此整個(gè)對(duì)抗學(xué)習(xí)過(guò)程實(shí)際上可以認(rèn)為是通過(guò)調(diào)整編碼器不斷讓其產(chǎn)生數(shù)據(jù)的概率分布q(z)接近我們預(yù)定義的p(z),當(dāng)模型訓(xùn)練完成后,由于p(z)與q(z)十分相近,因此可以直接通過(guò)p(z)產(chǎn)生我們需要的隨機(jī)潛在向量,最后借助于解碼器產(chǎn)生一個(gè)類(lèi)樣本數(shù)據(jù)。
將合成樣本Xsynth添加到原始數(shù)據(jù)集X,
? ? ? ? ?

? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ?
然后就完成了數(shù)據(jù)擴(kuò)充。使用擴(kuò)充后的數(shù)據(jù)可以用于各類(lèi)異常檢測(cè)算法。