SimSiam, CVPR21, KaimingHe, 自監(jiān)督學(xué)習(xí)

Exploring Simple Siamese Representation Learning

1. Motivation

Kaiming He[1]大神的又一力作,證明在自監(jiān)督學(xué)習(xí)中可以學(xué)習(xí)到有意義的表征,但不使用:
(1)負(fù)樣本對;
(2)大的batch;
(3)momentum encoder。

stop-gradient操作發(fā)揮了重要作用。

本文基于Siamese networks[2]提出一個簡單的調(diào)整SimSiam,Siamese networks最大的問題是容易坍塌(collapsing)到一個固定值上去。

SimCLR[3]采用增加負(fù)樣本對的形式,讓正樣本的不同view之間距離更近,讓正負(fù)樣本之間距離更遠(yuǎn)。

SwAV[4]采用在線聚類的方式。

BYOL[5]只基于正樣本對,但采用了momentum encoder。

2. Simple Siamese

Siamese networks可以自然導(dǎo)出歸納偏置(inductive biases):模型不變性(modeling invariance),即同一個概念的兩個observations,應(yīng)該有相同的輸出。

simsiam.jpg

Simple siamese的步驟:

對于一個圖片x,得到兩個增強的view x_1x_2。

然后將x_1x_2經(jīng)過同一個encoder f,得到兩個view z_1z_2。
將其中一個view,如z_1,用MLP做一次預(yù)測,得到h(f(x_1)),記為p_1,最小化p_1z_2之間的負(fù)cosine相似度。

D(p_1, z_2)

這里,投影MLP f最后一層不用激活函數(shù);預(yù)測MLP h最后一層不用BN。

對稱地再做一次預(yù)測,得到最終的loss為,

L = \frac{1}{2} D(p_1, z_2) + \frac{1}{2} D(p_2, z_1)

最重要的地方是,對于每一個D,其中的原始view是stop-gradient的。

即,

L = \frac{1}{2}D(p_1, stop\_gradient(z_2)) + \frac{1}{2} D(p_2, stop\_gradient(z_1))

simsiam_code.jpg
simsiam_compare.jpg

3. Experiment

作者通過實驗證明了stop-gradient的存在,防止了坍塌問題。作者認(rèn)為,stop-gradient的引入,可能導(dǎo)致了一個另一個優(yōu)化問題被潛在地解決了(翻譯的有點拗口,應(yīng)該就是引入了一個新的優(yōu)化或者約束問題)。

Predictor MLP h也是重要的,不可或缺的。

作者假設(shè)SimSiam是EM算法的一種實現(xiàn)。

simsiam_result.jpg

優(yōu)點:
(1)KaimingHe一貫的風(fēng)格,簡單有效;在自監(jiān)督學(xué)習(xí)里,用stop-gradient與預(yù)測MLP就可以得到有效的特征表示。

思考:
(1)推薦系統(tǒng)里能不能使用這種想法,最主要的差異是,圖片很容易做augmentation,而推薦系統(tǒng)的特征,尤其是ID類特征并不太容易。增強的本質(zhì)是某種特性的不變性,有論文用近鄰來做增強,不失為一個思考方向,但是還是不如圖片便捷,需要在樣本處理上花費很多功夫。

4. References

[1] Chen, Xinlei, and Kaiming He. "Exploring simple siamese representation learning." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.

[2] Jane Bromley, Isabelle Guyon, Yann LeCun, Eduard Sa ?ckinger, and Roopak Shah. Signature verification using a “Siamese” time delay neural network. In NeurIPS, 1994.

[3] Ting Chen, Simon Kornblith, Mohammad Norouzi, and Ge- offrey Hinton. A simple framework for contrastive learning of visual representations. arXiv:2002.05709, 2020.

[4] MathildeCaron,IshanMisra,JulienMairal,PriyaGoyal,Pi- otr Bojanowski, and Armand Joulin. Unsupervised learn- ing of visual features by contrasting cluster assignments. arXiv:2006.09882, 2020.

[5] Jean-Bastien Grill, Florian Strub, Florent Altche ?, Corentin Tallec, Pierre H. Richemond, Elena Buchatskaya, Carl Do- ersch, Bernardo Avila Pires, Zhaohan Daniel Guo, Moham- mad Gheshlaghi Azar, Bilal Piot, Koray Kavukcuoglu, Re ?mi Munos, and Michal Valko. Bootstrap your own latent: A new approach to self-supervised learning. arXiv:2006.07733v1, 2020.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容