Exploring Simple Siamese Representation Learning
1. Motivation
Kaiming He[1]大神的又一力作,證明在自監(jiān)督學(xué)習(xí)中可以學(xué)習(xí)到有意義的表征,但不使用:
(1)負(fù)樣本對;
(2)大的batch;
(3)momentum encoder。
而stop-gradient操作發(fā)揮了重要作用。
本文基于Siamese networks[2]提出一個簡單的調(diào)整SimSiam,Siamese networks最大的問題是容易坍塌(collapsing)到一個固定值上去。
SimCLR[3]采用增加負(fù)樣本對的形式,讓正樣本的不同view之間距離更近,讓正負(fù)樣本之間距離更遠(yuǎn)。
SwAV[4]采用在線聚類的方式。
BYOL[5]只基于正樣本對,但采用了momentum encoder。
2. Simple Siamese
Siamese networks可以自然導(dǎo)出歸納偏置(inductive biases):模型不變性(modeling invariance),即同一個概念的兩個observations,應(yīng)該有相同的輸出。

Simple siamese的步驟:
對于一個圖片,得到兩個增強的view
與
。
然后將與
經(jīng)過同一個encoder
,得到兩個view
與
。
將其中一個view,如,用MLP做一次預(yù)測,得到
,記為
,最小化
與
之間的負(fù)cosine相似度。
這里,投影MLP 最后一層不用激活函數(shù);預(yù)測MLP
最后一層不用BN。
對稱地再做一次預(yù)測,得到最終的loss為,
最重要的地方是,對于每一個,其中的原始view是stop-gradient的。
即,


3. Experiment
作者通過實驗證明了stop-gradient的存在,防止了坍塌問題。作者認(rèn)為,stop-gradient的引入,可能導(dǎo)致了一個另一個優(yōu)化問題被潛在地解決了(翻譯的有點拗口,應(yīng)該就是引入了一個新的優(yōu)化或者約束問題)。
Predictor MLP 也是重要的,不可或缺的。
作者假設(shè)SimSiam是EM算法的一種實現(xiàn)。

優(yōu)點:
(1)KaimingHe一貫的風(fēng)格,簡單有效;在自監(jiān)督學(xué)習(xí)里,用stop-gradient與預(yù)測MLP就可以得到有效的特征表示。
思考:
(1)推薦系統(tǒng)里能不能使用這種想法,最主要的差異是,圖片很容易做augmentation,而推薦系統(tǒng)的特征,尤其是ID類特征并不太容易。增強的本質(zhì)是某種特性的不變性,有論文用近鄰來做增強,不失為一個思考方向,但是還是不如圖片便捷,需要在樣本處理上花費很多功夫。
4. References
[1] Chen, Xinlei, and Kaiming He. "Exploring simple siamese representation learning." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.
[2] Jane Bromley, Isabelle Guyon, Yann LeCun, Eduard Sa ?ckinger, and Roopak Shah. Signature verification using a “Siamese” time delay neural network. In NeurIPS, 1994.
[3] Ting Chen, Simon Kornblith, Mohammad Norouzi, and Ge- offrey Hinton. A simple framework for contrastive learning of visual representations. arXiv:2002.05709, 2020.
[4] MathildeCaron,IshanMisra,JulienMairal,PriyaGoyal,Pi- otr Bojanowski, and Armand Joulin. Unsupervised learn- ing of visual features by contrasting cluster assignments. arXiv:2006.09882, 2020.
[5] Jean-Bastien Grill, Florian Strub, Florent Altche ?, Corentin Tallec, Pierre H. Richemond, Elena Buchatskaya, Carl Do- ersch, Bernardo Avila Pires, Zhaohan Daniel Guo, Moham- mad Gheshlaghi Azar, Bilal Piot, Koray Kavukcuoglu, Re ?mi Munos, and Michal Valko. Bootstrap your own latent: A new approach to self-supervised learning. arXiv:2006.07733v1, 2020.