1. AL回答的問(wèn)題
如果機(jī)器能問(wèn)問(wèn)題的話, 他們能用更少的樣本完成訓(xùn)練么? [1]
2. CL回答的問(wèn)題
機(jī)器是否像人一樣, 從易到難的學(xué)習(xí)表現(xiàn)會(huì)更好?[3]
3. AL和CL的聯(lián)系
AL和CL的共同點(diǎn)是從調(diào)整學(xué)習(xí)樣本的角度出發(fā)的, 目的卻不太一樣, 前者是為了更少, 后者是為了更好更快. 剛開(kāi)始是先知道AL的, 后來(lái)我ref了一篇CVPR的論文, 發(fā)現(xiàn)根本在我的問(wèn)題上不work, 也怪我眼光拙劣... 那篇解決的問(wèn)題挺specific, 簡(jiǎn)單的二分類問(wèn)題, 用了一個(gè)trick就是data augmentation后的patches去計(jì)算diversity, 后來(lái)我也嘗試了, 發(fā)現(xiàn)我的問(wèn)題是多分類, 看不出任何效果, 甚至不如random sampling. 期間提出了各種假設(shè), 嘗試了各種修正方法, 始終沒(méi)有解決.
后來(lái)找導(dǎo)師聊了下, 他對(duì)這種trick是存疑的, 首先, 這樣是不是真的能挑出hard samples, 其次, 他認(rèn)為學(xué)習(xí)所謂的hard samples是否真的對(duì)于模型有用, 因?yàn)閔ard samples可能是Noisy的, 也可以能是hard but cannot be learnt的. 之后, 建議我用CL, 由此我知道了CL. CL初看來(lái), 和AL的假設(shè)恰恰相反, AL學(xué)習(xí)的難樣本, CL則認(rèn)為先學(xué)簡(jiǎn)單的會(huì)更好. 后來(lái), 又多看了幾篇論文, 發(fā)現(xiàn)AL其實(shí)沒(méi)說(shuō)學(xué)習(xí)難的, 而是說(shuō)學(xué)習(xí)informative的, 且repersentative的. 兩者其實(shí)本質(zhì)是差不多的, 因?yàn)橛珊?jiǎn)入難, 對(duì)于每次訓(xùn)練的模型來(lái)說(shuō)一定是informative, representative的, 類比于學(xué)生學(xué)習(xí)一門(mén)學(xué)問(wèn), 課程安排一定是立足于當(dāng)前對(duì)于學(xué)生的水平來(lái)說(shuō)的, 如果你填鴨式給小學(xué)生學(xué)高數(shù), 這一定會(huì)confuse學(xué)生.
除此之外, AL和CL都有類似的選樣本步驟(query).
CL的那篇論文 [3], 講到兩種選擇策略, 一種是nosie-based 和 margin-based, 作者也做了圖像識(shí)別和NLP相關(guān)的實(shí)驗(yàn), 圖像實(shí)驗(yàn)中是分類三種基本形狀(三角形, 圓形, 矩形). 他用了兩個(gè)數(shù)據(jù)集, 一個(gè)簡(jiǎn)單的, 一個(gè)難的, 所謂難是指圖像的variation相對(duì)大, 比如對(duì)比度不高, 位置變化等.
AL, 是一門(mén)研究了很久的方向, 在一些場(chǎng)景下是work的, 但也是questionable的, 目前還有很多open questions. 大部分是基于uncertainty sampling. 例如先給Unlabelled的數(shù)據(jù)集樣本的不確定性打分, 然后排序選出一些最uncertain的樣本, 然后聚類, 找出他們的centroids, 把這些centroids的樣本加入訓(xùn)練集(也就是所謂的pool-based)[1] .
另外一種基于Geometric(Density-based), Core-set選擇離所有其他點(diǎn)最遠(yuǎn)的點(diǎn)作為主動(dòng)學(xué)習(xí)樣本點(diǎn)(直觀感覺(jué)有點(diǎn)奇怪...). REPR選擇Unlabelled數(shù)據(jù)中和所有l(wèi)abelled數(shù)據(jù)最像的.
也有人用ensemble的方法[3]做出state of art的結(jié)果, 而且是在公開(kāi)的數(shù)據(jù)集上(mnist, cifar-10)經(jīng)過(guò)驗(yàn)證. 簡(jiǎn)單得看了下他的方法, 是用了多個(gè)相同結(jié)構(gòu)的CNN學(xué)習(xí)器, 然后用預(yù)測(cè)輸出的variance作為metric.
Ref.
Settles B (2011) From theories to queries: Active learning in practice. In: Guyon I, Cawley G, Dror G, Lemaire V, Statnikov A (eds) Active Learning and Experimental Design Workshop 2010, vol 16, JMLR Proceedings, Sardinia, pp 1–18 Google Scholar
The power of ensembles for active learning in image classification, CVPR, 2018
Y. Bengio, J. Louradour, R. Collobert, J. Weston, "Curriculum Learning", Proc. Int'l Conf. Machine Learning, 2009. Access at ACM