很多時(shí)候帶分類標(biāo)注的圖片樣本是很難獲得的,但是圖片之間的相似度卻不難獲得。最簡(jiǎn)單的方式有幾個(gè): 視頻里相鄰的幀是相似的。見論文Unsupervi...
這兩天因?yàn)閷?shí)現(xiàn)mxnet的nce-loss,因此研究了一下tensorflow的nce-loss的實(shí)現(xiàn)。所以總結(jié)一下。 先看看tensorflo...
Softmax是用來實(shí)現(xiàn)多類分類問題常見的損失函數(shù)。但如果類別特別多,softmax的效率就是個(gè)問題了。比如在word2vec里,每個(gè)詞都是一個(gè)...
之前基于ps-lite實(shí)現(xiàn)了word2vec。下一步就是讓這個(gè)算法能夠分布式的跑起來。最簡(jiǎn)單的分布式方案大概是如下幾步:把二進(jìn)制文件copy到你...
ps-lite是一個(gè)參數(shù)服務(wù)器(ps)的實(shí)現(xiàn)。在有參數(shù)服務(wù)器之前,其實(shí)也就5年前,大部分分布式機(jī)器學(xué)習(xí)算法都是靠定期同步來實(shí)現(xiàn)的,比如MPI的a...
在《關(guān)于LDA, pLSA, SVD, Word2Vec的一些看法》一文中我們提到了SVD的算法。之前TensorFlow剛出來時(shí),就聽說可以很...
前面提到了用CNN來做OCR。這篇文章介紹另一種做OCR的方法,就是通過LSTM+CTC。這種方法的好處是他可以事先不用知道一共有幾個(gè)字符需要識(shí)...
OCR是一個(gè)古老的問題。這里我們考慮一類特殊的OCR問題,就是驗(yàn)證碼的識(shí)別。傳統(tǒng)做驗(yàn)證碼的識(shí)別,需要經(jīng)過如下步驟: 這里最難的就是分割。如果字符...
有些同學(xué)對(duì)于mxnet的自定義Iter不是很熟悉,對(duì)多輸出也不熟悉,因此我用一個(gè)比較復(fù)雜的例子來說明這個(gè)問題: 本著End-to-End的精神,...