在基于Hierarchical Softmax的Skip-gram模型和CBOW模型中,負(fù)采樣是一個(gè)很重要的環(huán)節(jié),對(duì)于一個(gè)給定的詞w,我們?nèi)绾紊蒒EG(w)呢?
詞典D中的詞在語(yǔ)料C中出現(xiàn)的次數(shù)有高有低,對(duì)于那些高頻詞,我們希望它被選為負(fù)樣本的概率比較大,對(duì)于那些低頻詞,我們希望它被選中的概率比較小,這是我們對(duì)于負(fù)采樣過(guò)程的一個(gè)大致要求,本質(zhì)上可以認(rèn)為是一個(gè)帶權(quán)采樣的問(wèn)題。
我們首先通過(guò)一段的通俗的描述來(lái)帶大家認(rèn)識(shí)一下帶權(quán)采樣的過(guò)程:

接下來(lái)再看一下word2vec中對(duì)于負(fù)采樣的做法,本質(zhì)上和帶權(quán)采樣的做法類(lèi)似:

