探秘Word2Vec(六)-負(fù)采樣方法

在基于Hierarchical Softmax的Skip-gram模型和CBOW模型中,負(fù)采樣是一個(gè)很重要的環(huán)節(jié),對(duì)于一個(gè)給定的詞w,我們?nèi)绾紊蒒EG(w)呢?
詞典D中的詞在語(yǔ)料C中出現(xiàn)的次數(shù)有高有低,對(duì)于那些高頻詞,我們希望它被選為負(fù)樣本的概率比較大,對(duì)于那些低頻詞,我們希望它被選中的概率比較小,這是我們對(duì)于負(fù)采樣過(guò)程的一個(gè)大致要求,本質(zhì)上可以認(rèn)為是一個(gè)帶權(quán)采樣的問(wèn)題。
我們首先通過(guò)一段的通俗的描述來(lái)帶大家認(rèn)識(shí)一下帶權(quán)采樣的過(guò)程:



接下來(lái)再看一下word2vec中對(duì)于負(fù)采樣的做法,本質(zhì)上和帶權(quán)采樣的做法類(lèi)似:

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容