詞嵌入Word Embedding

傳統(tǒng)表達(dá):one-hot

將每個(gè)詞表示為一個(gè)長(zhǎng)長(zhǎng)的向量。詞袋:所有詞的不重復(fù)構(gòu)成。

這樣做的缺陷:忽略了句子詞頻信息;面臨高維困境(文本維度隨著詞數(shù)變化而變化);忽略了詞語(yǔ)上下文關(guān)聯(lián)。

基本概念

詞嵌入(Word embedding)是一種詞的類型表示,是將詞匯映射到實(shí)數(shù)向量的方法總稱。
用低維向量表示一個(gè)是的相似意義的詞向量距離相近,同時(shí)又能避免維度過(guò)高的問(wèn)題。

核心思想:根據(jù)詞語(yǔ)的上下文來(lái)計(jì)算詞向量,一個(gè)詞的語(yǔ)義是由它周圍的詞決定的。

CBOW:連續(xù)詞袋模型:

詞向量生成過(guò)程

輸入層:context word的one-hot;
輸出層:目標(biāo)值為center word的one-hot;
所有輸入one-hot共享權(quán)重矩陣W(v*N);
N代表隱層神經(jīng)元個(gè)數(shù),自定義;v代表one-hot編碼維度。
網(wǎng)絡(luò)訓(xùn)練后所得的權(quán)重矩陣W(v*N)即為詞向量。

可以看到,訓(xùn)練后的權(quán)重矩陣W的每一行,即對(duì)應(yīng)我們訓(xùn)練輸入及輸出詞的詞向量。另,詞向量不是一般的模型訓(xùn)練任務(wù),二十為了完成任務(wù)產(chǎn)生的附屬品。

隱層到輸出層:隱層神經(jīng)元會(huì)將接受到的(v-1)個(gè)word編碼取平均,然后繼續(xù)往后傳輸。

Skip-gram

它的做法,將一個(gè)詞所在上下文中的詞作為輸出,而那個(gè)詞本身作為輸入,但其核心思想還是一樣的。

word->vector,最后我們得到的結(jié)果是,每個(gè)詞都會(huì)有一個(gè)實(shí)屬向量。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容