第3節(jié):文本向量化-最初的word2vec

那么如何將字詞轉(zhuǎn)化為數(shù)據(jù)呢,在剛開始時(shí)人們采用的是one-hot 向量

什么是one-hot向量

(例子介紹)

one-hot向量的缺點(diǎn)

這個(gè)時(shí)候人們想到了,相似意義的字詞在一個(gè)足夠大的文章中,所在的上下文位置往往是一樣的:

中國的首都是北京

美國的首都是華盛頓

美國的首府是華盛頓

那么基于這種上下文信息能否挖掘到字詞的數(shù)據(jù)化表示呢,答案肯定是可以的

谷歌的研究員在2013年先后提出了word2vec模型用來獲取詞向量,也叫詞嵌入,就是把字詞嵌入進(jìn)向量空間中,在向量空間中我們至少可以看出,有相同含義的字詞在向量空間中的位置是非常接近的。而且他們甚至可以做加減法

(case 1:向量空間)

(case 2:queen=king-man+woman)

1.所有這些不同的單詞都有一條直的紅色列。 它們在這個(gè)維度上是相似的(雖然我們不知道每個(gè)維度是什么)

2.你可以看到“woman”和“girl”在很多地方是相似的,“man”和“boy”也是一樣

3.“boy”和“girl”也有彼此相似的地方,但這些地方卻與“woman”或“man”不同。這些是否可以總結(jié)出一個(gè)模糊的“youth”概念?可能吧。

4.除了最后一個(gè)單詞,所有單詞都是代表人。 我添加了一個(gè)對象“water”來顯示類別之間的差異。你可以看到藍(lán)色列一直向下并在 “water”的詞嵌入之前停下了。

5.“king”和“queen”彼此之間相似,但它們與其它單詞都不同。這些是否可以總結(jié)出一個(gè)模糊的“royalty”概念?

那么這種數(shù)據(jù)是如何獲得的呢?在word2vec中有兩種方法,一種是cbow(連續(xù)詞袋模型),另一種是skip-gram(跳字模型)

外文作者的內(nèi)容(這部分有點(diǎn)和ann-手寫數(shù)字識(shí)別重復(fù)了,包括訓(xùn)練方法和過程)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
禁止轉(zhuǎn)載,如需轉(zhuǎn)載請通過簡信或評論聯(lián)系作者。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容