那么如何將字詞轉(zhuǎn)化為數(shù)據(jù)呢,在剛開始時(shí)人們采用的是one-hot 向量
什么是one-hot向量
(例子介紹)
one-hot向量的缺點(diǎn)
這個(gè)時(shí)候人們想到了,相似意義的字詞在一個(gè)足夠大的文章中,所在的上下文位置往往是一樣的:
中國的首都是北京
美國的首都是華盛頓
美國的首府是華盛頓
那么基于這種上下文信息能否挖掘到字詞的數(shù)據(jù)化表示呢,答案肯定是可以的
谷歌的研究員在2013年先后提出了word2vec模型用來獲取詞向量,也叫詞嵌入,就是把字詞嵌入進(jìn)向量空間中,在向量空間中我們至少可以看出,有相同含義的字詞在向量空間中的位置是非常接近的。而且他們甚至可以做加減法
(case 1:向量空間)
(case 2:queen=king-man+woman)
1.所有這些不同的單詞都有一條直的紅色列。 它們在這個(gè)維度上是相似的(雖然我們不知道每個(gè)維度是什么)
2.你可以看到“woman”和“girl”在很多地方是相似的,“man”和“boy”也是一樣
3.“boy”和“girl”也有彼此相似的地方,但這些地方卻與“woman”或“man”不同。這些是否可以總結(jié)出一個(gè)模糊的“youth”概念?可能吧。
4.除了最后一個(gè)單詞,所有單詞都是代表人。 我添加了一個(gè)對象“water”來顯示類別之間的差異。你可以看到藍(lán)色列一直向下并在 “water”的詞嵌入之前停下了。
5.“king”和“queen”彼此之間相似,但它們與其它單詞都不同。這些是否可以總結(jié)出一個(gè)模糊的“royalty”概念?
那么這種數(shù)據(jù)是如何獲得的呢?在word2vec中有兩種方法,一種是cbow(連續(xù)詞袋模型),另一種是skip-gram(跳字模型)
外文作者的內(nèi)容(這部分有點(diǎn)和ann-手寫數(shù)字識(shí)別重復(fù)了,包括訓(xùn)練方法和過程)