這里做一個概述,主要介紹我遇到過得坑~
1.關(guān)于平臺
首先我想說的是平臺,也就是windows和linux。我之前自己電腦一直是windows,裝tensorflow和其他一些工具也喜歡極力尋找windows的安裝和解決辦法,總是認(rèn)為windows比較容易使用,并且認(rèn)為任何東西都可以找到windows的解決辦法,事實(shí)上不是這樣,也很沒有必要。
我想說的是windows越到后面越來越體現(xiàn)出他的坑,開始使用linux會發(fā)現(xiàn),世界如此簡單。
所以關(guān)于word2vec詞向量的訓(xùn)練方面我也沒有考慮windows,倒是在網(wǎng)上有幾篇文章可供參考。
linux下訓(xùn)練是非常極其相當(dāng)簡單的。
2.關(guān)于兩種幾種語言的訓(xùn)練方法
word2vec有好幾種語言的版本,官方應(yīng)該是C和C++,但是這個東西移植太簡單了,所以也不必在意。
但是我遇到的問題是:
使用C語言版訓(xùn)練的詞向量,在python中無法使用,無論是二進(jìn)制文件還是txt文件
所以,我用了gensim也就是python版的訓(xùn)練,可以使用
3.關(guān)于中文
順序大概就是:選擇語料庫->分詞->訓(xùn)練
當(dāng)然分詞當(dāng)中還有一些操作,比如去重用,去標(biāo)點(diǎn)符號,添加自定義詞等等。
下面開始記錄我訓(xùn)練的過程。