word2vec詞向量訓(xùn)練及使用前的總體概述

這里做一個概述,主要介紹我遇到過得坑~

1.關(guān)于平臺

首先我想說的是平臺,也就是windows和linux。我之前自己電腦一直是windows,裝tensorflow和其他一些工具也喜歡極力尋找windows的安裝和解決辦法,總是認(rèn)為windows比較容易使用,并且認(rèn)為任何東西都可以找到windows的解決辦法,事實(shí)上不是這樣,也很沒有必要。

我想說的是windows越到后面越來越體現(xiàn)出他的坑,開始使用linux會發(fā)現(xiàn),世界如此簡單。

所以關(guān)于word2vec詞向量的訓(xùn)練方面我也沒有考慮windows,倒是在網(wǎng)上有幾篇文章可供參考。

linux下訓(xùn)練是非常極其相當(dāng)簡單的。

2.關(guān)于兩種幾種語言的訓(xùn)練方法

word2vec有好幾種語言的版本,官方應(yīng)該是C和C++,但是這個東西移植太簡單了,所以也不必在意。

但是我遇到的問題是:

使用C語言版訓(xùn)練的詞向量,在python中無法使用,無論是二進(jìn)制文件還是txt文件

所以,我用了gensim也就是python版的訓(xùn)練,可以使用

3.關(guān)于中文

順序大概就是:選擇語料庫->分詞->訓(xùn)練

當(dāng)然分詞當(dāng)中還有一些操作,比如去重用,去標(biāo)點(diǎn)符號,添加自定義詞等等。

下面開始記錄我訓(xùn)練的過程。


最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容