上學(xué)期讀了有關(guān)word2vec的兩篇paper之后，不是很明白，這學(xué)期重新花時間再讀，并且根據(jù)這兩篇paper進(jìn)行一個詞向量相關(guān)的實(shí)驗(yàn)，選來選去，發(fā)現(xiàn)網(wǎng)上有大神就wiki中英文語料庫進(jìn)行訓(xùn)練，鑒于渣渣水平，于是就選擇了訓(xùn)練使用詞向量來訓(xùn)練wiki中英文語料庫。

整個過程參考：“我愛自然語言處理”：www.52nlp.cn

準(zhǔn)備工作

為了訓(xùn)練語料庫，當(dāng)然需要去下載。英文wiki語料庫（11.9G)?中文wiki語料庫(1.2G)

然后就是準(zhǔn)備好編譯環(huán)境，語言選擇的是python，使用了gensim的庫，該庫是由Radim ?eh??ek博士基于google發(fā)布的C語言版本的word2vec編寫的Python庫。如何安裝該庫就不多說了。

處理流程

1、英文wiki訓(xùn)練

首先需要將xml的文件轉(zhuǎn)換成txt文件，主要通過process_wiki.py這個腳本來進(jìn)行，在參考文考網(wǎng)頁中提出了注意“wiki = WikiCorpus(inp, lemmatize=False, dictionary={})"將lemmatize設(shè)置為False避免使用Pattern來講英文單詞詞干化處理，以免變得很慢，于是就華麗麗的接受。整個過程大概用了5個小時左右，共有差不多400W的articles。

執(zhí)行命令為：python3 process_wiki.py enwiki-latest-pages-articles.xml.bz2 wiki.en.text

生成了wiki.en.text，生成的效果如下：

wiki.en.text效果圖

接下來就是拿wiki.en.text的文本進(jìn)行詞向量的調(diào)用處理，通過train_word2vec_model.py的腳本對該文件進(jìn)行處理。

執(zhí)行的命令為：

python3 train_word2vec_model.py wiki.en.text wiki.en.text.model wiki.en.text.vector.?

同樣采取參考blog的方式，保存了vector方便debug。訓(xùn)練了大概8個小時左右，之后在ipython中對已經(jīng)訓(xùn)練好的model進(jìn)行調(diào)試，調(diào)試如下：

英文wiki結(jié)果圖(一)

英文wiki結(jié)果圖(二)

在這里調(diào)試的時候并沒有遇到參考blog中說到得問題，這里具體原因是什么,還是需要討論。但是可以看出效果其實(shí)不怎么好，以后有機(jī)會會使用word2vec的C版本進(jìn)行試驗(yàn)。當(dāng)然，這里可以使用model的其他函數(shù)進(jìn)行調(diào)試，具體可以看gensim的文檔進(jìn)行查看。

2、中文wiki訓(xùn)練

同樣地和英文一樣，使用process_wiki.py 進(jìn)行腳本處理，處理了10分鐘，執(zhí)行命令為：

python3 process_wiki.py zhwiki-latest-pages-articles.xml.bz2 wiki.cn.text

處理得到的效果如下：

wiki.cn.text效果圖

咦，全是繁體字，那么由于某種原因，wiki中文版本都是繁體字的語料，而且可以看出有一些英文，還有一些其他字符，而且還需要對中文進(jìn)行分詞，這些都是需要處理的部分。那么我們一步一步的來。

1）繁體轉(zhuǎn)簡體

繁體轉(zhuǎn)成簡體，通過blog得知了一種叫opencc的工具:OpenCC（github地址）

由于是OS X的系統(tǒng)，參見安裝說明，但是發(fā)現(xiàn)并沒有安裝brew，于是又去安裝brew，興致沖沖的點(diǎn)進(jìn)homebrew安裝，結(jié)果發(fā)現(xiàn)主頁無法進(jìn)去，無奈又開始尋找解決方法，百度之。百度排名第一的英文界面貌似可以解決。

百度brew效果圖

然而點(diǎn)進(jìn)去，依然無法找到網(wǎng)頁，于是機(jī)智的我點(diǎn)了百度快照。

安裝brew代碼

接下來就是一路安裝，完成OpenCC的安裝后。

執(zhí)行命令：opencc -i wiki.cn.text -o wiki.cn.text.jian -c t2s.json

2）分詞

中文不像英文一樣，天生自帶空格，于是就有了中文分詞，在python中中文分詞做的比較好的庫是jieba分詞庫jieba（github地址）

通過代碼庫的實(shí)例，于是寫了分詞腳本seperate_words.py.

執(zhí)行命令：python3 separate_words.py wiki.cn.text.jian wiki.cn.text.jian.seq?

得到了分好詞的文件

3）去除多余的其他字符

最后通過python中自帶的re庫，使用正則表達(dá)式將其他字符去除，代碼在remove_words.py

執(zhí)行命令：python3 separate_words.py?wiki.cn.text.jian.seq wiki.cn.text.jian.removed

之后就和英文分詞一樣，通過train_word2vec_model.py 進(jìn)行處理

執(zhí)行命令：python3 train_word2vec_model.py wiki.cn.text.jian.removed wiki.en.text.jian.model wiki.en.text.jian.vector.

最后測試一下運(yùn)行的效果：

中文wiki結(jié)果圖（一）

中文wiki結(jié)果圖（二）

中文wiki效果圖（三）

代碼：word2vec-for-wiki

----

代碼已經(jīng)進(jìn)行了review，在python3的情況下，存在bytes和str不兼容的問題已經(jīng)解決了，另外將所有py文件全部放入一個文件中不同函數(shù)，在main()函數(shù)中也已經(jīng)進(jìn)行了各種處理的demo。由于gensim版本變化快，所以在載入model的時候可以參考最新gensim的api。

個人公眾號，分享一下所思所想

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

使用 word2vec 訓(xùn)練wiki中英文語料庫

使用 word2vec 訓(xùn)練wiki中英文語料庫

準(zhǔn)備工作

處理流程

1、英文wiki訓(xùn)練

2、中文wiki訓(xùn)練

1）繁體轉(zhuǎn)簡體

3）去除多余的其他字符

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

使用 word2vec 訓(xùn)練wiki中英文語料庫

準(zhǔn)備工作

處理流程

1、英文wiki訓(xùn)練

2、中文wiki訓(xùn)練

1）繁體轉(zhuǎn)簡體

3）去除多余的其他字符

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

1、英文wiki訓(xùn)練

2、中文wiki訓(xùn)練