聲明:資源全部源自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系我將及時刪除。
最近在網(wǎng)上找語料,多比較雜亂不全,所以這里做一次整理,方便大家。
如果大家手里有可以分享的語料資源,歡迎分享出來,我會一并整理到此文。
2015-10-24 : 初版
中文語料,我把它們分為這樣幾種;
1. 原始語料,比如某某新聞,微博合集,一些未經(jīng)處理的原始語料;
這個是xml格式,包含很多meta
2. 分詞庫(語料),最常見的比如搜狗分詞庫,結(jié)巴詞庫;
這種詞庫比較好找,也比較雜亂,這里我整理了幾個不錯的,在這里:all@百度盤
此處盡量按照『文本組成@詞數(shù)量_出處』格式進(jìn)行文件命名,如下:
分詞詞庫列表
- 這里比較推薦
分詞_頻數(shù)_詞性@35萬_結(jié)巴.txt和分詞_拼音@4萬_搜狗.txt兩個詞庫。如果你有一些比如拼音需求,也可以選擇對應(yīng)文本;- 需要注意的一點(diǎn)是,有一個
分類_分詞@12大類5485文本1127萬_搜狗.20151022.tar.gz文件,這個是搜狗細(xì)胞詞庫所有的詞了,里面包含非常多的各行業(yè)詞匯,如下圖,在針對特定行業(yè)ML時候,這些分詞應(yīng)該是比較有幫助的,特別是帶有【官方推薦】名字的,都非常不錯。
分類_分詞@12大類5485文本1127萬_搜狗.20151022.tar.gz
3. 詞性標(biāo)注庫(語料),比如98年人民日報(bào)詞性標(biāo)注庫@百度盤;
此處盡量按照『詞性標(biāo)注@行數(shù)量_出處』格式進(jìn)行文件命名。
相較于上面兩種語料,此語料人工標(biāo)注成本太高,所以也比較少。目前我也只有98年人民日報(bào)詞性標(biāo)注庫。不過網(wǎng)上說人民日報(bào)2014年詞性標(biāo)注庫也已經(jīng)有了,但是需要授權(quán),我也沒拿到。
98年人民日報(bào)詞性標(biāo)注庫
需要說明的幾點(diǎn):
- 除了維基中文dump(比較大)是在他們服務(wù)器上,其他我都整理在了我的百度盤上了,大家自行使用。
- 對于分類1中的語料庫,大家可以嘗試從數(shù)據(jù)堂找到更多資源。
我的中文文本語料庫百度盤:http://pan.baidu.com/s/1gdJJ1FP
update:
- 保險(xiǎn)行業(yè)語料庫 (by@3a33c371b8c4)
另:博主建了一個NLP的QQ群,希望有興趣的朋友加入,群號: 451175756



