中文文本語料庫整理(不定時更新2015-10-24).md

聲明:資源全部源自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系我將及時刪除。

最近在網(wǎng)上找語料,多比較雜亂不全,所以這里做一次整理,方便大家。
如果大家手里有可以分享的語料資源,歡迎分享出來,我會一并整理到此文。


2015-10-24 : 初版


中文語料,我把它們分為這樣幾種;

1. 原始語料,比如某某新聞,微博合集,一些未經(jīng)處理的原始語料;

這個是xml格式,包含很多meta

2. 分詞庫(語料),最常見的比如搜狗分詞庫,結(jié)巴詞庫;

這種詞庫比較好找,也比較雜亂,這里我整理了幾個不錯的,在這里:all@百度盤
此處盡量按照『文本組成@詞數(shù)量_出處』格式進(jìn)行文件命名,如下:

分詞詞庫列表

  • 這里比較推薦分詞_頻數(shù)_詞性@35萬_結(jié)巴.txt分詞_拼音@4萬_搜狗.txt兩個詞庫。如果你有一些比如拼音需求,也可以選擇對應(yīng)文本;
  • 需要注意的一點(diǎn)是,有一個分類_分詞@12大類5485文本1127萬_搜狗.20151022.tar.gz文件,這個是搜狗細(xì)胞詞庫所有的詞了,里面包含非常多的各行業(yè)詞匯,如下圖,在針對特定行業(yè)ML時候,這些分詞應(yīng)該是比較有幫助的,特別是帶有【官方推薦】名字的,都非常不錯。
    分類_分詞@12大類5485文本1127萬_搜狗.20151022.tar.gz

3. 詞性標(biāo)注庫(語料),比如98年人民日報(bào)詞性標(biāo)注庫@百度盤;

此處盡量按照『詞性標(biāo)注@行數(shù)量_出處』格式進(jìn)行文件命名。
相較于上面兩種語料,此語料人工標(biāo)注成本太高,所以也比較少。目前我也只有98年人民日報(bào)詞性標(biāo)注庫。不過網(wǎng)上說人民日報(bào)2014年詞性標(biāo)注庫也已經(jīng)有了,但是需要授權(quán),我也沒拿到。


98年人民日報(bào)詞性標(biāo)注庫

需要說明的幾點(diǎn):

  • 除了維基中文dump(比較大)是在他們服務(wù)器上,其他我都整理在了我的百度盤上了,大家自行使用。
  • 對于分類1中的語料庫,大家可以嘗試從數(shù)據(jù)堂找到更多資源。

我的中文文本語料庫百度盤:http://pan.baidu.com/s/1gdJJ1FP


update:

另:博主建了一個NLP的QQ群,希望有興趣的朋友加入,群號: 451175756

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容