海量詞庫構建(1):概覽

這學期要做軟件工程大作業(yè),我選的課題是“海量詞庫構建”。前前后后總時間至少兩周吧。不過還是學到了挺多新知識,也踩過許多坑。從中我也意識到了,寫好注釋的重要性。不然以后回頭看自己寫的代碼,又要花時間去理解代碼,效率低下!還有,做好工作日記,方能更好掌握項目進度,以及總結好學過的知識。我寫下這個系列的文章,也算一個總結吧。雖然總結來得有點晚,可能一些學過的知識和踩過的坑忘了。(哦對了,雖然說是軟工大作業(yè),但是我感覺自己做的跟軟工關系不大啊,哈哈?。?/p>

項目主要有四個模塊:基礎詞庫構建,語料爬取,分詞分類并構建詞庫,監(jiān)控系統(tǒng)。

  1. 基礎詞庫的構建:這里選擇的是具有類別標簽的各詞庫。有了這個帶標簽的基礎詞庫,才能解決后面的新詞分類問題。這里,我選擇了搜狗詞庫清華大學中文詞庫。搜狗詞庫,感覺分類的質量不高,而且有很多重復的詞,所以我手動從中選擇了幾個分類質量好點的類別并去重,插入數(shù)據(jù)庫。清華大學中文詞庫質量還是蠻高的,直接全部插入數(shù)據(jù)庫了。

  2. 語料爬?。?爬的是筆趣閣小說網新華網。爬了 40w+ 小說章節(jié)(3G),17w+ 新聞(1G),共計 4G 語料。(題外話:感覺語料來源不夠豐富,合理的話應該多加兩三個語料來源)

  3. 分詞分類并構建詞庫:分詞調用結巴分詞。至于分類,首先用 gensim 里的 Word2vec 訓練語料的詞向量,再用一個簡單的 kNN 進行分類。額,感覺只是簡單地調包而已。哈哈。

  4. 監(jiān)控系統(tǒng):監(jiān)控系統(tǒng)用的 Grafana + Mysql,我之前寫的文章里已經有介紹過了。不過呢,那時候用的是 Docker 里面的 Grafana。里面的 Grafana 好像有小 bug,不能安裝插件,所以我直接不用 Docker 新裝了一個 Grafana。監(jiān)控系統(tǒng)主要監(jiān)控的是語料爬取情況和詞庫構建情況。

后面我會詳細講講各模塊中的知識點,以及一些踩過的坑。最后就上個監(jiān)控系統(tǒng)的圖吧。Grafana 真神器?。?!

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容