香港久久三级片,欧美日韩少妇黄

這學期要做軟件工程大作業(yè)，我選的課題是“海量詞庫構建”。前前后后總時間至少兩周吧。不過還是學到了挺多新知識，也踩過許多坑。從中我也意識到了，寫好注釋的重要性。不然以后回頭看自己寫的代碼，又要花時間去理解代碼，效率低下！還有，做好工作日記，方能更好掌握項目進度，以及總結好學過的知識。我寫下這個系列的文章，也算一個總結吧。雖然總結來得有點晚，可能一些學過的知識和踩過的坑忘了。（哦對了，雖然說是軟工大作業(yè)，但是我感覺自己做的跟軟工關系不大啊，哈哈?。?/p>

項目主要有四個模塊：基礎詞庫構建，語料爬取，分詞分類并構建詞庫，監(jiān)控系統(tǒng)。

基礎詞庫的構建：這里選擇的是具有類別標簽的各詞庫。有了這個帶標簽的基礎詞庫，才能解決后面的新詞分類問題。這里，我選擇了搜狗詞庫和清華大學中文詞庫。搜狗詞庫，感覺分類的質量不高，而且有很多重復的詞，所以我手動從中選擇了幾個分類質量好點的類別并去重，插入數(shù)據(jù)庫。清華大學中文詞庫質量還是蠻高的，直接全部插入數(shù)據(jù)庫了。
語料爬?。?爬的是筆趣閣小說網和新華網。爬了 40w+ 小說章節(jié)（3G），17w+ 新聞（1G），共計 4G 語料。（題外話：感覺語料來源不夠豐富，合理的話應該多加兩三個語料來源）
分詞分類并構建詞庫：分詞調用結巴分詞。至于分類，首先用 gensim 里的 Word2vec 訓練語料的詞向量，再用一個簡單的 kNN 進行分類。額，感覺只是簡單地調包而已。哈哈。
監(jiān)控系統(tǒng)：監(jiān)控系統(tǒng)用的 Grafana + Mysql，我之前寫的文章里已經有介紹過了。不過呢，那時候用的是 Docker 里面的 Grafana。里面的 Grafana 好像有小 bug，不能安裝插件，所以我直接不用 Docker 新裝了一個 Grafana。監(jiān)控系統(tǒng)主要監(jiān)控的是語料爬取情況和詞庫構建情況。

后面我會詳細講講各模塊中的知識點，以及一些踩過的坑。最后就上個監(jiān)控系統(tǒng)的圖吧。Grafana 真神器?。?！

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

海量詞庫構建（1）：概覽

海量詞庫構建（1）：概覽

相關閱讀更多精彩內容

友情鏈接更多精彩內容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

海量詞庫構建（1）：概覽

相關閱讀更多精彩內容

友情鏈接更多精彩內容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av