ES 詞頻工具調(diào)研

最近在做nlp 相關(guān)的事情,分詞,過濾,詞頻統(tǒng)計需要做一些工程,這些其實和es 的分析器做類似的事情,調(diào)研es 看是否能減少工作量。

es 的 termvector api 可提供查詢文檔各field 的分詞明細(xì) 和 在整個庫里的統(tǒng)計信息,但是無法提供全量的統(tǒng)計信息,這類接口提供查詢特定文檔下各詞的信息。

如果需要反向查 詞對應(yīng)的 文檔信息應(yīng)該使用search 接口, 可以通過接口返回所有詞的詞頻結(jié)果。

分詞可以提供自定義的分詞器,或者分好詞后入庫用空格處理。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容