最近在做nlp 相關(guān)的事情,分詞,過濾,詞頻統(tǒng)計需要做一些工程,這些其實和es 的分析器做類似的事情,調(diào)研es 看是否能減少工作量。
es 的 termvector api 可提供查詢文檔各field 的分詞明細(xì) 和 在整個庫里的統(tǒng)計信息,但是無法提供全量的統(tǒng)計信息,這類接口提供查詢特定文檔下各詞的信息。
如果需要反向查 詞對應(yīng)的 文檔信息應(yīng)該使用search 接口, 可以通過接口返回所有詞的詞頻結(jié)果。
分詞可以提供自定義的分詞器,或者分好詞后入庫用空格處理。