https://github.com/medcl/elasticsearch-rtf
這是國內(nèi)大神擴(kuò)的es的發(fā)行版本,目前是5.1.1,目前看來是不需要安裝中文分詞,但好像ik也不難安裝。當(dāng)然有個(gè)過程。然后官方的一堆插件,其實(shí)沒太看懂。當(dāng)然可以不用。
【中文分詞】https://github.com/medcl/elasticsearch-analysis-ik
直接解壓到es/plugins/ik里就行。目前版本是5.4.2(發(fā)現(xiàn)RTF也是他搞的,呵呵,那怎么版本不同步)
【dev tool】kibana下載直接啟動(dòng)即可,也是官方的。
【索引可視化查詢】https://github.com/mobz/elasticsearch-head,這個(gè)也是下載,進(jìn)入目錄,但是基于node.js的
需要npm install/npm run start,那就是也需要node.js的運(yùn)行環(huán)境,呵呵。
start后運(yùn)行在localhost:9100端口。其實(shí)這是一個(gè)獨(dú)立服務(wù)器,可以遠(yuǎn)程連接
在es的config/*.yml文件下添加這兩行即可。教程中后面的兩句本來就是默認(rèn)了。(https://my.oschina.net/kittyMan/blog/387512?p=1)
http.cors.enabled: true
http.cors.allow-origin: "*"
【kibana也是可視化,怎么變成一個(gè)dev tools?】這個(gè)也是下載開箱即可。但怎么只有x86的版本。
測了一下中文分詞沒有問題。
GET _analyze
{
"analyzer": "ik_max_word"
, "text": "批處理調(diào)用多個(gè)批處理文件_百度知道"
}
https://github.com/elastic/elasticsearch-dsl-py
這也是個(gè)神器啊,可以從dsl中解放出來。
pip install elasticsearch-dsl,直接安裝。
==================================================
不要因?yàn)槁愤h(yuǎn),就忘了為何出發(fā)。
讓機(jī)器理解NLP去理解這個(gè)世界,提升效率。
首先中文最大的根源問題,就是分詞。jieba沒有去停止詞的功能,不應(yīng)該呀,它的詞庫里有stopwords-list吧。先不管了,網(wǎng)上找了一份。效果還行。
http://blog.csdn.net/u010533386/article/details/51458591
分詞之后,要做機(jī)器學(xué)習(xí),肯定需要把文檔變成詞向量。詞袋模式,不考慮位置關(guān)系,肯定是落后的。用當(dāng)下比較流行的word2vec。
國內(nèi)一些語料庫不太靠譜,要不下載不了,要不讀不了。莫名其炒的問題。用wiki吧。中英文都有。主要是有成熟的方案。