day24 6.23

https://github.com/medcl/elasticsearch-rtf
這是國內(nèi)大神擴(kuò)的es的發(fā)行版本,目前是5.1.1,目前看來是不需要安裝中文分詞,但好像ik也不難安裝。當(dāng)然有個(gè)過程。然后官方的一堆插件,其實(shí)沒太看懂。當(dāng)然可以不用。

【中文分詞】https://github.com/medcl/elasticsearch-analysis-ik

直接解壓到es/plugins/ik里就行。目前版本是5.4.2(發(fā)現(xiàn)RTF也是他搞的,呵呵,那怎么版本不同步)

【dev tool】kibana下載直接啟動(dòng)即可,也是官方的。

【索引可視化查詢】https://github.com/mobz/elasticsearch-head,這個(gè)也是下載,進(jìn)入目錄,但是基于node.js的

需要npm install/npm run start,那就是也需要node.js的運(yùn)行環(huán)境,呵呵。

start后運(yùn)行在localhost:9100端口。其實(shí)這是一個(gè)獨(dú)立服務(wù)器,可以遠(yuǎn)程連接

在es的config/*.yml文件下添加這兩行即可。教程中后面的兩句本來就是默認(rèn)了。(https://my.oschina.net/kittyMan/blog/387512?p=1)

http.cors.enabled: true

http.cors.allow-origin: "*"

【kibana也是可視化,怎么變成一個(gè)dev tools?】這個(gè)也是下載開箱即可。但怎么只有x86的版本。

測了一下中文分詞沒有問題。

GET _analyze

{

"analyzer": "ik_max_word"

, "text": "批處理調(diào)用多個(gè)批處理文件_百度知道"

}


https://github.com/elastic/elasticsearch-dsl-py

這也是個(gè)神器啊,可以從dsl中解放出來。

pip install elasticsearch-dsl,直接安裝。

==================================================

不要因?yàn)槁愤h(yuǎn),就忘了為何出發(fā)。

讓機(jī)器理解NLP去理解這個(gè)世界,提升效率。

首先中文最大的根源問題,就是分詞。jieba沒有去停止詞的功能,不應(yīng)該呀,它的詞庫里有stopwords-list吧。先不管了,網(wǎng)上找了一份。效果還行。

http://blog.csdn.net/u010533386/article/details/51458591

分詞之后,要做機(jī)器學(xué)習(xí),肯定需要把文檔變成詞向量。詞袋模式,不考慮位置關(guān)系,肯定是落后的。用當(dāng)下比較流行的word2vec。

國內(nèi)一些語料庫不太靠譜,要不下載不了,要不讀不了。莫名其炒的問題。用wiki吧。中英文都有。主要是有成熟的方案。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容