solr和elasticsearch選型
solr與Elasticsearch對比:
http://solr-vs-elasticsearch.com/
http://stackoverflow.com/questions/10213009/solr-vs-elasticsearch
數(shù)據(jù)采集爬蟲系統(tǒng)
語言選擇
Python 提取速度快,性能較好
Java 優(yōu)點是目前開發(fā)人員比較熟悉,缺點是語言比較重,數(shù)據(jù)計算量大時系統(tǒng)開銷會比較大。
PHP 各種功能模塊齊全,但并發(fā)處理能力較弱
成熟的爬蟲框架
抓取目標
電商網站 商品圖片 商品名稱 商品價格
搜索系統(tǒng)的商品數(shù)據(jù)獲取方式
傳統(tǒng)方式? 接收商品系統(tǒng)推送的商品消息,創(chuàng)建索引
爬蟲? 初始化數(shù)據(jù),后續(xù)如果商品系統(tǒng)接入API,可以考慮實現(xiàn)傳統(tǒng)方式接入。避免重度依賴商品系統(tǒng)??梢韵刃小?/p>
搜索引擎消息隊列
rabbitMQ
分詞詞庫的創(chuàng)建
英文以空格分詞
若有特殊需求,考慮使用開源分詞(rake等)或者自己編寫分詞器
日志(查詢日志、點擊日志)收集、展示、分析
Kibana和logstash
搜索聯(lián)想
solr suggester:https://wiki.apache.org/solr/Suggester
Elasticsearchsuggests:https://www.elastic.co/guide/en/elasticsearch/reference/current/search-suggesters.html#search-suggesters
數(shù)據(jù)指標:準確率、召回率