搜索系統(tǒng) 搭建

solr和elasticsearch選型

solr與Elasticsearch對比:

http://solr-vs-elasticsearch.com/

http://stackoverflow.com/questions/10213009/solr-vs-elasticsearch

數(shù)據(jù)采集爬蟲系統(tǒng)

語言選擇

Python 提取速度快,性能較好

Java 優(yōu)點是目前開發(fā)人員比較熟悉,缺點是語言比較重,數(shù)據(jù)計算量大時系統(tǒng)開銷會比較大。

PHP 各種功能模塊齊全,但并發(fā)處理能力較弱

成熟的爬蟲框架

抓取目標

電商網站 商品圖片 商品名稱 商品價格

搜索系統(tǒng)的商品數(shù)據(jù)獲取方式

傳統(tǒng)方式? 接收商品系統(tǒng)推送的商品消息,創(chuàng)建索引

爬蟲? 初始化數(shù)據(jù),后續(xù)如果商品系統(tǒng)接入API,可以考慮實現(xiàn)傳統(tǒng)方式接入。避免重度依賴商品系統(tǒng)??梢韵刃小?/p>

搜索引擎消息隊列

rabbitMQ

分詞詞庫的創(chuàng)建

英文以空格分詞

若有特殊需求,考慮使用開源分詞(rake等)或者自己編寫分詞器

日志(查詢日志、點擊日志)收集、展示、分析

Kibana和logstash

搜索聯(lián)想

solr suggester:https://wiki.apache.org/solr/Suggester

Elasticsearchsuggests:https://www.elastic.co/guide/en/elasticsearch/reference/current/search-suggesters.html#search-suggesters

數(shù)據(jù)指標:準確率、召回率

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容