40、Python快速開發(fā)分布式搜索引擎Scrapy精講—elasticsearch(搜索引擎)倒排索引

百度云搜索,搜各種資料:http://bdy.lqkweb.com

搜網(wǎng)盤,搜各種資料:http://www.swpan.cn

倒排索引

倒排索引源于實際應(yīng)用中需要根據(jù)屬性的值來查找記錄。這種索引表中的每一項都包括一個屬性值和具有該屬性值的各記錄的地址。由于不是由記錄來確定屬性值,而是由屬性值來確定記錄的位置,因而稱為倒排索引(inverted index)。帶有倒排索引的文件我們稱為倒排索引文件,簡稱倒排文件(inverted file)。

倒排索引原理

就是將一句話進行分詞并記錄分詞所存在的文章,當用戶搜索詞時可以直接查找到當前詞所存在的文章

image

倒排索引分詞權(quán)重記錄(詞瓶)

image

分詞權(quán)重記錄,是通過(TF-IDF)來實現(xiàn)的,詳情https://baike.so.com/doc/433640-459181.html

倒排索引待解決的問題

這些問題elasticsearch(搜索引擎)已經(jīng)解決

image
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容