2018-12-10 搜索引擎工作原理

搜索引擎的工作原理

首先在互聯(lián)網(wǎng)中發(fā)現(xiàn)、搜集網(wǎng)頁信息;同時對信息進行提取和組織建立索引庫;再由檢索器根據(jù)用戶輸入的查詢關鍵字,在索引庫中快速檢出文檔,進行文檔與查詢的相關度評價,對將要輸出的結果進行排序,并將查詢結果返回給用戶。

抓取

每個獨立的搜索引擎都有自己的網(wǎng)頁抓取程序爬蟲(spider)。爬蟲Spider順著網(wǎng)頁中的超鏈接,從這個網(wǎng)站爬到另一個網(wǎng)站,通過超鏈接分析連續(xù)訪問抓取更多網(wǎng)頁。被抓取的網(wǎng)頁被稱之為網(wǎng)頁快照。

處理網(wǎng)頁

搜索引擎抓到網(wǎng)頁后,還要做大量的預處理工作,才能提供檢索服務。其中,最重要的就是提取關鍵詞,建立索引庫和索引。其他還包括去除重復網(wǎng)頁、分詞(中文)、判斷網(wǎng)頁類型、分析超鏈接、計算網(wǎng)頁的重要度/豐富度等

檢索服務

用戶輸入關鍵詞進行檢索,搜索引擎從索引數(shù)據(jù)庫中找到匹配該關鍵詞的網(wǎng)頁;為了用戶便于判斷,除了網(wǎng)頁標題和URL外,還會提供一段來自網(wǎng)頁的摘要以及其他信息。

問題

爬行和抓取

誰來爬:蜘蛛或者機器人;

怎么爬:超鏈接(廣度優(yōu)先和深度優(yōu)先兩種 ? 廣度優(yōu)先是先抓框架然后順著框架繼續(xù)往下抓取成橫向,深度優(yōu)先是一個一個抓取,一個抓取到底部才還一個欄目直到所有欄目全部抓取完成縱向抓?。?/p>

爬什么:文字如tdk(關鍵詞、標題和描述)、alt(圖片,鼠標放上去顯示的字,替換文本)、文章內容

多長時間爬一次:

取決于你網(wǎng)站的跟新速度,(如果適當?shù)母?,抓取程序會來你的網(wǎng)站抓取新的東西,相當于和它搞好了關系);通過外鏈抓取到你的網(wǎng)站

在哪里爬:網(wǎng)站

預處理

怎么預處理

清理垃圾:清理垃圾網(wǎng)站

文字提?。禾崛∥淖?/p>

消燥:篩選不相關的,和網(wǎng)站排名無關的

去重:去除重復的

正向索引:數(shù)據(jù)庫文件再匹配用戶搜索關鍵詞

倒排索引:關鍵詞匹配數(shù)據(jù)庫文件


最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

友情鏈接更多精彩內容