用戶搜索一個關鍵詞,搜索引擎馬上找到相關的網(wǎng)頁給用戶。這個過程要怎么實現(xiàn)呢?
首先搜索引擎要盡可能多的把互聯(lián)網(wǎng)上的網(wǎng)頁搜集下來,這樣能提供大量的網(wǎng)頁給用戶查詢。這一部分由爬蟲來解決,順著互聯(lián)網(wǎng)上的鏈接一個個往下抓取。最后就有了一堆記錄著網(wǎng)頁各種信息的資料庫。目前的現(xiàn)狀,最后能使這個資料庫里有大概100多億個網(wǎng)頁。資料庫里記錄了這些網(wǎng)頁的URL,整個網(wǎng)頁的HTML代碼,網(wǎng)頁標題等等信息。
然后,搜索引擎拿到用戶輸入的這個關鍵詞后,要從這個資料庫里把相關的網(wǎng)頁找出來給用戶。
1.搜索引擎如何找到匹配的網(wǎng)頁呢?
建立一份索引庫

搜索引擎查找網(wǎng)頁流程
2.索引庫的分類方式:詞語/分詞

搜索引擎的索引庫
3.搜索引擎處理過程

搜索引擎處理過程