分詞與索引庫-國平

用戶搜索一個關鍵詞,搜索引擎馬上找到相關的網(wǎng)頁給用戶。這個過程要怎么實現(xiàn)呢?
首先搜索引擎要盡可能多的把互聯(lián)網(wǎng)上的網(wǎng)頁搜集下來,這樣能提供大量的網(wǎng)頁給用戶查詢。這一部分由爬蟲來解決,順著互聯(lián)網(wǎng)上的鏈接一個個往下抓取。最后就有了一堆記錄著網(wǎng)頁各種信息的資料庫。目前的現(xiàn)狀,最后能使這個資料庫里有大概100多億個網(wǎng)頁。資料庫里記錄了這些網(wǎng)頁的URL,整個網(wǎng)頁的HTML代碼,網(wǎng)頁標題等等信息。
然后,搜索引擎拿到用戶輸入的這個關鍵詞后,要從這個資料庫里把相關的網(wǎng)頁找出來給用戶。

1.搜索引擎如何找到匹配的網(wǎng)頁呢?

建立一份索引庫

搜索引擎查找網(wǎng)頁流程

2.索引庫的分類方式:詞語/分詞

搜索引擎的索引庫

3.搜索引擎處理過程

搜索引擎處理過程

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容