李亞濤:搜索引擎工作流程

搜索引擎工作流程大概會涉及以下幾個部分:

1、信息爬蟲(蜘蛛)

2、內(nèi)容處理

3、分詞

4、去重

5、索引

6、內(nèi)容相關(guān)性

7、鏈接分析

8、判斷頁面用戶體驗

9、反作弊

10、人工干預(yù)

11、緩存機制

12、用戶需求分析

搜索引擎工作原理圖如下:


搜索引擎原理整體分為三步:網(wǎng)頁收集、預(yù)處理、查詢服務(wù)

一、網(wǎng)頁收集與預(yù)處理的流程大致如下:

第1步: 搜索引擎派出爬蟲(spider蜘蛛),按照一樣的策略把網(wǎng)頁抓回到服務(wù)器

第2步:對抓取回來的網(wǎng)頁進行鏈接抽離、內(nèi)容處理、消除噪音版塊、提取網(wǎng)頁主題文本內(nèi)容等

第3步:對網(wǎng)頁文本內(nèi)容進行中文分詞、去除停止詞(無意義的詞,如的,啊,哦,是)

第4步:對網(wǎng)頁內(nèi)容進行分詞后判斷該頁面內(nèi)容與已索引網(wǎng)頁是否重復(fù),剔除重復(fù)頁面,對剩余的網(wǎng)頁進行倒排索引,然后等待用戶的查詢

二、當(dāng)用戶查詢后,搜索引擎的工作流程大致如下:

第1步:先對用戶所查詢的關(guān)鍵詞進行分詞處理,然后根據(jù)用戶的地理位置和歷史搜索特征進行用戶需求分析,然后個性化的展示用戶最需要的信息

第2步:查詢緩存中是否有該關(guān)鍵詞的查詢結(jié)果,如查有直接呈現(xiàn)查詢結(jié)果,有時根據(jù)實際情況搜索引擎也會對緩存中的結(jié)果進行微調(diào)

第3步:如果用戶查詢的關(guān)鍵詞在緩存中不存在,那就在索引庫中的網(wǎng)頁進行調(diào)取排名呈現(xiàn)給用戶,并且將關(guān)鍵詞與對應(yīng)的搜索結(jié)果加入到緩存中,這樣用戶第2次搜索就直接調(diào)取緩存中的數(shù)據(jù),效率更高

第4步:網(wǎng)頁不僅是對索引庫中的網(wǎng)頁進行相關(guān)性、重要性進行排序,還有一個用戶體驗數(shù)據(jù),也就是用戶搜索后的點擊和其他一些搜索操作,反過來也會影響到網(wǎng)頁的排名

好了,今天就分享到這里

我是李亞濤,每天更新一篇原創(chuàng)文章,有1人看了有收獲我就會非常開心!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容