搜索引擎工作流程大概會涉及以下幾個部分:
1、信息爬蟲(蜘蛛)
2、內(nèi)容處理
3、分詞
4、去重
5、索引
6、內(nèi)容相關(guān)性
7、鏈接分析
8、判斷頁面用戶體驗
9、反作弊
10、人工干預(yù)
11、緩存機制
12、用戶需求分析
搜索引擎工作原理圖如下:
搜索引擎原理整體分為三步:網(wǎng)頁收集、預(yù)處理、查詢服務(wù)
一、網(wǎng)頁收集與預(yù)處理的流程大致如下:
第1步: 搜索引擎派出爬蟲(spider蜘蛛),按照一樣的策略把網(wǎng)頁抓回到服務(wù)器
第2步:對抓取回來的網(wǎng)頁進行鏈接抽離、內(nèi)容處理、消除噪音版塊、提取網(wǎng)頁主題文本內(nèi)容等
第3步:對網(wǎng)頁文本內(nèi)容進行中文分詞、去除停止詞(無意義的詞,如的,啊,哦,是)
第4步:對網(wǎng)頁內(nèi)容進行分詞后判斷該頁面內(nèi)容與已索引網(wǎng)頁是否重復(fù),剔除重復(fù)頁面,對剩余的網(wǎng)頁進行倒排索引,然后等待用戶的查詢
二、當(dāng)用戶查詢后,搜索引擎的工作流程大致如下:
第1步:先對用戶所查詢的關(guān)鍵詞進行分詞處理,然后根據(jù)用戶的地理位置和歷史搜索特征進行用戶需求分析,然后個性化的展示用戶最需要的信息
第2步:查詢緩存中是否有該關(guān)鍵詞的查詢結(jié)果,如查有直接呈現(xiàn)查詢結(jié)果,有時根據(jù)實際情況搜索引擎也會對緩存中的結(jié)果進行微調(diào)
第3步:如果用戶查詢的關(guān)鍵詞在緩存中不存在,那就在索引庫中的網(wǎng)頁進行調(diào)取排名呈現(xiàn)給用戶,并且將關(guān)鍵詞與對應(yīng)的搜索結(jié)果加入到緩存中,這樣用戶第2次搜索就直接調(diào)取緩存中的數(shù)據(jù),效率更高
第4步:網(wǎng)頁不僅是對索引庫中的網(wǎng)頁進行相關(guān)性、重要性進行排序,還有一個用戶體驗數(shù)據(jù),也就是用戶搜索后的點擊和其他一些搜索操作,反過來也會影響到網(wǎng)頁的排名
好了,今天就分享到這里
我是李亞濤,每天更新一篇原創(chuàng)文章,有1人看了有收獲我就會非常開心!