1.搜素引擎的工作原理可以分為哪幾個(gè)階段?
搜索引擎工作原理非常復(fù)雜,大致可以分為3個(gè)階段:爬行與抓取、預(yù)處理、排名
(1)爬行與抓?。ú焕斫猓炔粚懀?br>
(2)預(yù)處理
提取文字(提取關(guān)鍵詞)
中文分詞(記歌詞與組合在一起)
去停止詞(文章出現(xiàn)多次的詞句,刪除對此文章意義沒有任何改變的)
消除噪聲(對頁面沒有貢獻(xiàn)的,沒有意義的,包括版權(quán)、導(dǎo)航條、廣告等)
去重(去掉多余的)
正向索引
倒排索引
鏈接關(guān)系計(jì)算
特殊文件處理
(3)排名
對搜索的請求進(jìn)行分析
文件匹配
初始子集篩選
相關(guān)性計(jì)算
排名過濾及調(diào)整
排名顯示1.搜素引擎的工作原理可以分為哪幾個(gè)階段?
搜索引擎工作原理非常復(fù)雜,大致可以分為3個(gè)階段:爬行與抓取、預(yù)處理、排名
(1)爬行與抓?。ú焕斫猓炔粚懀?br>
(2)預(yù)處理
提取文字(提取關(guān)鍵詞)
中文分詞(記歌詞與組合在一起)
去停止詞(文章出現(xiàn)多次的詞句,刪除對此文章意義沒有任何改變的)
消除噪聲(對頁面沒有貢獻(xiàn)的,沒有意義的,包括版權(quán)、導(dǎo)航條、廣告等)
去重(去掉多余的)
正向索引
倒排索引
鏈接關(guān)系計(jì)算
特殊文件處理
(3)排名
對搜索的請求進(jìn)行分析
文件匹配
初始子集篩選
相關(guān)性計(jì)算
排名過濾及調(diào)整
排名顯示