關(guān)于搜索引擎的幾種算法

查一些參考資料,摘錄一些感覺以后會(huì)用到的部分

PageRank

  • 該算法基于“從許多優(yōu)質(zhì)的網(wǎng)頁鏈接過來的網(wǎng)頁,必定還是優(yōu)質(zhì)網(wǎng)頁”的回歸關(guān)系,認(rèn)為從網(wǎng)頁A導(dǎo)向網(wǎng)頁B的鏈接可以看作是頁面A對頁面B的支持投票
  • PageRank是基于對“使用復(fù)雜的算法而得到的鏈接構(gòu)造” 的分析,從而得出的各網(wǎng)頁本身的特性。即通過反向鏈接的數(shù)量和質(zhì)量來確定搜索結(jié)果的排序權(quán)重
  • 優(yōu)點(diǎn):算法可以離線完成,響應(yīng)速度快用戶體驗(yàn)好一點(diǎn)
  • 弊端: 不能避開網(wǎng)頁中的無效鏈接,廣告什么的;舊頁面總是比新頁面rank高

Hilltop

  • 谷歌工程師提出
  • 在<em>通過反向鏈接的數(shù)量和質(zhì)量來確定搜索結(jié)果的排序權(quán)重</em>基礎(chǔ)上主題相關(guān)網(wǎng)頁之間的鏈接對于權(quán)重計(jì)算的貢獻(xiàn)比主題不相關(guān)的鏈接價(jià)值要更高
  • 即先按主題分類,在執(zhí)行pagerank方法,或是給主題,pagerank各分配權(quán)重再rank
  • 優(yōu)點(diǎn):降低時(shí)間復(fù)雜度,可以縮小每次計(jì)算rank的規(guī)模
  • 缺點(diǎn):兩個(gè)頁面互相依賴,互相給高分,會(huì)引起評分的不正常增加。產(chǎn)生垃圾鏈接

Direct Hit

  • 注重信息的質(zhì)量和用戶反饋
    *具體是:搜索引擎將查詢的結(jié)果返回給用戶,并跟蹤用戶在檢索結(jié)果中的點(diǎn)擊。如果返回結(jié)果中排名靠前的網(wǎng)頁被用戶點(diǎn)擊后,瀏覽時(shí)間較短,用戶又重新返回點(diǎn)擊其它的檢索結(jié)果,那么可以認(rèn)為其相關(guān)度較差,系統(tǒng)將降低該網(wǎng)頁的相關(guān)性。另一方面,如果網(wǎng)頁被用戶點(diǎn)擊打開進(jìn)行瀏覽,并且瀏覽的時(shí)間較長,那么該網(wǎng)頁的受歡迎程度就高,相應(yīng)地,系統(tǒng)將增加該網(wǎng)頁的相關(guān)度(動(dòng)態(tài)排序)
  • 優(yōu)點(diǎn):能夠節(jié)省大量時(shí)間,因?yàn)橛脩糸喿x的是從搜索結(jié)果中篩選出來的更加符合要求的結(jié)果。同時(shí),這種算法直接融入用戶的反饋信息,能夠保證頁面的質(zhì)量。
  • 缺點(diǎn):只適合于檢索關(guān)鍵詞較少的情況,因?yàn)樗鼘?shí)際上并沒有進(jìn)行排序,而是一種篩選和抽取,在檢索數(shù)據(jù)庫很大、關(guān)鍵詞很多的時(shí)候,返回的搜索結(jié)果成千上萬,用戶不可能一一審閱(所以可以當(dāng)做輔助排序方法)

參考:bolg1,blog2(沒有摘錄,是阮一峰老師的一個(gè)排名算法介紹)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容