查一些參考資料,摘錄一些感覺以后會(huì)用到的部分
PageRank
- 該算法基于“從許多優(yōu)質(zhì)的網(wǎng)頁鏈接過來的網(wǎng)頁,必定還是優(yōu)質(zhì)網(wǎng)頁”的回歸關(guān)系,認(rèn)為從網(wǎng)頁A導(dǎo)向網(wǎng)頁B的鏈接可以看作是頁面A對頁面B的支持投票
- PageRank是基于對“使用復(fù)雜的算法而得到的鏈接構(gòu)造” 的分析,從而得出的各網(wǎng)頁本身的特性。即通過反向鏈接的數(shù)量和質(zhì)量來確定搜索結(jié)果的排序權(quán)重
- 優(yōu)點(diǎn):算法可以離線完成,響應(yīng)速度快用戶體驗(yàn)好一點(diǎn)
- 弊端: 不能避開網(wǎng)頁中的無效鏈接,廣告什么的;舊頁面總是比新頁面rank高
Hilltop
- 谷歌工程師提出
- 在<em>通過反向鏈接的數(shù)量和質(zhì)量來確定搜索結(jié)果的排序權(quán)重</em>基礎(chǔ)上主題相關(guān)網(wǎng)頁之間的鏈接對于權(quán)重計(jì)算的貢獻(xiàn)比主題不相關(guān)的鏈接價(jià)值要更高
- 即先按主題分類,在執(zhí)行pagerank方法,或是給主題,pagerank各分配權(quán)重再rank
- 優(yōu)點(diǎn):降低時(shí)間復(fù)雜度,可以縮小每次計(jì)算rank的規(guī)模
- 缺點(diǎn):兩個(gè)頁面互相依賴,互相給高分,會(huì)引起評分的不正常增加。產(chǎn)生垃圾鏈接
Direct Hit
- 注重信息的質(zhì)量和用戶反饋
*具體是:搜索引擎將查詢的結(jié)果返回給用戶,并跟蹤用戶在檢索結(jié)果中的點(diǎn)擊。如果返回結(jié)果中排名靠前的網(wǎng)頁被用戶點(diǎn)擊后,瀏覽時(shí)間較短,用戶又重新返回點(diǎn)擊其它的檢索結(jié)果,那么可以認(rèn)為其相關(guān)度較差,系統(tǒng)將降低該網(wǎng)頁的相關(guān)性。另一方面,如果網(wǎng)頁被用戶點(diǎn)擊打開進(jìn)行瀏覽,并且瀏覽的時(shí)間較長,那么該網(wǎng)頁的受歡迎程度就高,相應(yīng)地,系統(tǒng)將增加該網(wǎng)頁的相關(guān)度(動(dòng)態(tài)排序) - 優(yōu)點(diǎn):能夠節(jié)省大量時(shí)間,因?yàn)橛脩糸喿x的是從搜索結(jié)果中篩選出來的更加符合要求的結(jié)果。同時(shí),這種算法直接融入用戶的反饋信息,能夠保證頁面的質(zhì)量。
- 缺點(diǎn):只適合于檢索關(guān)鍵詞較少的情況,因?yàn)樗鼘?shí)際上并沒有進(jìn)行排序,而是一種篩選和抽取,在檢索數(shù)據(jù)庫很大、關(guān)鍵詞很多的時(shí)候,返回的搜索結(jié)果成千上萬,用戶不可能一一審閱(所以可以當(dāng)做輔助排序方法)