google歷年愚人節(jié)
google歷年愚人節(jié)盤(pán)點(diǎn)(http://m.chinabyte.com/net/57/11890557_mi.shtml)
Pigeonrank分析
google曾于早期某年愚人節(jié)發(fā)布一篇文章揭示了其PageRank Systems中所使用的技術(shù):PigeonRank(http://archive.google.com/pigeonrank/)。PigeonRank的成功主要依賴于家鴿(Columba livia)卓越的可訓(xùn)練性以及它獨(dú)特的識(shí)別物體的能力,而不管空間取向如何。 常見(jiàn)的灰鴿子可以很容易區(qū)分只顯示最小差異的項(xiàng)目,這種能力使其能夠從數(shù)千個(gè)類似的頁(yè)面中選擇相關(guān)的網(wǎng)站。

PigeonRank的具體過(guò)程是:當(dāng)搜索查詢提交給Google時(shí),它將被路由到數(shù)據(jù)倉(cāng)庫(kù),監(jiān)視器以閃電般的速度刷新結(jié)果頁(yè)面。 當(dāng)一組鴿子觀察到相關(guān)結(jié)果時(shí),它會(huì)觸及一個(gè)帶有喙的橡皮涂層鋼筋,該頁(yè)面將PigeonRank值指定為1。 對(duì)于每個(gè)啄食,PigeonRank都會(huì)增加。 那些接收最多啄食的頁(yè)面會(huì)返回到用戶結(jié)果頁(yè)面的頂部,其他結(jié)果按啄食順序顯示。PigeonRank通過(guò)啄擊最佳匹配數(shù)據(jù),對(duì)最熱門(mén)的搜索結(jié)果進(jìn)行排名,其中“啄擊最多”的結(jié)果會(huì)被確定為最熱門(mén)的搜索結(jié)果。
經(jīng)過(guò)閱讀我發(fā)現(xiàn),PigeonRank中并未詳述鴿子識(shí)別頁(yè)面中的文字、圖像和其他多媒體文件的方法,也沒(méi)有解釋鴿子決定“敲擊”該網(wǎng)頁(yè)次數(shù)的方法。并且根據(jù)我查閱到的關(guān)于鴿子的生物學(xué)資料顯示,鴿子對(duì)網(wǎng)頁(yè)內(nèi)容的精確識(shí)別是幾乎不可能的,更不用說(shuō)判斷網(wǎng)頁(yè)重要性了。所以實(shí)際上google對(duì)鴿子排名是純惡搞的態(tài)度。
而PigeonRank就名字而言其實(shí)是惡搞了google的搜索算法——pagerank。其基本思想是:如果一個(gè)網(wǎng)頁(yè)被其它很多網(wǎng)頁(yè)拿來(lái)鏈接引用,那么這個(gè)網(wǎng)頁(yè)是重要性網(wǎng)頁(yè)的可能性就很大。與此同時(shí),如果一個(gè)網(wǎng)頁(yè)沒(méi)有被大量網(wǎng)頁(yè)引用,但是被少數(shù)重要程度很高的網(wǎng)頁(yè)所引用,那么此網(wǎng)頁(yè)也被看作有很高的重要性。一個(gè)網(wǎng)頁(yè)的重要性被均衡的傳送到它所引用的頁(yè)面上去。

從以上公式我們可以看出,基于pagerank算法的每個(gè)網(wǎng)頁(yè)的重要性(PR值)可以從其它網(wǎng)頁(yè)的 PR 值計(jì)算得到。搜索引擎可以重復(fù)不斷地計(jì)算每個(gè)網(wǎng)頁(yè)的 PR 值。如果開(kāi)始給與的每個(gè)網(wǎng)頁(yè) PR 值是非零的,這樣不斷計(jì)算下去就可以得到一個(gè)穩(wěn)定正常收斂的 Pagerank 值,這點(diǎn)正是搜索引擎公司使用它的原因。
當(dāng)然,Google實(shí)際使用的Pagerank系統(tǒng)比上述的復(fù)雜的多。我們只能從其外部特征看出,google現(xiàn)有的PageRank不單考慮一個(gè)網(wǎng)站的外部鏈接質(zhì)量,也會(huì)考慮其數(shù)量。并且,不僅根據(jù)鏈出url將受歡迎程度植入了搜索引擎,谷歌工程師還利用了成千上萬(wàn)使用谷歌搜索的用戶產(chǎn)生的數(shù)據(jù)。包括他們點(diǎn)擊哪些結(jié)果、不滿意時(shí)對(duì)關(guān)鍵詞的更改、查詢關(guān)鍵詞與所處地理位置的關(guān)系等。這一過(guò)程的最直接例子就是谷歌所說(shuō)的“個(gè)性化搜索”——這是一個(gè)可選功能,利用用戶的搜索歷史和地理位置來(lái)確定他想要找的內(nèi)容(使用這項(xiàng)功能需要先登錄谷歌賬號(hào))。