佩奇排名(PageRank),又稱網(wǎng)頁排名、谷歌左側(cè)排名,是一種由搜索引擎根據(jù)網(wǎng)頁之間相互的超鏈接計算的技術(shù),而作為網(wǎng)頁排名的要素之一,以Google公司創(chuàng)辦人拉里·佩奇(Larry Page)之姓來命名。Google用它來體現(xiàn)網(wǎng)頁的相關(guān)性和重要性,在搜索引擎優(yōu)化操作中是經(jīng)常被用來評估網(wǎng)頁優(yōu)化的成效因素之一。[來該段自于Wikipedia對PageRank的權(quán)威詮釋]
自從Google在商業(yè)上獲得巨大成功后,它大力推行的PageRank也成為企業(yè)界和學(xué)術(shù)界十分關(guān)注的計算模型。Google將糅合入Title標(biāo)識、Keywords關(guān)鍵字標(biāo)識等因素的PageRank結(jié)果來調(diào)整搜索結(jié)果,使得“更加重要/等級更高”的網(wǎng)站呈現(xiàn)在檢索結(jié)果中,從而提高搜索結(jié)果的相關(guān)度、質(zhì)量。PageRank的結(jié)果從0到10,10級為滿分。PR值越高說明網(wǎng)頁越重要/受歡迎。例如PR值為1的網(wǎng)站不太重要,而PR值為7~10的網(wǎng)站可以說是非常重要了。一般到4,就能說是一個不錯的網(wǎng)站。Google將自身PR值定為10.

在PageRank算法之前,曾經(jīng)有人提出利用網(wǎng)頁的入鏈數(shù)量作為依據(jù)進行鏈接分析,即認(rèn)為入鏈越多,則該網(wǎng)頁重要度越高。早期搜索引擎也采用該方法作為搜索引擎檢索方法,對于檢索結(jié)果亦起到較明顯提升。而PageRank不單考慮到入鏈數(shù)量,也考慮到網(wǎng)頁質(zhì)量因素,兩者結(jié)合后網(wǎng)頁重要性評價則更為準(zhǔn)確。
1、基本思想:
即對于某個網(wǎng)頁A而言,該網(wǎng)頁PageRank值的計算基于以下兩個假設(shè):
1:數(shù)量假設(shè),如果越多的網(wǎng)頁指向A,即A的入鏈數(shù)量越多,則該網(wǎng)頁越重要;
2:質(zhì)量假設(shè),如果指向A的網(wǎng)頁質(zhì)量越高,則A越重要,即權(quán)重因素不同。
現(xiàn)實中一個具體的假設(shè)案例是:一篇論文被諾貝爾獎得主所引用, 顯然要比被普通研究者所引用更說明其價值;一篇論文被100位學(xué)者引用,顯然要比只有一位普通學(xué)者引用之更有價值。
初始階段,網(wǎng)頁通過鏈接關(guān)系構(gòu)建起Web圖,每個頁面設(shè)置相同的PageRank值(原因在稍后闡述),通過若干輪的計算,會得到每個頁面所獲得的最終PageRank值。隨著每一輪的計算進行,網(wǎng)頁當(dāng)前的PageRank值會不斷得到更新。
在每一輪更新頁面PageRank得分的計算中,每個頁面將其當(dāng)前的PageRank值平均分配到本頁面包含的出鏈上,這樣每個鏈接即獲得了相應(yīng)的權(quán)值。而每個頁面將所有指向本頁面的入鏈所傳入的權(quán)值求和,即可得到新的PageRank得分。當(dāng)每個頁面都獲得了更新后的PageRank值,就完成了一輪PageRank計算。
用公式來表示,若網(wǎng)頁T存在一個指向網(wǎng)頁A的鏈接,則表明T的所有者認(rèn)為A是重要的,從而把T的一部分重要性得分賦予A。
這個重要性得分值為:PR(T)/C(T) ,其中PR(T)為T的PageRank值,C(T)為T的出鏈數(shù)。
對于A而言,A的PageRank值為一系列類似于T的頁面重要性得分總和。一個頁面的PageRank是由所有鏈向它的頁面(鏈入頁面)的重要性經(jīng)過遞歸算法得到的。
2、PageRank的簡單計算

3、PageRank的修正公式
現(xiàn)實網(wǎng)絡(luò)中,由于存在出鏈度數(shù)為0,即不鏈接到任何網(wǎng)頁的頁面,但是很多網(wǎng)頁可以訪問它。鑒于這類情況,PageRank公式需要進行修正,修正的方法是,在簡單公式的基礎(chǔ)上增加阻尼系數(shù)d(damping factor):

該公式是計算網(wǎng)頁A的PR值公式。Ti是存在到A的鏈接的網(wǎng)頁。C(Ti)是網(wǎng)頁Ti中存在的鏈接的數(shù)量。d是阻尼系數(shù),一般定義為用戶隨機點擊鏈接的概率,根據(jù)工程經(jīng)驗一般取0.85。而(1-d)代表著不考慮入站鏈接的情況下隨機進入一個頁面的概率。
還有一種修正方式與第一種相似,公式如下:

其中p(i)是第i個頁面,N是頁面總數(shù),q是阻尼系數(shù),(1-q)代表著不考慮入站鏈接的情況下隨機進入一個頁面的概率,L(pi)是Pi鏈出頁面的數(shù)量。所有頁面的PageRank值可以組成一個特征向量,這個特征向量矩陣為:

R是如下矩陣方程式的一個解:

其中 L(Pi,Pj) 表示網(wǎng)頁 j 指向網(wǎng)頁 i 的鏈路權(quán)重,并且若網(wǎng)頁i存在指向網(wǎng)頁j的一個鏈接,則

否則,L(Pi,Pj) = 0.
關(guān)于R矩陣方程式的含義,按照矩陣相乘規(guī)則,實際上是所有網(wǎng)頁節(jié)點的方程式聚合組:
以第一行為例,分拆開來實際上是:
PR(P1) = (1-q)/N + a*(L(p1,p1)*PR(P1) + L(p1,p2)*PR(P2) + ... + L(p1,pn)*PR(Pn) )
其余行數(shù)以此類推。遂構(gòu)成上述矩陣方程式。
到現(xiàn)在為止,我們把PageRank的計算方式和原理都闡述了,但是仍然有一個問題:先有雞還是先有蛋?我們要知道一個網(wǎng)頁 Wi的排序, 不僅要知道有多少網(wǎng)頁鏈接了它, 而且還得知道那些網(wǎng)頁各自的排序——因為來自排序靠前網(wǎng)頁的鏈接更有分量。 而但作為互聯(lián)網(wǎng)大家庭的一員, Wi本身對其它網(wǎng)頁的排序也是有貢獻的, 而且基于來自排序靠前網(wǎng)頁的鏈接更有分量的原則, 這種貢獻與 Wi本身的排序也有關(guān)。簡而言之,鏈接到Wi的網(wǎng)頁們影響了Wi的重要性排名,而Wi也有可能反向影響其余網(wǎng)頁的排名,想要知道其余網(wǎng)頁的排名,那么首先又要知道Wi的排名。這就是先有雞還是先有蛋的意思。
為了打破這個死循環(huán),佩奇和布林采用了一個奇妙的思路,分析一個虛擬用戶在互聯(lián)網(wǎng)的漫游過程。他們做了這樣的假定:該虛擬用戶訪問了一個網(wǎng)頁后,下一步將有相同的幾率訪問被該網(wǎng)頁鏈接的任何一個其他網(wǎng)頁。初看之下這一假設(shè)不合情理,用戶都會存在自己的偏好,不可能以相同幾率訪問一個網(wǎng)頁所有鏈接。但是在PageRank中,考慮到我們這一虛擬用戶實際上是對所有互聯(lián)網(wǎng)漫游者所做的平均意義上的代表,這樣一來這條假設(shè)就不像初看之下那么不合理了。實際上就也是PR(T)/C(T) 的來源。最終的網(wǎng)頁排序,則由用戶在網(wǎng)絡(luò)上漫游了很長時間---理論上是無限時間后---訪問各網(wǎng)頁的幾率分布來決定,訪問幾率越大的網(wǎng)頁排序則越靠前。(細(xì)心的讀者可以發(fā)現(xiàn),在該核心思想下,網(wǎng)頁排序與搜索關(guān)鍵詞并無關(guān)系!這意味著排序計算可以單獨進行,而無需在用戶輸入keywords后再臨時進行,這是Google搜索速度迅即的重要原因!)
所以綜上,一個頁面的PageRank值是由其他頁面的PR值計算得到的。Google不斷的重復(fù)計算每個頁面的PR值。給每個頁面一個初始的非零隨機PR值,那么經(jīng)過不斷地迭代計算,最終每個頁面的PR值將趨于穩(wěn)定。這是PageRank的奇妙所在以及為何搜索引擎使用它的原因。