一、 PageRank介紹
PageRank,網(wǎng)頁排名,又稱網(wǎng)頁級(jí)別、Google左側(cè)排名或佩奇排名,是一種由搜索引擎根據(jù)網(wǎng)頁之間相互的超鏈接計(jì)算的技術(shù),而作為網(wǎng)頁排名的要素之一,以Google公司創(chuàng)辦人拉里·佩奇(Larry Page)之姓來命名。Google用它來體現(xiàn)網(wǎng)頁的相關(guān)性和重要性,是Google用來衡量一個(gè)站點(diǎn)的好壞的唯一標(biāo)準(zhǔn),在搜索引擎優(yōu)化操作中是經(jīng)常被用來評(píng)估網(wǎng)頁優(yōu)化的成效因素之一。
對(duì)于某個(gè)互聯(lián)網(wǎng)網(wǎng)頁A來說,該網(wǎng)頁P(yáng)ageRank的計(jì)算基于下面兩個(gè)基本如果:
??????數(shù)量如果:在Web圖模型中,如果一個(gè)頁面節(jié)點(diǎn)接收到的其它網(wǎng)頁指向的入鏈數(shù)量越多,那么這個(gè)頁面越重要。
??????質(zhì)量如果:指向頁面A的入鏈質(zhì)量不同,質(zhì)量高的頁面會(huì)通過鏈接向其它頁面?zhèn)鬟f很多其它的權(quán)重。所以越是質(zhì)量高的頁面指向頁面A,則頁面A越重要。
利用以上兩個(gè)如果,PageRank算法剛開始賦予每一個(gè)網(wǎng)頁同樣的重要性得分,通過迭代遞歸計(jì)算來更新每一個(gè)頁面節(jié)點(diǎn)的PageRank得分,直到得分穩(wěn)定為止。 PageRank計(jì)算得出的結(jié)果是網(wǎng)頁的重要性評(píng)價(jià),這和用戶輸入的查詢是沒有不論什么關(guān)系的,即算法是主題無關(guān)的。
總結(jié):PageRank通過網(wǎng)絡(luò)浩瀚的超鏈接關(guān)系來確定一個(gè)頁面的等級(jí)。Google把從A頁面到B頁面的鏈接解釋為A頁面給B頁面投票,Google根據(jù)投票來源(甚至來源的來源,即鏈接到A頁面的頁面)和投票目標(biāo)的等級(jí)來決定新的等級(jí)。簡(jiǎn)單的說,一個(gè)高等級(jí)的頁面可以使其他低等級(jí)頁面的等級(jí)提升。
二、PageRank算法原理
PageRank的計(jì)算充分利用了兩個(gè)如果:數(shù)量如果和質(zhì)量如果。過程例如以下:
?1)在初始階段:網(wǎng)頁通過鏈接關(guān)系構(gòu)建起Web圖,每一個(gè)頁面設(shè)置同樣的PageRank值,通過若干輪的計(jì)算,會(huì)得到每一個(gè)頁面所獲得的終于PageRank值。隨著每一輪的計(jì)算進(jìn)行,網(wǎng)頁當(dāng)前的PageRank值會(huì)不斷得到更新。
?2)在一輪中更新頁面PageRank得分的計(jì)算方法:在一輪更新頁面PageRank得分的計(jì)算中,每一個(gè)頁面將其當(dāng)前的PageRank值平均分配到本頁面包括的出鏈上,這樣每一個(gè)鏈接即獲得了對(duì)應(yīng)的權(quán)值。而每一個(gè)頁面將全部指向本頁面的入鏈所傳入的權(quán)值求和,就可以得到新的PageRank得分。當(dāng)每一個(gè)頁面都獲得了更新后的PageRank值,就完畢了一輪PageRank計(jì)算。?
三、PageRank算法的基本思想
假設(shè)網(wǎng)頁T存在一個(gè)指向網(wǎng)頁A的連接,則表明T的全部者覺得A比較重要,從而把T的一部分重要性得分賦予A。這個(gè)重要性得分值為:PR(T)/L(T)。
??? 當(dāng)中PR(T)為T的PageRank值,L(T)為T的出鏈數(shù)。
??????? 則A的PageRank值為一系列類似于T的頁面重要性得分值的累加。
?即一個(gè)頁面的得票數(shù)由全部鏈向它的頁面的重要性來決定,到一個(gè)頁面的超鏈接相當(dāng)于對(duì)該頁投一票。一個(gè)頁面的PageRank是由全部鏈向它的頁面(鏈入頁面)的重要性經(jīng)過遞歸算法得到的。一個(gè)有較多鏈入的頁面會(huì)有較高的等級(jí),相反假設(shè)一個(gè)頁面沒有不論什么鏈入頁面,那么它沒有等級(jí)。
四、PageRank算法的優(yōu)缺點(diǎn)
優(yōu)點(diǎn):是一個(gè)與查詢無關(guān)的靜態(tài)算法,所有網(wǎng)頁的PageRank值通過離線計(jì)算獲得;有效減少在線查詢時(shí)的計(jì)算量,極大降低了查詢響應(yīng)時(shí)間。?
不足:人們的查詢具有主題特征,PageRank忽略了主題相關(guān)性,導(dǎo)致結(jié)果的相關(guān)性和主題性降低;另外,PageRank有很嚴(yán)重的對(duì)新網(wǎng)頁的歧視。
五、針對(duì)PageRank忽略主題的改進(jìn)——Topic-Sensitive PageRank
基本思想:針對(duì)PageRank對(duì)主題的忽略而提出。核心思想:通過離線計(jì)算出一個(gè) ?PageRank向量集合,該集合中的每一個(gè)向量與某一主題相關(guān),即計(jì)算某個(gè)頁面關(guān)于不同主題的得分。
主要分為兩個(gè)階段:主題相關(guān)的PageRank向量集合的計(jì)算和在線查詢時(shí)主題的確定。?
優(yōu)點(diǎn):根據(jù)用戶的查詢請(qǐng)求和相關(guān)上下文判斷用戶查詢相關(guān)的主題(用戶的興趣)返回查詢結(jié)果準(zhǔn)確性高。?
不足:沒有利用主題的相關(guān)性來提高鏈接得分的準(zhǔn)確性。?
六、影響google PageRank的因素有哪些呢??
1 與pr高的網(wǎng)站做鏈接:?
2 內(nèi)容質(zhì)量高的網(wǎng)站鏈接?
3加入搜索引擎分類目錄?
4 加入免費(fèi)開源目錄?
5 你的鏈接出現(xiàn)在流量大、知名度高、頻繁更新的重要網(wǎng)站上?
6 google對(duì)DPF格式的文件比較看重。?
7 安裝Google工具條?
8 域名和tilte標(biāo)題出現(xiàn)關(guān)鍵詞與meta標(biāo)簽等?
9 反向連接數(shù)量和反向連接的等級(jí)?
10 Google抓取您網(wǎng)站的頁面數(shù)量?
11導(dǎo)出鏈接數(shù)量
參考:
https://blog.csdn.net/u011067360/article/details/24368085
https://www.cnblogs.com/mfrbuaa/p/3909597.html
算法實(shí)現(xiàn):https://www.cnblogs.com/jpcflyer/p/11180263.html