數(shù)據(jù)挖掘十大經(jīng)典算法之Pagerank

一、 PageRank介紹

PageRank,網(wǎng)頁排名,又稱網(wǎng)頁級(jí)別、Google左側(cè)排名或佩奇排名,是一種由搜索引擎根據(jù)網(wǎng)頁之間相互的超鏈接計(jì)算的技術(shù),而作為網(wǎng)頁排名的要素之一,以Google公司創(chuàng)辦人拉里·佩奇(Larry Page)之姓來命名。Google用它來體現(xiàn)網(wǎng)頁的相關(guān)性和重要性,是Google用來衡量一個(gè)站點(diǎn)的好壞的唯一標(biāo)準(zhǔn),在搜索引擎優(yōu)化操作中是經(jīng)常被用來評(píng)估網(wǎng)頁優(yōu)化的成效因素之一。

對(duì)于某個(gè)互聯(lián)網(wǎng)網(wǎng)頁A來說,該網(wǎng)頁P(yáng)ageRank的計(jì)算基于下面兩個(gè)基本如果:

??????數(shù)量如果:在Web圖模型中,如果一個(gè)頁面節(jié)點(diǎn)接收到的其它網(wǎng)頁指向的入鏈數(shù)量越多,那么這個(gè)頁面越重要。

??????質(zhì)量如果:指向頁面A的入鏈質(zhì)量不同,質(zhì)量高的頁面會(huì)通過鏈接向其它頁面?zhèn)鬟f很多其它的權(quán)重。所以越是質(zhì)量高的頁面指向頁面A,則頁面A越重要。

利用以上兩個(gè)如果,PageRank算法剛開始賦予每一個(gè)網(wǎng)頁同樣的重要性得分,通過迭代遞歸計(jì)算來更新每一個(gè)頁面節(jié)點(diǎn)的PageRank得分,直到得分穩(wěn)定為止。 PageRank計(jì)算得出的結(jié)果是網(wǎng)頁的重要性評(píng)價(jià),這和用戶輸入的查詢是沒有不論什么關(guān)系的,即算法是主題無關(guān)的。

總結(jié):PageRank通過網(wǎng)絡(luò)浩瀚的超鏈接關(guān)系來確定一個(gè)頁面的等級(jí)。Google把從A頁面到B頁面的鏈接解釋為A頁面給B頁面投票,Google根據(jù)投票來源(甚至來源的來源,即鏈接到A頁面的頁面)和投票目標(biāo)的等級(jí)來決定新的等級(jí)。簡(jiǎn)單的說,一個(gè)高等級(jí)的頁面可以使其他低等級(jí)頁面的等級(jí)提升。

二、PageRank算法原理

PageRank的計(jì)算充分利用了兩個(gè)如果:數(shù)量如果和質(zhì)量如果。過程例如以下:

?1)在初始階段:網(wǎng)頁通過鏈接關(guān)系構(gòu)建起Web圖,每一個(gè)頁面設(shè)置同樣的PageRank值,通過若干輪的計(jì)算,會(huì)得到每一個(gè)頁面所獲得的終于PageRank值。隨著每一輪的計(jì)算進(jìn)行,網(wǎng)頁當(dāng)前的PageRank值會(huì)不斷得到更新。

?2)在一輪中更新頁面PageRank得分的計(jì)算方法:在一輪更新頁面PageRank得分的計(jì)算中,每一個(gè)頁面將其當(dāng)前的PageRank值平均分配到本頁面包括的出鏈上,這樣每一個(gè)鏈接即獲得了對(duì)應(yīng)的權(quán)值。而每一個(gè)頁面將全部指向本頁面的入鏈所傳入的權(quán)值求和,就可以得到新的PageRank得分。當(dāng)每一個(gè)頁面都獲得了更新后的PageRank值,就完畢了一輪PageRank計(jì)算。?

三、PageRank算法的基本思想

假設(shè)網(wǎng)頁T存在一個(gè)指向網(wǎng)頁A的連接,則表明T的全部者覺得A比較重要,從而把T的一部分重要性得分賦予A。這個(gè)重要性得分值為:PR(T)/L(T)。

 ??? 當(dāng)中PR(T)為T的PageRank值,L(T)為T的出鏈數(shù)。

??????? 則A的PageRank值為一系列類似于T的頁面重要性得分值的累加。

?即一個(gè)頁面的得票數(shù)由全部鏈向它的頁面的重要性來決定,到一個(gè)頁面的超鏈接相當(dāng)于對(duì)該頁投一票。一個(gè)頁面的PageRank是由全部鏈向它的頁面(鏈入頁面)的重要性經(jīng)過遞歸算法得到的。一個(gè)有較多鏈入的頁面會(huì)有較高的等級(jí),相反假設(shè)一個(gè)頁面沒有不論什么鏈入頁面,那么它沒有等級(jí)。

四、PageRank算法的優(yōu)缺點(diǎn)

優(yōu)點(diǎn):是一個(gè)與查詢無關(guān)的靜態(tài)算法,所有網(wǎng)頁的PageRank值通過離線計(jì)算獲得;有效減少在線查詢時(shí)的計(jì)算量,極大降低了查詢響應(yīng)時(shí)間。?

不足:人們的查詢具有主題特征,PageRank忽略了主題相關(guān)性,導(dǎo)致結(jié)果的相關(guān)性和主題性降低;另外,PageRank有很嚴(yán)重的對(duì)新網(wǎng)頁的歧視。

五、針對(duì)PageRank忽略主題的改進(jìn)——Topic-Sensitive PageRank

基本思想:針對(duì)PageRank對(duì)主題的忽略而提出。核心思想:通過離線計(jì)算出一個(gè) ?PageRank向量集合,該集合中的每一個(gè)向量與某一主題相關(guān),即計(jì)算某個(gè)頁面關(guān)于不同主題的得分。

主要分為兩個(gè)階段:主題相關(guān)的PageRank向量集合的計(jì)算和在線查詢時(shí)主題的確定。?

優(yōu)點(diǎn):根據(jù)用戶的查詢請(qǐng)求和相關(guān)上下文判斷用戶查詢相關(guān)的主題(用戶的興趣)返回查詢結(jié)果準(zhǔn)確性高。?

不足:沒有利用主題的相關(guān)性來提高鏈接得分的準(zhǔn)確性。?

六、影響google PageRank的因素有哪些呢??

1 與pr高的網(wǎng)站做鏈接:?

2 內(nèi)容質(zhì)量高的網(wǎng)站鏈接?

3加入搜索引擎分類目錄?

4 加入免費(fèi)開源目錄?

5 你的鏈接出現(xiàn)在流量大、知名度高、頻繁更新的重要網(wǎng)站上?

6 google對(duì)DPF格式的文件比較看重。?

7 安裝Google工具條?

8 域名和tilte標(biāo)題出現(xiàn)關(guān)鍵詞與meta標(biāo)簽等?

9 反向連接數(shù)量和反向連接的等級(jí)?

10 Google抓取您網(wǎng)站的頁面數(shù)量?

11導(dǎo)出鏈接數(shù)量

參考:

https://blog.csdn.net/u011067360/article/details/24368085

https://www.cnblogs.com/mfrbuaa/p/3909597.html

算法實(shí)現(xiàn):https://www.cnblogs.com/jpcflyer/p/11180263.html

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容