2019-11-28

統(tǒng)計數(shù)據(jù)分析的原理

大規(guī)模網(wǎng)頁排名算法:pagerank

網(wǎng)頁排名是網(wǎng)絡(luò)搜索引擎的核心

PageRanks是用于測評一個網(wǎng)頁的“重要性”或“影響力”的方法

決定因素:

* 該網(wǎng)頁的導(dǎo)入鏈接數(shù)

* 這些導(dǎo)入鏈接的重要性

* 有向圖

* 鄰接矩陣

* 超鏈接矩陣(hyperlink matrix)

* 矩陣的特征向量和特征值

* 如何求解矩陣的最大特征向量

數(shù)據(jù)科學(xué)的數(shù)學(xué)基礎(chǔ)

矩陣和線性代數(shù)(矩陣是描述線性代數(shù)的參數(shù))

矩陣的運(yùn)算:

矩陣圍繞向量的加法和乘法展開的

向量是有序的數(shù)字列表

關(guān)系代數(shù)(抽象的查詢語言)

概率論

統(tǒng)計(概率論與數(shù)理統(tǒng)計)

概覽

統(tǒng)計:設(shè)計

統(tǒng)計分析方法

統(tǒng)計學(xué)、概率論和數(shù)理統(tǒng)計之間的區(qū)別和聯(lián)系

微積分

機(jī)器學(xué)習(xí)基礎(chǔ)(machine learning foundation)

統(tǒng)計建模:線性回歸模型

c.f.機(jī)器學(xué)習(xí)模型

場景確定

[1]?建模目的預(yù)測值和真實值之間的差距越小越好

定義損失函數(shù)

特征提取

決定模型形式和參數(shù)

模型評估

[1]?我好柔弱啊,表格還是不會設(shè)置啊

實踐:用python來進(jìn)行線性回歸模型的實現(xiàn)

使用Numpy,生成x和y

使用pandas,由x和y 生成dataframe

使用matplotlib,將數(shù)據(jù)可視化

保存數(shù)據(jù)為csv格式

使用pandas讀取訓(xùn)練數(shù)據(jù)

使用scikit-learn,訓(xùn)練模型

計算MSR和R2,評估模型

使用matplotlib,將模型結(jié)果可視化

將互聯(lián)網(wǎng)作為有向圖,并用鄰接矩陣表示

轉(zhuǎn)為超鏈接矩陣

求該超鏈接矩陣的最大特征向量

求得的特征向量值就是對應(yīng)網(wǎng)頁的PageRank值

算法模式總結(jié)

冪迭代法:乘到某一個值是會有收斂(穩(wěn)定不變),此時我們叫這個穩(wěn)定不變的值,叫矩陣的最大的特征向量。

如何求矩陣的最大特征向量?

[2]?矩陣的重要應(yīng)用

[1]?數(shù)學(xué)的奇妙:將PR問題轉(zhuǎn)換成了求解矩陣的特征向量問題

定理:超鏈接矩陣H的最大特征向量即為該矩陣的PageRank 值

所有元素非負(fù)

每個元素的總和為1

又名隨機(jī)矩陣,馬爾可夫矩陣

Def:鄰接矩陣中的元素除以對應(yīng)節(jié)點(diǎn)的出度

超鏈接矩陣

嘗試計算 網(wǎng)頁的PageRank的值

#Supplement:

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容