統(tǒng)計數(shù)據(jù)分析的原理
大規(guī)模網(wǎng)頁排名算法:pagerank
網(wǎng)頁排名是網(wǎng)絡(luò)搜索引擎的核心
PageRanks是用于測評一個網(wǎng)頁的“重要性”或“影響力”的方法
決定因素:
* 該網(wǎng)頁的導(dǎo)入鏈接數(shù)
* 這些導(dǎo)入鏈接的重要性
* 有向圖
* 鄰接矩陣
* 超鏈接矩陣(hyperlink matrix)
* 矩陣的特征向量和特征值
* 如何求解矩陣的最大特征向量
數(shù)據(jù)科學(xué)的數(shù)學(xué)基礎(chǔ)
矩陣和線性代數(shù)(矩陣是描述線性代數(shù)的參數(shù))
矩陣的運(yùn)算:
矩陣圍繞向量的加法和乘法展開的
向量是有序的數(shù)字列表
關(guān)系代數(shù)(抽象的查詢語言)
概率論
統(tǒng)計(概率論與數(shù)理統(tǒng)計)
概覽
統(tǒng)計:設(shè)計
統(tǒng)計分析方法
統(tǒng)計學(xué)、概率論和數(shù)理統(tǒng)計之間的區(qū)別和聯(lián)系
微積分
機(jī)器學(xué)習(xí)基礎(chǔ)(machine learning foundation)
統(tǒng)計建模:線性回歸模型
c.f.機(jī)器學(xué)習(xí)模型
場景確定
[1]?建模目的預(yù)測值和真實值之間的差距越小越好
定義損失函數(shù)
特征提取
決定模型形式和參數(shù)
模型評估
[1]?我好柔弱啊,表格還是不會設(shè)置啊
實踐:用python來進(jìn)行線性回歸模型的實現(xiàn)
使用Numpy,生成x和y
使用pandas,由x和y 生成dataframe
使用matplotlib,將數(shù)據(jù)可視化
保存數(shù)據(jù)為csv格式
使用pandas讀取訓(xùn)練數(shù)據(jù)
使用scikit-learn,訓(xùn)練模型
計算MSR和R2,評估模型
使用matplotlib,將模型結(jié)果可視化
將互聯(lián)網(wǎng)作為有向圖,并用鄰接矩陣表示
轉(zhuǎn)為超鏈接矩陣
求該超鏈接矩陣的最大特征向量
求得的特征向量值就是對應(yīng)網(wǎng)頁的PageRank值
算法模式總結(jié)
冪迭代法:乘到某一個值是會有收斂(穩(wěn)定不變),此時我們叫這個穩(wěn)定不變的值,叫矩陣的最大的特征向量。
如何求矩陣的最大特征向量?
[2]?矩陣的重要應(yīng)用
[1]?數(shù)學(xué)的奇妙:將PR問題轉(zhuǎn)換成了求解矩陣的特征向量問題
定理:超鏈接矩陣H的最大特征向量即為該矩陣的PageRank 值
所有元素非負(fù)
每個元素的總和為1
又名隨機(jī)矩陣,馬爾可夫矩陣
Def:鄰接矩陣中的元素除以對應(yīng)節(jié)點(diǎn)的出度
超鏈接矩陣
嘗試計算 網(wǎng)頁的PageRank的值
#Supplement: