多個特征針對一個標(biāo)簽列的相關(guān)系數(shù)計算

思路:

step 0: 特征提取,特征歸一化

step 1.先將多個特征項進(jìn)行回歸分析,建立回歸模型。

step 2.利用回歸模型,計算預(yù)測值

step 3.計算預(yù)測值和標(biāo)簽值之間的相關(guān)系數(shù)

step 0:

特征歸一化選擇:MinMax,0均值 etc.

sklearn 下自帶MinMaxScaler對象, StandardScaler對象

step 1:

回歸模型選擇:線性回歸,隨機(jī)森林?

附加:做出視覺效果圖

step 2:

沒啥,直接predict就好

step 3:

相關(guān)系數(shù)類型:pearson,kendall, spearman

pearson:線性,定距變量。得出r值為相關(guān)系數(shù)

spearman:定序型變量,不等距變化的數(shù)據(jù),階級等。但是還是能排序的數(shù)據(jù)。算出的P值,并不是直接可用的相關(guān)系數(shù),需要對照spearman軼相關(guān)系數(shù)表。

kendall: 定類變量,需轉(zhuǎn)化成數(shù)字。 能體現(xiàn)出一致性不一致性的對。得出值為相關(guān)系數(shù)。

運用pandas或者numpy計算

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容