第4章 關于統(tǒng)計資料類型的思考
本文為《白話統(tǒng)計》第四章的學習筆記。主要是摘錄每一小節(jié)的重點內(nèi)容,局部有編輯加工。
4.1 計數(shù)資料等于分類資料嗎
計數(shù)資料有單位,分類資料無單位。
計數(shù)資料通常服從泊松分布,可用Poisson回歸分析;分類資料通常服從二項分布或多項分布,一般采用二分類或多項Logistic回歸分析。
4.2 計數(shù)資料是否可用連續(xù)資料的方法分析
計數(shù)資料取值離0很遠,大致呈正態(tài)分布,且研究者對預測值出現(xiàn)小數(shù)點甚至負數(shù)不是很介意,此時計數(shù)資料可用考慮采用連續(xù)資料的方法進行分析;否則,最好采用泊松回歸或負二項回歸。
4.3 分類資料中的無序和有序是如何確定的
如果研究目的希望體現(xiàn)出自變量等級的差異,視作有序變量;如果僅僅關注自變量組間的差異,而不關注其等級的差異,視作無序變量。
無序分類資料的比較可用卡方檢驗,而有序分類變量的比較則考慮秩和檢驗。
4.4 連續(xù)資料什么時候需要轉(zhuǎn)換為分類資料
第一,出于實際應用考慮,選擇較容易接受和操作的方式。
第二,如果連續(xù)資料本身與結(jié)果之間不是線性關系,有時為了簡化問題,可以考慮其作為分類資料。
發(fā)表文章提醒:如果把一份連續(xù)資料劃分為分類資料,則應在“材料與方法”中說明是如何劃分的,尤其要注意劃分的界限不要有重疊。
4.5 連續(xù)資料如何分組——尋找cut-off值的多種方法
根據(jù)專業(yè)和實際經(jīng)驗
當樣本量較小時,盡量劃分得不要太多,最好只分為兩類。
作為參照組的那一類的例數(shù)絕不能太少,否則所有估計結(jié)果都是不穩(wěn)定的。
利用廣義可加模型結(jié)合專業(yè)來劃分
library(gam)
fit=gam(hyper~s(age),data=f1,family=binomial)
summary(fit)
plot(fit,se=TRUE)
在R中用以上代碼,可以得到因變量與自變量的廣義可加模型(GAM)圖,由此大致判斷因變量與自變量的關系,幫助判斷分組。
利用ROC曲線找出cut-off值來劃分
ROC (Receiver Operating Characteristic) 曲線能找出界值,將變量分為兩類。
前提條件:必須有一個明確的二分類結(jié)局。
ROC曲線是以靈敏度為y軸,以1-特異度為x軸,由不同界值產(chǎn)生不同的點,將這些點連接起來形成的。
ROC曲線圖中最靠近最上角的點就是cut-off值。
library(pROC)
rr=roc(f1$y,f1$x)
plot(rr,print.thres=TRUE,print.auc=TRUE)
利用最大選擇秩統(tǒng)計量來劃分
當因變量是生存資料、定量資料時,ROC曲線就無能為力了,此時考慮用最大選擇秩統(tǒng)計量來尋找界值。
原理是對x的每個值分別進行劃分,計算標準化統(tǒng)計量(反映劃分后的分組差異),找到其中最大的,對應的劃分值就是最佳cut-off值。
因變量是分類或連續(xù)資料時
library(maxstat)
c=maxstat.test(y~x,dataset,pmethod="HL")
plot(c)
因變量是生存資料時
library(maxstat)
c=maxstat.test(Surv(time,status)~x,dataset,smethod="LogRnak",pmethod="HL")
plot(c)
利用分類樹來劃分
對自變量的每個值進行劃分,計算熵的降低程度,找到熵減程度的最大值所對應的劃分值。
library(rpart)
c=rpart(y~x,dataset,method="class")
plot(c,branch=0)
text(c,use.n=T,col="blue)
聚類分析
沒有明確結(jié)局(因變量)時,采用聚類分析。
總的來說是基于距離劃分,兩個點距離近的分為一類,距離遠的劃分到其他類。劃分后各類別的距離盡量遠,類內(nèi)的距離比較近。
完全根據(jù)數(shù)據(jù)本身來劃分,不涉及任何專業(yè)知識,劃分的結(jié)果可能與專業(yè)相悖,使用時需謹慎。
有的方法需要指定擬劃分類別(如K-means法、SOM法),有的不需要(如層次法)。
4.6 什么是虛擬變量/啞變量
虛擬變量(又稱啞變量)是將多分類變量轉(zhuǎn)換成二分類變量的一種方式。
主要用于多分類自變量與因變量是非線性關系的時候。
如果多分類變量有k個類別,則可以轉(zhuǎn)換成k-1個二分類變量。
重要提醒:當把變量作為虛擬變量納入模型時,一定要同進同出,不能在模型中只保留虛擬變量的其中一個,即使它們中存在p>0.05的變量。
缺點:如果樣本量不夠大,自變量的增加會導致估計結(jié)果的不穩(wěn)定。