大香蕉性网站,精品97熟妇,日韩精品色哟哟

第4章關于統(tǒng)計資料類型的思考

本文為《白話統(tǒng)計》第四章的學習筆記。主要是摘錄每一小節(jié)的重點內(nèi)容，局部有編輯加工。

4.1 計數(shù)資料等于分類資料嗎

計數(shù)資料有單位，分類資料無單位。

計數(shù)資料通常服從泊松分布，可用Poisson回歸分析；分類資料通常服從二項分布或多項分布，一般采用二分類或多項Logistic回歸分析。

4.2 計數(shù)資料是否可用連續(xù)資料的方法分析

計數(shù)資料取值離0很遠，大致呈正態(tài)分布，且研究者對預測值出現(xiàn)小數(shù)點甚至負數(shù)不是很介意，此時計數(shù)資料可用考慮采用連續(xù)資料的方法進行分析；否則，最好采用泊松回歸或負二項回歸。

4.3 分類資料中的無序和有序是如何確定的

如果研究目的希望體現(xiàn)出自變量等級的差異，視作有序變量；如果僅僅關注自變量組間的差異，而不關注其等級的差異，視作無序變量。

無序分類資料的比較可用卡方檢驗，而有序分類變量的比較則考慮秩和檢驗。

4.4 連續(xù)資料什么時候需要轉(zhuǎn)換為分類資料

第一，出于實際應用考慮，選擇較容易接受和操作的方式。

第二，如果連續(xù)資料本身與結(jié)果之間不是線性關系，有時為了簡化問題，可以考慮其作為分類資料。

發(fā)表文章提醒：如果把一份連續(xù)資料劃分為分類資料，則應在“材料與方法”中說明是如何劃分的，尤其要注意劃分的界限不要有重疊。

4.5 連續(xù)資料如何分組——尋找cut-off值的多種方法

根據(jù)專業(yè)和實際經(jīng)驗

當樣本量較小時，盡量劃分得不要太多，最好只分為兩類。

作為參照組的那一類的例數(shù)絕不能太少，否則所有估計結(jié)果都是不穩(wěn)定的。

利用廣義可加模型結(jié)合專業(yè)來劃分

library(gam)
fit=gam(hyper~s(age),data=f1,family=binomial)
summary(fit)
plot(fit,se=TRUE)

在R中用以上代碼，可以得到因變量與自變量的廣義可加模型（GAM）圖，由此大致判斷因變量與自變量的關系，幫助判斷分組。

利用ROC曲線找出cut-off值來劃分

ROC (Receiver Operating Characteristic) 曲線能找出界值，將變量分為兩類。

前提條件：必須有一個明確的二分類結(jié)局。

ROC曲線是以靈敏度為y軸，以1-特異度為x軸，由不同界值產(chǎn)生不同的點，將這些點連接起來形成的。

ROC曲線圖中最靠近最上角的點就是cut-off值。

library(pROC)
rr=roc(f1$y,f1$x)
plot(rr,print.thres=TRUE,print.auc=TRUE)

利用最大選擇秩統(tǒng)計量來劃分

當因變量是生存資料、定量資料時，ROC曲線就無能為力了，此時考慮用最大選擇秩統(tǒng)計量來尋找界值。

原理是對x的每個值分別進行劃分，計算標準化統(tǒng)計量（反映劃分后的分組差異），找到其中最大的，對應的劃分值就是最佳cut-off值。

因變量是分類或連續(xù)資料時

library(maxstat)
c=maxstat.test(y~x,dataset,pmethod="HL")
plot(c)

因變量是生存資料時

library(maxstat)
c=maxstat.test(Surv(time,status)~x,dataset,smethod="LogRnak",pmethod="HL")
plot(c)

利用分類樹來劃分

對自變量的每個值進行劃分，計算熵的降低程度，找到熵減程度的最大值所對應的劃分值。

library(rpart)
c=rpart(y~x,dataset,method="class")
plot(c,branch=0)
text(c,use.n=T,col="blue)

聚類分析

沒有明確結(jié)局（因變量）時，采用聚類分析。

總的來說是基于距離劃分，兩個點距離近的分為一類，距離遠的劃分到其他類。劃分后各類別的距離盡量遠，類內(nèi)的距離比較近。

完全根據(jù)數(shù)據(jù)本身來劃分，不涉及任何專業(yè)知識，劃分的結(jié)果可能與專業(yè)相悖，使用時需謹慎。

有的方法需要指定擬劃分類別（如K-means法、SOM法），有的不需要（如層次法）。

4.6 什么是虛擬變量/啞變量

虛擬變量（又稱啞變量）是將多分類變量轉(zhuǎn)換成二分類變量的一種方式。

主要用于多分類自變量與因變量是非線性關系的時候。

如果多分類變量有k個類別，則可以轉(zhuǎn)換成k-1個二分類變量。

重要提醒：當把變量作為虛擬變量納入模型時，一定要同進同出，不能在模型中只保留虛擬變量的其中一個，即使它們中存在p>0.05的變量。

缺點：如果樣本量不夠大，自變量的增加會導致估計結(jié)果的不穩(wěn)定。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

《白話統(tǒng)計》學習筆記|統(tǒng)計資料的類型

《白話統(tǒng)計》學習筆記|統(tǒng)計資料的類型

第4章關于統(tǒng)計資料類型的思考

4.1 計數(shù)資料等于分類資料嗎

4.2 計數(shù)資料是否可用連續(xù)資料的方法分析

4.3 分類資料中的無序和有序是如何確定的

4.4 連續(xù)資料什么時候需要轉(zhuǎn)換為分類資料

4.5 連續(xù)資料如何分組——尋找cut-off值的多種方法

根據(jù)專業(yè)和實際經(jīng)驗

利用廣義可加模型結(jié)合專業(yè)來劃分

利用ROC曲線找出cut-off值來劃分

利用最大選擇秩統(tǒng)計量來劃分

因變量是分類或連續(xù)資料時

因變量是生存資料時

利用分類樹來劃分

聚類分析

4.6 什么是虛擬變量/啞變量

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

《白話統(tǒng)計》學習筆記|統(tǒng)計資料的類型

第4章 關于統(tǒng)計資料類型的思考

4.1 計數(shù)資料等于分類資料嗎

4.2 計數(shù)資料是否可用連續(xù)資料的方法分析

4.3 分類資料中的無序和有序是如何確定的

4.4 連續(xù)資料什么時候需要轉(zhuǎn)換為分類資料

4.5 連續(xù)資料如何分組——尋找cut-off值的多種方法

根據(jù)專業(yè)和實際經(jīng)驗

利用廣義可加模型結(jié)合專業(yè)來劃分

利用ROC曲線找出cut-off值來劃分

利用最大選擇秩統(tǒng)計量來劃分

因變量是分類或連續(xù)資料時

因變量是生存資料時

利用分類樹來劃分

聚類分析

4.6 什么是虛擬變量/啞變量

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

第4章關于統(tǒng)計資料類型的思考