統(tǒng)計(jì)學(xué)基礎(chǔ)

統(tǒng)計(jì)數(shù)據(jù)的類型

***1.分類變量Catrgorical Variable ***

其變量值是定性的,表現(xiàn)為互不相容的類別或?qū)傩浴?br> 分類自變量的啞變量(dummy variables)
在多重回歸、Logistic回歸模型中,自變量可以是連續(xù)型變量(interval variables),也可以是二項(xiàng)分類變量,和多分類變量。
為了便于解釋,對(duì)二項(xiàng)分類變量(如好壞、死活、發(fā)病不發(fā)病等)一般按0、1編碼,一般0表示陰性或較輕情況,而1表示陽(yáng)性或較嚴(yán)重情況。
多分類變量又可分為有序(等級(jí))或無(wú)序(也叫名義),
如果是有序(ordinal)分類變量,一般可按對(duì)因變量影響由小到大的順序編碼為1、2、3、...,或按數(shù)據(jù)的自然大小,將它當(dāng)作連續(xù)型變量處理。
如果是無(wú)序的(nomial)分類變量,則需要采用啞變量(dummy variables)進(jìn)行編碼,下面以職業(yè)(J)為例加予以說(shuō)明。 假如職業(yè)分類為工、農(nóng)、商、學(xué)、兵5類,則可定義比分類數(shù)少1個(gè),即5-1=4個(gè)啞變量

2.離散型數(shù)據(jù)(Discrete data):

代表數(shù)量是可以被數(shù)出來(lái)的,它可能是有限的,也可能是無(wú)限的。比如擲硬幣100次人頭朝上的次數(shù)(次數(shù)范圍為0到100,是有限的);又如,擲硬幣直到有100次是人頭朝上的次數(shù)(次數(shù)范圍為100到無(wú)窮大,是無(wú)限的)。

3.連續(xù)數(shù)據(jù)(Continuous data):

代表測(cè)量的結(jié)果是不能被數(shù)出來(lái)的,它只能被區(qū)間所描述。
比如桶里有20L水,隨機(jī)倒掉一部分,剩余的水量為[0,20]區(qū)間內(nèi)的某一個(gè)值,9.4L,9.41L,9.416789L等等,任何在[0,20]區(qū)間內(nèi)的值都有可能。

4.分類數(shù)據(jù)(Categorical data):

代表了被描述對(duì)象的性質(zhì),比如一個(gè)人的性別、婚姻狀況、家鄉(xiāng)等等, Categorical data 可以用Numerical data來(lái)表示,比如說(shuō)描述性別時(shí),1代表男,2代表女,但是這些數(shù)據(jù)并沒(méi)有數(shù)學(xué)意義,你不能拿他做運(yùn)算。Categorical data也叫作qualitative data或是Yes/No data。

參考:知乎,百度

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容