離散和連續(xù)的概念
屬性的幾種類型
1.標(biāo)稱屬性: 即與名稱有關(guān),標(biāo)稱屬性的值是一些符號(hào)或事物的名稱。每個(gè)取值代表某種類別、或狀態(tài)。 舉個(gè)例子:對(duì)于人的頭發(fā)顏色這個(gè)屬性可能的取值有,黑、白、棕、黃、宏、褐、灰。職業(yè)屬性可能的取值有老師、程序員、醫(yī)生等。 需要注意的是:我們可以用指定的數(shù)來代表標(biāo)稱屬性的取值,比如對(duì)于頭發(fā)顏色,我們規(guī)定0代表黑,1代表白,往后推。
標(biāo)稱屬性是定性描述數(shù)據(jù),進(jìn)行數(shù)學(xué)運(yùn)算毫無意義,所以盡管可以用數(shù)代表標(biāo)稱屬性的取值,但這些數(shù)不是真正意義上的數(shù)值,只是一種表示而已。
2.二元屬性: 屬于標(biāo)稱屬性,屬性只有兩種取值,同樣可以用1代表一種類別(狀態(tài)),0代表剩下的另一種類別(狀態(tài))。如性別這個(gè)屬性,只能取男或女,0代表男,1代表女
3.序數(shù)屬性 取值用于描述屬性的等級(jí),序列,先后次序等。比如學(xué)習(xí)能力的取值可為優(yōu)秀,良好,合格
以上三類屬性都是定性的描述,盡管也可以用數(shù)代表不同的取值,但這只是我們用于編碼的一種方式。
4.數(shù)值屬性 定量的描述,用整數(shù)值或?qū)崝?shù)值來表示,這是可以進(jìn)行數(shù)學(xué)運(yùn)算的一類屬性,是真正意義上的數(shù)值。
離散變量和連續(xù)變量
1、統(tǒng)計(jì)學(xué)定義
離散變量:指變量值可以按一定順序一一列舉,通常以整數(shù)位取值的變量。
如職工人數(shù)、工廠數(shù)、機(jī)器臺(tái)數(shù),年齡等。離散變量的數(shù)值用計(jì)數(shù)的方法取得。
連續(xù)變量:在一定區(qū)間內(nèi)可以任意取值的變量叫連續(xù)變量,其數(shù)值是連續(xù)不斷的,相鄰兩個(gè)數(shù)值可作無限分割,即可取無限個(gè)數(shù)值。
例如,生產(chǎn)零件的規(guī)格尺寸,人體測(cè)量的身高,體重,胸圍等為連續(xù)變量,其數(shù)值只能用測(cè)量或計(jì)量的方法取得。
2、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)中的離散、連續(xù)
離散屬性:取值可以具有有限個(gè)或無限可數(shù)個(gè)值,這個(gè)值可以用來定性描述屬性的漢字、單詞;當(dāng)然也可以是整數(shù),注意是整數(shù),而不是浮點(diǎn)數(shù)。
比如年齡屬性就屬于離散屬性,可取0~110之間的任意整數(shù),無限可數(shù)是指這個(gè)屬性的可能取值的集合是無限的,但是可以建立一個(gè)與自然數(shù)的一一對(duì)應(yīng),比如顧客編號(hào)可以從1一直往后編下去,但實(shí)際的值的集合是可數(shù)的。
連續(xù)屬性:如果屬性不是離散的,就是連續(xù)屬性了
屬性(特征)離散化:
指把取值為連續(xù)型或者離散型的屬性(特征)<u style="box-sizing: border-box;">按照取值區(qū)間</u>劃分為用來定性描述屬性取值的值(漢字、單詞)或者整數(shù)值,化為整數(shù)值是怎么理解呢?比如,隨便舉個(gè)例子價(jià)格0-50為不要錢,;51-100為便宜,分別用整數(shù)0,1表示,這個(gè)就叫離散化。不要錢和0都是離散化后對(duì)屬于0-50這個(gè)價(jià)格區(qū)間的描述。
離散型的屬性離散化又是什么意思?比如年齡為離散屬性,取值為0-110這個(gè)區(qū)間,我們可以將0-16規(guī)定為小孩,17-25規(guī)定為青年,26-50為中年,51-110為老年(這是我隨便劃分的,就是隨便舉個(gè)幫助理解的例子),這個(gè)過程就叫離散屬性的離散化,當(dāng)然我們也可以選擇用整數(shù)0,1,2,3來分別代表四個(gè)區(qū)間。
屬性離散化的關(guān)鍵就是按照區(qū)間進(jìn)行劃分,用數(shù)字型表示是為了計(jì)算機(jī)識(shí)別。
屬性(特征)連續(xù)化
大多指的是將取值為文本類(漢字,單詞)的屬性取值變?yōu)樗惴梢蕴幚淼臄?shù)字型。
比如性別屬性取值為”男“,”女“,進(jìn)行獨(dú)熱編碼”男“就變?yōu)?0,女就變?yōu)?1,形式上有漢字變?yōu)榱藬?shù)字型,雖然10,01并不是真正意義上的連續(xù)變量。
REF
https://blog.csdn.net/weixin_43461341/article/details/100116405