Continuize插件是一個數(shù)據(jù)標準化的插件,可以將分類數(shù)據(jù)(categorical data)轉(zhuǎn)為二元屬性或序數(shù)屬性數(shù)據(jù),將數(shù)值數(shù)據(jù)歸一化。分類數(shù)據(jù)例如高鐵倉位中的頭等艙、一等艙、二等艙等,轉(zhuǎn)化后可以用0或1代替,或者用1、2、3代替,便于后期的展示分析;將特征變量打橫。
Linear Projection 插件可以理解為數(shù)據(jù)特征的線性投影(雖然字面意思像線性預測),通過一個多維空間展示數(shù)據(jù)特征,可視化數(shù)據(jù)分類。

以心臟病數(shù)據(jù)為例(heart_disease.tab)介紹下Continuize插件:
1.File獲取數(shù)據(jù);我們以chest pain 分類數(shù)據(jù)為例講解,它有 asymptomatic、atypical ang 、non-anginal、typical ang四個值。
2.Edit Domain 插件是編輯特征值順序用的,默認是字母順序,但可以通過這個工具調(diào)整;與后面序數(shù)化時的123對應。

選定值,右側(cè)可以調(diào)整順序;
3.Continuize插件,根據(jù)需要進行數(shù)據(jù)轉(zhuǎn)化,后面跟個Data table看數(shù)據(jù)變化。
1)One attribute per value選項,
這個是我們比較常用的轉(zhuǎn)化方式,每個特征變量都有一個值(0&1 或者 -1&1),0表示不等于 ,1表示等于;

原先chest pain一列,現(xiàn)在變?yōu)榱嗣總€值一列,共四列;
2)First value as base 選項
直譯過來就是將分類數(shù)據(jù)按順序的第一個值作為基礎;效果就是在數(shù)據(jù)轉(zhuǎn)化時,除了特征變量按順序第一個值之外,其他的值都進行轉(zhuǎn)化。

從edit domain插件看chest pain變量的第一個值是asymptomatic,除了它之外的所有值都變成了一列。
3)Most frequent value as base 選項
跟first value類似,不過這個是將最常出現(xiàn)的值剔除了。

可以從Distribution插件上看數(shù)據(jù)的出現(xiàn)占比,可以看下例子中的gender變量。
4)Ignore multinomial attributes選項
忽略多項式,只轉(zhuǎn)化有兩個選項的變量。

例子中chest pain就沒有了。
5)Remove categrorical attributes 選項
這個比較狠,把分類變量都刪了,何用有之。

6)Treat as ordinal 選項
將分類名稱變?yōu)轫樞蛑?,哪個值對應哪個序號,默認按字母,也可以用Edit domain插件更改順序。

變換后就出現(xiàn)了chest pain值為0、1、2、3.
7)Divide by number of values 選項
跟上一個類似,不過這個是把序號轉(zhuǎn)化為了0-1之間的數(shù)字了。數(shù)據(jù)標準化,數(shù)據(jù)歸一化到0-1之間。

如chest pain就變成了0、0.333、0.666、1。
Number Features 對數(shù)值數(shù)據(jù)處理
1) leave them as they are 不處理不管他們
2)Normalize by span 將數(shù)值歸一化到0-1之間

可以看到age的變化。
3)Normalize by standard deviation 使用標準差歸一化。

Categorical Outcomes 對目標的結(jié)果的處理
處理方式跟以上類似,不多解釋了。
對應Linear Projections以鳶尾屬植物數(shù)據(jù)為例(iris.tab)簡單介紹下:(這個比較直觀)

通過線性投影分類后,鼠標選中的黃色這部分數(shù)為Iris-setosa屬,后面再加一個Data table插件,就可以看選中這部數(shù)據(jù)了。
對于要預測的數(shù)據(jù),可以根據(jù)以上的到的規(guī)律,再Linear Projections中選出,然后輸出到一個Data table中,完成分類。
在數(shù)據(jù)連線上選三個:


這里就有個select變量標示哪些是你在linear projection中選出來的。