Orange3的Continuize和Linear Projection

Continuize插件是一個數(shù)據(jù)標準化的插件,可以將分類數(shù)據(jù)(categorical data)轉(zhuǎn)為二元屬性或序數(shù)屬性數(shù)據(jù),將數(shù)值數(shù)據(jù)歸一化。分類數(shù)據(jù)例如高鐵倉位中的頭等艙、一等艙、二等艙等,轉(zhuǎn)化后可以用0或1代替,或者用1、2、3代替,便于后期的展示分析;將特征變量打橫。
Linear Projection 插件可以理解為數(shù)據(jù)特征的線性投影(雖然字面意思像線性預測),通過一個多維空間展示數(shù)據(jù)特征,可視化數(shù)據(jù)分類。


image.png

以心臟病數(shù)據(jù)為例(heart_disease.tab)介紹下Continuize插件:
1.File獲取數(shù)據(jù);我們以chest pain 分類數(shù)據(jù)為例講解,它有 asymptomatic、atypical ang 、non-anginal、typical ang四個值。
2.Edit Domain 插件是編輯特征值順序用的,默認是字母順序,但可以通過這個工具調(diào)整;與后面序數(shù)化時的123對應。


image.png

選定值,右側(cè)可以調(diào)整順序;
3.Continuize插件,根據(jù)需要進行數(shù)據(jù)轉(zhuǎn)化,后面跟個Data table看數(shù)據(jù)變化。
1)One attribute per value選項,
這個是我們比較常用的轉(zhuǎn)化方式,每個特征變量都有一個值(0&1 或者 -1&1),0表示不等于 ,1表示等于;


image.png

原先chest pain一列,現(xiàn)在變?yōu)榱嗣總€值一列,共四列;

2)First value as base 選項
直譯過來就是將分類數(shù)據(jù)按順序的第一個值作為基礎;效果就是在數(shù)據(jù)轉(zhuǎn)化時,除了特征變量按順序第一個值之外,其他的值都進行轉(zhuǎn)化。


image.png

從edit domain插件看chest pain變量的第一個值是asymptomatic,除了它之外的所有值都變成了一列。
3)Most frequent value as base 選項
跟first value類似,不過這個是將最常出現(xiàn)的值剔除了。


image.png

可以從Distribution插件上看數(shù)據(jù)的出現(xiàn)占比,可以看下例子中的gender變量。
4)Ignore multinomial attributes選項
忽略多項式,只轉(zhuǎn)化有兩個選項的變量。


image.png

例子中chest pain就沒有了。
5)Remove categrorical attributes 選項
這個比較狠,把分類變量都刪了,何用有之。
image.png

6)Treat as ordinal 選項
將分類名稱變?yōu)轫樞蛑?,哪個值對應哪個序號,默認按字母,也可以用Edit domain插件更改順序。


image.png

變換后就出現(xiàn)了chest pain值為0、1、2、3.
7)Divide by number of values 選項
跟上一個類似,不過這個是把序號轉(zhuǎn)化為了0-1之間的數(shù)字了。數(shù)據(jù)標準化,數(shù)據(jù)歸一化到0-1之間。


image.png

如chest pain就變成了0、0.333、0.666、1。

Number Features 對數(shù)值數(shù)據(jù)處理
1) leave them as they are 不處理不管他們
2)Normalize by span 將數(shù)值歸一化到0-1之間


image.png

可以看到age的變化。
3)Normalize by standard deviation 使用標準差歸一化。


image.png

Categorical Outcomes 對目標的結(jié)果的處理
處理方式跟以上類似,不多解釋了。

對應Linear Projections以鳶尾屬植物數(shù)據(jù)為例(iris.tab)簡單介紹下:(這個比較直觀)

image.png

通過線性投影分類后,鼠標選中的黃色這部分數(shù)為Iris-setosa屬,后面再加一個Data table插件,就可以看選中這部數(shù)據(jù)了。
對于要預測的數(shù)據(jù),可以根據(jù)以上的到的規(guī)律,再Linear Projections中選出,然后輸出到一個Data table中,完成分類。
在數(shù)據(jù)連線上選三個:


image.png
image.png

這里就有個select變量標示哪些是你在linear projection中選出來的。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容