
判別分析
判別分析的特點(diǎn)是根據(jù)已掌握的、歷史上每個(gè)類別的若干樣本的數(shù)據(jù)信息,總結(jié)出客觀事物分類的規(guī)律性,建立判別公式和判別準(zhǔn)則。
判別分析和聚類分析都是要求對(duì)樣本進(jìn)行分類,但兩者的分析內(nèi)容和要求是不一樣的。聚類分析是給定數(shù)量的樣品,但樣品應(yīng)劃分出怎樣的類別還不清楚,需要聚類分析來判別。判別分析是已知樣品應(yīng)分為怎樣的類別,判斷每一個(gè)樣品應(yīng)屬于怎樣的類別。

距離判別
距離判別是以給定樣品與各總體之間的距離的計(jì)算值為準(zhǔn)則進(jìn)行類別判斷的一種方法。由于馬氏距離不受量綱的影響,因此,在距離判別法中,也采用馬氏距離作為類別判斷的依據(jù)。
兩個(gè)總體的判別規(guī)則
(1)若ω(x)>0 則x屬于G?
(2)若ω(x)<0 則x屬于G?
(3)若ω(x)=0 則待判
其中,ω(x)為x的線性函數(shù):(推導(dǎo)過程略)
故常稱ω(x)為線性判別函數(shù)
多總體的判別規(guī)則
協(xié)方差陣相同時(shí):
判別函數(shù)為:
相應(yīng)的判別規(guī)則為:

協(xié)方差陣不同時(shí):
判別函數(shù)為:
相應(yīng)的判別規(guī)則為:

Fisher判別法
該法是按照類內(nèi)方差盡量小,類間方差盡量大的準(zhǔn)則來要求判別函數(shù)。組與組的分開借用了方差分析的思想。
1. 兩總體Fisher判別
從兩個(gè)總體中抽取p個(gè)指標(biāo)的樣品觀測數(shù)據(jù),根據(jù)方差分析的思想構(gòu)造一個(gè)判別函數(shù):
其中系數(shù)確定的原則是使兩組間的區(qū)別最大,而使每個(gè)組內(nèi)部的離差最小。
有了判別式以后,對(duì)于一個(gè)新的樣品,將它的p個(gè)指標(biāo)帶入判別函數(shù)中求出y值。然后與判別臨界值進(jìn)行比較,就可以判斷它屬于哪一個(gè)總體。
分析過程:
- 建立判別函數(shù)
- 計(jì)算臨界值,然后根據(jù)判別準(zhǔn)則對(duì)新樣品進(jìn)行判別分類。
- 檢驗(yàn)判別效果(當(dāng)兩個(gè)總體協(xié)方差陣相同且總體服從正態(tài)分布)——F檢驗(yàn)
2. 多總體Fisher判別
設(shè)有k個(gè)總體G?,G?,…,Gk,從中抽取的樣品數(shù)為n?,n?,…,nk,令n=n?+n?+…+nk。設(shè)判別函數(shù)為:
其中,
在多總體情況下繼續(xù)選取系數(shù)向量c即可。
注:一般來說,對(duì)經(jīng)驗(yàn)樣品回判率大于80%就可以使用Fisher判別。
Bayes判別法
貝葉斯判別的基本思想是認(rèn)為所有G個(gè)類別都是空間中互斥的子域,每個(gè)觀測都是空間中的一個(gè)點(diǎn)。
在考慮先驗(yàn)概率的前提下,利用Bayes公式按照一定的準(zhǔn)則構(gòu)建一個(gè)判別函數(shù),分別計(jì)算該樣品落入各個(gè)子域的概率,所有概率中最大的一類就被認(rèn)為是樣品所屬的類別。
Bayes判別的數(shù)學(xué)推導(dǎo)略,其數(shù)學(xué)模型的建立可參考:[百度文庫](https://wenku.baidu.com/view/37949474a8114431b80dd803.html),P5-P14
但在Bayes判斷規(guī)則之前,設(shè)
有必要進(jìn)行統(tǒng)計(jì)檢驗(yàn)H??:μ?=μ?=…=μk。當(dāng)H??被接受,說明k個(gè)總體是一樣的,也就沒有必要建立判別函數(shù);
若H??被拒絕,就需要檢驗(yàn)每兩個(gè)總體之間差異的顯著性,重復(fù)操作。
逐步判別法
逐步判別的思想類似于逐步回歸。變量按照其重要性逐步引入,已經(jīng)引入的變量也可能因?yàn)樾碌淖兞慷惶蕹?。每次引入或剔除變量都進(jìn)行相應(yīng)的統(tǒng)計(jì)檢驗(yàn)。
利用威爾克斯統(tǒng)計(jì)量對(duì)變量的重要性進(jìn)行區(qū)分:
其中Λ(X,Xj)表示X與Xj的威爾克斯檢驗(yàn)統(tǒng)計(jì)量,Λ=組內(nèi)離差平方和/樣本點(diǎn)總離差平方和。
SPSS應(yīng)用
步驟:分析->分類->判別,選入變量,如下圖:

定義分組變量范圍,如下圖:

點(diǎn)擊Statistics按鈕,選擇如下圖:

Fisher's:
實(shí)際是對(duì)新樣品進(jìn)行判別分類的貝葉斯判別系數(shù)。因?yàn)榘磁袆e函數(shù)值最大的一組進(jìn)行歸類這種思想是Fisher提出的,所以SPSS用Fisher對(duì)貝葉斯方法進(jìn)行命名。
未標(biāo)準(zhǔn)化:
即一般意義上的費(fèi)舍爾判別函數(shù)系數(shù)(系統(tǒng)一般給出的是標(biāo)準(zhǔn)化的費(fèi)舍爾判別函數(shù)系數(shù))
單擊分類按鈕,如下圖:

單擊Save按鈕,選項(xiàng)如下圖:

主要輸出結(jié)果:

右圖是貝葉斯判別函數(shù)系數(shù)表,將樣品的各參數(shù)帶入2個(gè)貝葉斯判別函數(shù),比較得出的函數(shù)值,哪個(gè)函數(shù)值較大就將該樣品歸于哪一類。
以及最后的樣品判別結(jié)果見下表:

可以直接讀出預(yù)測組的分類為第2類。