說明:非原創(chuàng),借鑒網(wǎng)上多方材料整理,其中包括CSDN博主路易三十六,TOMOCAT及百度資源整合做的一份學(xué)習(xí)筆記,與大家共享。
一、定義
判別分析又稱“分辨法”,是在分類確定的條件下,根據(jù)某一研究對象的各種特征值判別其類型歸屬問題的一種多變量統(tǒng)計分析方法。
二、判別分析的一般形式
y=a1x1+a2x2+……+anxn(a1為系數(shù),Xn為變量)。事先非常明確共有幾個類別,目的是從已知樣本中訓(xùn)練出判別函數(shù)
三、前提假設(shè)(有點類似多重回歸分析)
1.各自變量為連續(xù)性或有序分類變量
2.自變量和因變量符合線性假設(shè)
3.各組的協(xié)方差矩陣相等,類似與方差分析中的方差齊
4.變量間獨立,無共線性
注:違反條件影響也不大,主要看預(yù)測準(zhǔn)不準(zhǔn),準(zhǔn)的話違反也無所謂
四、用途
1.對客戶進行信用預(yù)測;2.尋找潛在客戶等
五、判別分析常用判別方法
1.最大似然法
適用于自變量均為分類變量的情況,算出這些情況的概率組合,基于這些組合大小進行判別
2.距離判別
對新樣品求出他們離各個類別重心的距離遠(yuǎn)近,適用于自變量均為連續(xù)變量的情況,對變量分布類型無嚴(yán)格要求
3.Fisher判別法
與主成份分析有關(guān),對分布、方差等都沒有什么限制,按照類別與類別差異最大原則提取公因子然后使用公因子判別
4.Bayes判別
強項是進行多類判別,要求總體呈多元正態(tài)分布。利用貝葉斯公式,概率分布邏輯衍生出來一個判別方法,計算這個樣本落入這個類別的概率,概率最大就被歸為一類
在spss中一般用Fisher判別即可,要考慮概率及誤判損失最小的用Bayes判別,但變量較多時,一般先進行逐步判別篩選出有統(tǒng)計意義的變量,但通常在判別分析前我們已經(jīng)做了相關(guān)的預(yù)分析,所以不推薦使用逐步判別分析(采用步進法讓自變量逐個嘗試進入函數(shù)式,如果進入到函數(shù)式中的自變量符合條件,則保留在函數(shù)式中,否則,將從函數(shù)式中剔除)。
六、聚類分析與判別分析的區(qū)別與聯(lián)系
都是研究分類的。聚類分析,對總體到底有幾種類型不知道(研究分幾類較為合適需從計算中加以調(diào)整)。判別分析則是在總體類型劃分已知,對當(dāng)前新樣本判斷它們屬于哪個總體。如我們對研究的多元數(shù)據(jù)的特征不熟悉,當(dāng)然要進行聚類分析,才能考慮判別分析問題。
七、判別分析得到的判別函數(shù)效果評判方法
1.自身驗證(拿訓(xùn)練數(shù)據(jù)直接預(yù)測驗證,但是對預(yù)測樣本預(yù)測好不代表對新樣本預(yù)測好)
2.外部數(shù)據(jù)驗證(收集新的數(shù)據(jù)來驗證,這是最客觀最有效的,但是麻煩而且兩次收集的數(shù)據(jù)不一定是同質(zhì)的)
3.樣本二分法(一般劃分2/3為訓(xùn)練集,1/3為驗證集,但是浪費了1/3的樣本)
4.交互驗證(Cross-Validation)----刀切法(10分法,數(shù)據(jù)劃分為10個集合,每次挑選一個出來做驗證集,其余9個做訓(xùn)練集,可以做10次,因為驗證集可換10種可能)
在spss軟件中通過【分析】—【留一分類】獲得此項結(jié)論。
下面采用實例來說明。
一、問題描述
如下圖-1數(shù)據(jù)集包含了剛毛、變色、弗吉尼亞這三種鳶尾花的花萼長、寬和花瓣長、寬,分析目的是希望能夠使用這4個變量來對花的種類進行區(qū)分。spno為事先的分組,度量標(biāo)準(zhǔn)設(shè)為【名義】。

二、數(shù)據(jù)預(yù)處理
主要是對假設(shè)條件的檢驗,在spss中【分析】—【描述統(tǒng)計】—【描述】,如圖-2


如圖-3可以看到數(shù)據(jù)的分布沒有特別的離異點,也沒有缺失值和不合理的分布,從而可以用該數(shù)據(jù)做接下來的判別分析。
三、spss操作
1)選擇分類變量及其范圍:如圖-4所示

【分組變量】矩形框中選擇表明已知的觀測量所屬類別的變量(一定是離散變量),在定義范圍框最小值中輸入該分類變量的最小值,最大框中輸入該分類變量的最大值。
2)? ? 指定判別分析的自變量
3) 選擇觀測量
如果希望使用一部分觀測量進行判別函數(shù)的推導(dǎo)而且有一個變量的某個值可以作為這些觀測量的標(biāo)識,則用Select 功能進行選擇,鍵入標(biāo)識參與分析的觀測量所具有的該變量值,一般均使用數(shù)據(jù)文件中的所有合法觀測量此步驟可以省略。
4) 選擇分析方法:如圖-5所示

【一起輸入自變量】選項,當(dāng)認(rèn)為所有自變量都能對觀測量特性提供豐富的信息時,使用該選擇項。選擇該項將不加選擇地使用所有自變量進行判別分析,建立全模型,不需要進一步進行選擇。
【使用步進式方法】選項,當(dāng)不認(rèn)為所有自變量都能對觀測量特性提供豐富的信息時,使用該選擇項。因此需要判別貢獻的大小,再進行選擇當(dāng)鼠標(biāo)單擊該項時【方法】按鈕加亮,可以進一步選擇判別分析方法。一般我們做判別分析前已經(jīng)做了相關(guān)的預(yù)分析(不推薦)。

如圖-6所示【方法】選項:步進法讓自變量逐個嘗試進入函數(shù)式,如果進入到函數(shù)式中的自變量符合條件,則保留在函數(shù)式中,否則,將從函數(shù)式中剔除??晒┻x擇的判別分析方法有:
1.Wilks'lambda 選項,它是組內(nèi)平方和與總平方和之比,用于描述各組的均值是否存在顯著差別,當(dāng)所有觀測組的均值都相等時,Wilks’lambda值為1;當(dāng)組內(nèi)變異與總變異相比很小時,表示組件變異較大,表示組間變異較大,系數(shù)接近于0。系統(tǒng)默認(rèn)選項。
2.未解釋方差。 它指把計算殘余最小的自變量優(yōu)先納入到判別函數(shù)式中。
3.Mahalanobis’距離 。它把每步都使靠得最近的兩類間的馬氏距離最大的變量進入判別函數(shù)
4.最小 F值。它把方差差異最大的自變量優(yōu)先納入到判別函數(shù)中。
5.Rao’s V 。勞氏增值法:它把勞氏統(tǒng)計量V產(chǎn)生最大增值的自變量優(yōu)先納入到判別函數(shù)中??梢詫σ粋€要加入到模型中的變量的V 值指定一個最小增量。選擇此種方法后,應(yīng)該在該項下面的V-to-enter 后的矩形框中輸入這個增量的指定值。當(dāng)某變量導(dǎo)致的V值增量大于指定值的變量后進入判別函數(shù)。
【標(biāo)準(zhǔn)】:選擇逐步判別停止的判據(jù)
1.使用F值。系統(tǒng)默認(rèn)的判據(jù)。當(dāng)加人一個變量(或剔除一個變量)后,對在判別函數(shù)中的變量進行方差分析。當(dāng)計算的F值大于指定的進入值時,該變量保留在函數(shù)中。默認(rèn)值是3.84:當(dāng)該變量使計算的F值小于指定的刪除值時,該變量從函數(shù)中剔除。默認(rèn)值為2.71。即當(dāng)被加入的變量F 值為3.84 時才把該變量加入到模型中,否則變量不能進入模型;或者,當(dāng)要從模型中移出的變量F值<2.71時,該變量才被移出模型,否則模型中的變量不會被移出.設(shè)置這兩個值時應(yīng)該注意進入值>刪除值。
2.使用F檢的概率。決定變量是否加入函數(shù)或被剔除的概率而不是用F值。加入變量的F值概率的默認(rèn)值是0.05(5%),移出變量的F值概率是0.10(10%)。刪除值(移出變量的F值概率) >進入值(加入變量的F值概率)。
【輸出】:對于逐步選擇變量的過程和最后結(jié)果的顯示可以通過輸出欄中的兩項進行選擇:
1.步進摘要。要求在逐步選擇變量過程中的每一步之后顯示每個變量的統(tǒng)計量。
2.兩兩組間距離的F值。要求顯示兩兩類之間的兩兩F值矩陣。
這里我們選擇建立全模型,所以不用對方法進行設(shè)置。

如圖-7所示【statistics】選項:可以選擇的輸出統(tǒng)計量分為以下3 類:
(1) 描述性
1.平均值。可以輸出各類中各自變量的均值、標(biāo)準(zhǔn)差和各自變量總樣本的均值和標(biāo)準(zhǔn)差。
2.單變量ANOVA復(fù)選項。對各類中同一自變量均值都相等的假設(shè)進行檢驗,輸出單變量的方差分析結(jié)果。
3.Box’s M 復(fù)選項。對各組的協(xié)方差矩陣相等的假設(shè)進行檢驗。如果樣本足夠大,差異不顯著的p值表明矩陣差異不明顯。
(2)函數(shù)系數(shù)欄:選擇判別函數(shù)系數(shù)的輸出形式
1.Fisherh’s。給出Bayes判別函數(shù)的系數(shù)。對每一類給出一組系數(shù),并給出該組中判別分?jǐn)?shù)最大的觀測量。(注意:這個選項不是要給出Fisher判別函數(shù)的系數(shù)。這個復(fù)選框的名字之所以為Fisher’s,是因為按判別函數(shù)值最大的一組進行歸類這種思想是由Fisher提出來的。這里極易混淆,請注意辨別。)
2.未標(biāo)準(zhǔn)化。給出未標(biāo)準(zhǔn)化的判別函數(shù)(即典型判別函數(shù))的系數(shù)(SPSS默認(rèn)給出標(biāo)準(zhǔn)化的判別函數(shù)信息)。
(3)矩陣
1.組內(nèi)相關(guān)。即類內(nèi)相關(guān)矩陣,它是根據(jù)在計算相關(guān)矩陣之前將各組(類)協(xié)方差矩陣平均后計算類內(nèi)相關(guān)矩陣。
2.組內(nèi)協(xié)方差。即計算并顯示合并類內(nèi)協(xié)方差矩陣,是將各組(類)協(xié)方差矩陣平均后計算的。區(qū)別于總協(xié)方差陣。
3.分組協(xié)方差。對每類輸出顯示一個協(xié)方差矩陣。
4.總體協(xié)方差。計算并顯示總樣本的協(xié)方差矩陣。

如圖-8所示【分類】選項:
(1) 先驗概率:兩者選其一
1.所有組相等。各類先驗概率相等。若分為m類,則各類先驗概率均為1/m。系統(tǒng)默認(rèn)
2.根據(jù)組大小計算。由各類的樣本量計算決定,即各類的先驗概率與其樣本量成正比。
(2) 使用協(xié)方差矩陣 :選擇分類使用的協(xié)方差矩陣
1.在組內(nèi)。指定使用合并組內(nèi)協(xié)方差矩陣進行分類。系統(tǒng)默認(rèn)
2.分組。指定使用各組協(xié)方差矩陣進行分類。
由于分類是根據(jù)判別函數(shù),而不是根據(jù)原始變量,因此該選擇項不是總等價于二次判別。
(3) 圖:選擇要求輸出的統(tǒng)計圖
1.合并組。生成一張包括各類的散點圖。該散點圖是根據(jù)前兩個判別函數(shù)值作的散點圖。如果只有一個判別函數(shù)就輸出直方圖。
2.分組。根據(jù)前兩個判別函數(shù)值對每一類生成一張激點圖,共分為幾類就生成幾張散點圖。如果只有一個判別函數(shù)就輸出直方圖。
3.區(qū)域圖。生成用于根據(jù)函數(shù)值把觀測量分到各組中去的邊界圖。此種統(tǒng)計圖把一張圖的平面劃分出與類數(shù)相同的區(qū)域。每一類占據(jù)一個區(qū)各類的均值在各區(qū)中用*號標(biāo)出。如果僅有一個判別函數(shù),則不作此圖。
(4) 輸出欄:選擇生成到輸出窗中的分類結(jié)果
1.個案摘要。要求輸出每個觀測量包括判別分?jǐn)?shù)、實際類、預(yù)測類(根據(jù)判別函數(shù)求得的分類結(jié)果)和后驗概率等。選擇此項還可以選擇其附屬選擇項:將個案限制在前,并在后面的小矩形框中輸入觀測量數(shù)n選擇。此項則僅對前n個觀測量輸出分類結(jié)果。觀測數(shù)量大時可以選擇此項。
2.摘要表。要求輸出分類的小結(jié),給出正確分類觀測量數(shù)(原始類和根據(jù)判別函數(shù)計算的預(yù)測類相同)和錯分觀測量數(shù)和錯分率。
3.不考慮該個案時的分類(留一分類)。輸出對每個觀測量進行分類的結(jié)果,所依據(jù)的判別是由除該觀測量以外的其他觀測量導(dǎo)出的,也稱為交互校驗結(jié)果。建議勾選
(5)使用均值替換缺失值:即用該類變量的均值代替缺失值。缺失值缺失大于10%,不介意勾選
本例中如圖-8中勾選。

如圖-9所示【保存】選項:指定生成并保存在數(shù)據(jù)文件中的新變量
1.預(yù)測組成員。要求建立一個新變量,預(yù)測觀測量的分類。是根據(jù)判別分?jǐn)?shù)把觀測量按后驗概率最大指派所屬的類。每運行一次Discriminant過程,就建立一個表明使用判別函數(shù)預(yù)測各觀測量屬于哪一類的新變量。第1 次運行建立新變量的變量名為dis_l,如果在工作數(shù)據(jù)文件中不把前一次建立的新變量刪除,第n次運行Descriminant 過程建立的新變量默認(rèn)的變量名為dis_n。
2.判別分?jǐn)?shù)。要求建立fisher判別分?jǐn)?shù)的新變量。該分?jǐn)?shù)是由未標(biāo)準(zhǔn)化的判別系數(shù)乘自變量的值,將這些乘積求和后加上常數(shù)得來。每次運行Discriminant過程都給出一組表明判別分?jǐn)?shù)的新變量,建立幾個判別函數(shù)就有幾個判別分?jǐn)?shù)變量。
3. 組成員概率。Bayes后驗概率值。有m類,對一個觀測量就會給出m個概率值,因此建立m個新變量。
本例不勾選。
四、輸出結(jié)果











下面為最重要的結(jié)果,可在撰寫結(jié)論使用。

