因子分析怎么做?數(shù)據(jù)為什么要標準化?

數(shù)據(jù)分析工作,并不是直接從分析開始的,當拿到一份要分析的數(shù)據(jù),往往需要先進行一項基礎工作-數(shù)據(jù)處理。數(shù)據(jù)處理一般的操作方法,正如SPSSAU【數(shù)據(jù)處理】板塊中所提供的這些處理方法。

并且上圖的【生成變量】方法中包涵了多種對數(shù)據(jù)變量重新處理的方法:


其中數(shù)據(jù)的標準化處理,是在進行很多數(shù)據(jù)分析之前都需要做的:

  • 在一些分析比如主成分分析、因子分析、線性回歸分析等均希望數(shù)據(jù)標準化處理。

  • 同時一些綜合性評價方法還會要求更多的數(shù)據(jù)處理,比如中心化等,中心化是指:X-平均值。

  • 還有一些經(jīng)管類的方法:比如中介作用、調(diào)節(jié)作用等均要求標準化。

如果不進行標準化處理,后面的分析結果可能會存在誤差。

數(shù)據(jù)的標準化處理主要是為了消除指標之間的量綱和取值范圍差異的影響。什么是消除指標的量綱?一般情況下,我們所收集的數(shù)據(jù)是有單位的,比如收集到一份個人信息,其中包括人的身高和體重兩個指標,身高有單位cm,體重有單位kg,消除指標的量綱就是消除它們的單位,當不同指標的量級差別很大時,消除量綱是有必要的,否則,數(shù)據(jù)的分析結果可能由量級較大的指標值決定,而忽略了量級小的指標,所以消除量綱,使之全部變成沒有單位的數(shù)據(jù),便于之后的分析。

例如下面的案例,需要對我國各省市的綜合發(fā)展情況做因子分析,表中有六個指標。

像這樣的數(shù)據(jù),有的指標值特別大,有的指標值特別小,比如“高校數(shù)量”和“人均GDP”這兩個指標,那么在進行因子分析之前,就需要先對這六個指標變量進行數(shù)據(jù)標準化。

數(shù)據(jù)標準化的處理中,使用最廣泛的一種標準化方法是z-score標準化,這篇文章分享z-score標準化的原理和做法,以及怎么進行因子分析。

一、數(shù)據(jù)的Z-score標準化

(1)Z-score標準化原理

z-score標準化是基于原始數(shù)據(jù)的均值μ和標準差σ進行的,通過下面的轉換公式,就可以將原始值轉換為統(tǒng)一的均值為0,標準差為1的數(shù)據(jù)。

z-score標準化轉換公式:


新得到的標準化數(shù)據(jù)的意義是“給定數(shù)據(jù)距離均值相對來說有多少個標準差”,在均值之上的數(shù)據(jù)會得到一個正的標準化分數(shù),在均值之下的則得到一個負的標準化分數(shù)。標準化之后數(shù)據(jù)就會全部統(tǒng)一起來,不會有數(shù)據(jù)非常大比如10000,而有的數(shù)據(jù)非常小比如10。如下圖:

適用:z-score標準化的方法適用于一個變量的最大值和最小值未知的情況,或有超出取值范圍的離群數(shù)據(jù)的情況。

(2)使用SPSSAU對數(shù)據(jù)進行標準化處理

實際的分析操作中,數(shù)據(jù)標準化處理很簡單,這里以上面的案例數(shù)據(jù)來演示如何做。

1、首先打開SPSSAU網(wǎng)站,上傳好數(shù)據(jù)如下圖:

2、對6個衡量各省市的綜合發(fā)展情況的指標值進行標準化處理,在SPSSAU頁面右側選擇【數(shù)據(jù)處理】版塊中的【生成變量】按鈕。


3、接著選擇Z標準化方法,選中需要標準化的6個指標,點擊【確認處理】即可。


4、處理結果

SPSSAU系統(tǒng)自動生成新的標準化后的指標變量,原始指標值仍然存在。

此時也可以查看具體的標準化后的數(shù)值,可以看到所有的數(shù)據(jù)都被壓縮到了特定區(qū)間內(nèi):

這樣就完成了數(shù)據(jù)標準化處理,接下來可以用標準化后的數(shù)據(jù)做因子分析了。

二、因子分析

SPSSAU中提供現(xiàn)成的因子分析方法,可以快速完成,操作如下:

(1)操作步驟

在SPSSAU頁面左側選擇【進階方法】中的【因子】按鈕,將標準化后的6個指標變量拖拽到頁面右側的分析框中,根據(jù)研究實際情況選擇因子數(shù)量,這里選擇3個,點擊【開始分析】即可得出因子分析結果。


(2)輸出結果
SPSSAU共輸出4個結果表格,自動生成2個可視化圖形,分別如下:

1、KMO和Bartlett的檢驗:


因子分析探索定量數(shù)據(jù)可以濃縮為幾個方面(因子),每個方面(因子)和題項對應關系;

第一:分析KMO值;如果此值高于0.8,則說明非常適合進行因子分析;如果此值介于0.7~0.8之間,則說明比較適合進行因子分析;如果此值介于0.6~0.7,則說明可以進行因子分析;如果此值小于0.6,說明不適合進行因子分析;

第二:如果Bartlett檢驗對應p值小于0.05也說明適合進行因子分析;

第三:如果僅兩個分析項,則KMO無論如何均為0.5。

2、方差解釋率表格


3、旋轉后因子載荷系數(shù)表格

4、成份得分系數(shù)矩陣


5、碎石圖


6、載荷圖

7、線性組合系數(shù)及權重結果

三、總結

總之,在做因子分析之前,一般需要先進行數(shù)據(jù)標準化處理,消除數(shù)據(jù)指標的量綱影響,數(shù)據(jù)標準化與因子分析在SPSSAU在線SPSS數(shù)據(jù)分析工具中都被傻瓜化處理,只需要點點拽拽即可完成,更方便統(tǒng)計入門者使用。


?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容