關(guān)于spss的一點(diǎn)常識(shí)

數(shù)據(jù)清洗

刪除重復(fù)

數(shù)據(jù)-標(biāo)記重復(fù)個(gè)案-把需要參考的都拖入右邊定義-生成0代表重復(fù),1代表不重復(fù)-在01這一列右鍵升序-刪除0


數(shù)據(jù)抽取

字段拆分(例如身份證號(hào)提取生日)

轉(zhuǎn)換-計(jì)算變量-函數(shù)選擇字符串-函數(shù)選擇Substr(3)-更改參數(shù)substr(字符串(身份證),從第幾個(gè)開始提取,提取幾個(gè))-目標(biāo)變量改名字-類型改為字符串

隨機(jī)抽樣

數(shù)據(jù)-選擇個(gè)案-隨機(jī)個(gè)案樣本-大約&(可選擇把選定個(gè)案復(fù)制到新數(shù)據(jù)集)

數(shù)據(jù)合并

年月日字段合并

轉(zhuǎn)換-計(jì)算變量-字符串-函數(shù)選擇Concat(年份,”-“,月份,”-”日)必須英文標(biāo)點(diǎn)-字符串寬度為10

若想進(jìn)行計(jì)算,可在變量視圖中將數(shù)據(jù)類型改為日期型yyyy/mm/dd

記錄合并

將兩個(gè)表中的數(shù)據(jù)合并,不用復(fù)制粘貼

打開一個(gè)表-數(shù)據(jù)-合并文件-添加個(gè)案-從外部選

數(shù)據(jù)分組

可視分箱(數(shù)據(jù)分段)

轉(zhuǎn)換-可視化分箱-將要分的數(shù)據(jù)拖到右邊-填寫分箱化變量-生成分割點(diǎn)-生成標(biāo)簽

逆推的話,則采用 轉(zhuǎn)換-重新編碼為不同變量-舊值和新值

數(shù)據(jù)標(biāo)準(zhǔn)化

0-1標(biāo)準(zhǔn)化

轉(zhuǎn)換-計(jì)算變量-目標(biāo)變量寫標(biāo)準(zhǔn)化值-公式(x-min)(max-min)-目標(biāo)變量數(shù)值

Z標(biāo)準(zhǔn)化

分析-描述統(tǒng)計(jì)-描述-變量拖動(dòng)

描述性分析

頻率分析

分析-描述統(tǒng)計(jì)-頻率-(Q幾可以右鍵顯示)-拖入

百分比:每類別有效值和缺省值所占總體比例

有效百分比:有效值所占

累計(jì)百分比:從第一個(gè)類別依次累加

連續(xù)變量頻率

分析-描述統(tǒng)計(jì)-頻率-拖入-statistics-四位分?jǐn)?shù)平均值百分點(diǎn)離散程度等選選選-圖表選擇

條形圖:數(shù)據(jù)分布,長(zhǎng)度表示頻數(shù)

直方圖:連續(xù)數(shù)據(jù),面積表示頻數(shù)

餅圖:數(shù)據(jù)結(jié)構(gòu)

交叉表分析

分析-描述統(tǒng)計(jì)-交叉表-行列以此拖入-單元格

多選題定義

分析-表-多重定制-選擇要弄得題目拖-二分法(計(jì)數(shù)值1)或類別-添加-更改集合名(Q幾)和集合標(biāo)簽(Q幾.名稱)

報(bào)表

分析-定職表-同時(shí)選中左側(cè)要選的-拖入行or列-摘要統(tǒng)計(jì)加權(quán)數(shù)

自定義分組

分析-定制表-拖入-分類和總計(jì)-選中起止點(diǎn)的標(biāo)簽-添加小計(jì)


相關(guān)分析

皮爾遜相關(guān)系數(shù)r反映連續(xù)變量之間線性相關(guān)強(qiáng)度的度量指標(biāo) 【-1,1】為0則線性無(wú)關(guān),絕對(duì)值小于0.3低度相關(guān),高于0.8高度相關(guān)。正負(fù)號(hào)表示正or負(fù)相關(guān)

回歸分析

簡(jiǎn)單線性回歸

步驟:1.確定自變量和因變量

2.繪制散點(diǎn)圖,看r:

圖形-舊對(duì)話框-散點(diǎn)圖-簡(jiǎn)單散點(diǎn)-將需要比較的變量拖入xy軸分析-相關(guān)-雙變量-依次

入,選擇皮爾遜-輸出表格看r的大小確立相關(guān)度

3.估計(jì)模型參數(shù),建立線性回歸模型

分析-回歸-線性,拖入自變因變-統(tǒng)計(jì)和選項(xiàng)一般保留默認(rèn)值

4.對(duì)回歸模型進(jìn)行檢驗(yàn)

輸出了四個(gè)表:

1線性回歸模型輸入/除去表

2線性模型回歸模型匯總表:R2越接近1,擬合效果越好

3線性回歸方差分析表:一般看F和顯著性P,P若大于0.05則不具有顯著地統(tǒng)計(jì)學(xué)意義,0.01-0.05具有顯著的統(tǒng)計(jì)學(xué)意義,若小于0.01極其顯著

4.線性回歸模型回歸系數(shù)表:一般根據(jù)B里面的兩個(gè)數(shù)可以列出Y=A+Bx的式子

5.利用回歸模型進(jìn)行預(yù)測(cè):根據(jù)式子代入,可在保存中勾選預(yù)測(cè)值中的未標(biāo)準(zhǔn)化

多重線性回歸(多個(gè)自變量)

步驟如上,圖形-舊對(duì)話框-散點(diǎn)圖-矩陣散點(diǎn)圖-定義-拖入要比較的多個(gè)變量到矩陣變量


自動(dòng)線性建模

連續(xù)變量,分類變量,均可作為自變量參與建模

自動(dòng)建模

分析-回歸-自動(dòng)建模-預(yù)測(cè)變量中是可以編輯的,將明顯不是自變量的移到“字段”中(例如日期,用戶id)將因變量移到“目標(biāo)”中-運(yùn)行

結(jié)果解讀

以圖示為例,其中左側(cè)圖都可以雙擊查看


Logistic回歸

因變量是分類變量的回歸,對(duì)數(shù)變換,分類變量分為二分類(是or否)和多分類。二分類就是logistic回歸,1和0 對(duì)應(yīng) 是和否 ?概率中P>0.5 對(duì)應(yīng)的是1

分析-回歸-二元logistic-移動(dòng)因變量和協(xié)變量-保存-勾選概率值

輸出的表格重點(diǎn)關(guān)注

此表格中,未續(xù)約數(shù)是300 續(xù)約數(shù)是797 ?續(xù)約判斷準(zhǔn)確性73.1%

回歸檢驗(yàn)量為 瓦爾德(wald)顯著性全部小于0.01 極顯著

logit(P)=-2.287+0.014*營(yíng)業(yè)收入+0.099*注冊(cè)時(shí)長(zhǎng)-0.184*成本

預(yù)測(cè)

在上述“保存”中-將模型信息導(dǎo)出到XML文件-再打開一個(gè)類似的新文件(因變量自變量相同)-實(shí)用程序-評(píng)分向?qū)?找到保存的文件-勾選預(yù)測(cè)值


時(shí)間序列分析

用于預(yù)測(cè)的時(shí)間序列,假設(shè)事物發(fā)展延伸到未來(lái),具有不規(guī)則性,不考慮因果關(guān)系

一般會(huì)把季節(jié)變動(dòng)因素分解出去(因?yàn)榧竟?jié)變動(dòng)會(huì)讓預(yù)測(cè)模型變?yōu)椴灰?guī)則)

定義日期指示變量

即便是數(shù)據(jù)中有“日期”這個(gè)變量,也要重新定義指示變量

數(shù)據(jù)-定義日期和時(shí)間-左側(cè)個(gè)案根據(jù)變量起止來(lái)決定,例如年份,月份-年份輸入

序列發(fā)展趨勢(shì)

分析-預(yù)測(cè)-序列圖-移動(dòng)變量-date作為時(shí)間軸標(biāo)簽

序列圖中,季節(jié)波動(dòng)大后續(xù)采用乘法模型(四種因素相互影響)Y=T(長(zhǎng)期模型)*S(季節(jié)變動(dòng))*C(循環(huán)變動(dòng))*I(不規(guī)則變動(dòng))

季節(jié)波動(dòng)小采用加法模型 Y=T+S+C+I

例如下圖 波動(dòng)大 采用乘法

季節(jié)因素分離

分析-預(yù)測(cè)-季節(jié)性(周期性)分解-變量移動(dòng),選擇模型


探索性分析

從大量的數(shù)據(jù)中發(fā)現(xiàn)未知有價(jià)值信息(找高端客戶)

RFM分析(Recency交易時(shí)間間隔 ?Frequency交易次數(shù) Monetary交易金額)

根據(jù)客戶活躍度和交易金額貢獻(xiàn)細(xì)分的方法

數(shù)據(jù)格式:1交易數(shù)據(jù):每次交易占用一行,關(guān)鍵變量為客戶ID,交易日期和交易金額

? ? ? ? ? ? ? ? ? ? ?2客戶數(shù)據(jù):每個(gè)客戶占用一行,關(guān)鍵變量是客戶ID,交易總金額,交易總次數(shù)和最 ? ? ? ? ? ? ? ? ? ? ? ?近交易日期

直銷-選擇技術(shù)-幫助確定我的最佳聯(lián)系人-交易數(shù)據(jù)-移動(dòng)對(duì)應(yīng)變量-輸出可全部勾選-出現(xiàn)分析圖

分析-描述統(tǒng)計(jì)-描述-將各種得分移動(dòng)-轉(zhuǎn)換-重新編碼為不同變量-每次移動(dòng)一個(gè)得分-

舊值和新值-從值到最高-框中輸入平均值-右側(cè)值中輸入表示高的值-添加

舊值和新值-所有其他值-值中輸入表示低的值-添加

數(shù)據(jù)-定義變量屬性-找到之前改的分類拖入

聚類分析

讓同一個(gè)類別的個(gè)體之間具有較高相似度,不同的則差別大

1.快速聚類分析(K均值聚類分析)

分析-分類-k平均值聚類-各種評(píng)定依據(jù)作為變量,個(gè)案選擇每個(gè)人-共分為幾組-保存勾選聚類成員

生成表后 分析-定制表(QCL移動(dòng)到列 評(píng)判依據(jù)到行)

可自定義初始聚類中心,但僅限連續(xù)變量

2.系統(tǒng)聚類分析

分析-分類-系統(tǒng)聚類-評(píng)判依據(jù)移入變量

統(tǒng)計(jì)-可輸入生成類別范圍(例如3-4)


圖-譜系圖(即樹狀圖)

方法-(默認(rèn)組間連接 平方歐式距離)可勾選Z得分

保存-可勾選解的范圍(如果之前勾選范圍的話)

分析-描述統(tǒng)計(jì)-頻率

分析-定制表(將CLU移動(dòng)到列 評(píng)判依據(jù)到行)

支持個(gè)案或變量聚類,但不能同時(shí)處理兩種類型變量

3.二階聚類分析

分析-分類-兩步聚類-評(píng)判依據(jù)為連續(xù)變量-性別學(xué)歷等為分類變量-輸出選擇透視表和創(chuàng)建聚類成員變量

對(duì)比表格BCI變化量等三項(xiàng)依據(jù),選擇最大的,則為最佳類別數(shù)

雙擊最后一張圖表,可模型查看器,按ctrl點(diǎn)擊分類可以對(duì)比單元格分布


可自動(dòng)選擇最佳聚類數(shù),綜合考慮分類和連續(xù)變量,但建議個(gè)案數(shù)大于1000

因子分析

通過(guò)研究變量間的相關(guān)系數(shù)矩陣,把復(fù)雜關(guān)系歸結(jié)成少數(shù)幾個(gè)綜合因子 降維

連續(xù)變量,各按個(gè)數(shù)為變量個(gè)數(shù)5倍以上,KMO在0.5以上(0.8以上極其適合)

分析-降維-因子分析-移動(dòng)變量-描述(原始結(jié)果和KMO球狀度)-抽?。J(rèn)以及碎石圖)-旋轉(zhuǎn)(最大方差法)-得分(保存為變量 回歸)-選項(xiàng)(按大小排序,取消小系數(shù),最后數(shù)值限定輸出)

在分析時(shí)

提取的因子個(gè)數(shù)應(yīng)該:下表第二列大于1(初始值) 第四列(累加)達(dá)到60,圖上位置較陡

旋轉(zhuǎn)載荷平方和(1,2,累加)

表中會(huì)呈現(xiàn)FAC1_1.FAC2_1.計(jì)算時(shí),轉(zhuǎn)換-計(jì)算變量-公式輸入38.968/72.367*FAC1_1+33.399/72.367*FAC2_1 ?最后綜合得分排序即可

對(duì)應(yīng)分析

和圖形有關(guān),分類變量構(gòu)成的交叉表

數(shù)據(jù)-加權(quán)個(gè)案-數(shù)值為頻率變量

分析-降維-對(duì)應(yīng)分析-移動(dòng)

下表 同一變量類別距離越近,差異越小

不同類別距離越近,相關(guān)性越大

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容