數(shù)據(jù)清洗
刪除重復(fù)
數(shù)據(jù)-標(biāo)記重復(fù)個(gè)案-把需要參考的都拖入右邊定義-生成0代表重復(fù),1代表不重復(fù)-在01這一列右鍵升序-刪除0
數(shù)據(jù)抽取
字段拆分(例如身份證號(hào)提取生日)
轉(zhuǎn)換-計(jì)算變量-函數(shù)選擇字符串-函數(shù)選擇Substr(3)-更改參數(shù)substr(字符串(身份證),從第幾個(gè)開始提取,提取幾個(gè))-目標(biāo)變量改名字-類型改為字符串
隨機(jī)抽樣
數(shù)據(jù)-選擇個(gè)案-隨機(jī)個(gè)案樣本-大約&(可選擇把選定個(gè)案復(fù)制到新數(shù)據(jù)集)
數(shù)據(jù)合并
年月日字段合并
轉(zhuǎn)換-計(jì)算變量-字符串-函數(shù)選擇Concat(年份,”-“,月份,”-”日)必須英文標(biāo)點(diǎn)-字符串寬度為10
若想進(jìn)行計(jì)算,可在變量視圖中將數(shù)據(jù)類型改為日期型yyyy/mm/dd
記錄合并
將兩個(gè)表中的數(shù)據(jù)合并,不用復(fù)制粘貼
打開一個(gè)表-數(shù)據(jù)-合并文件-添加個(gè)案-從外部選
數(shù)據(jù)分組
可視分箱(數(shù)據(jù)分段)
轉(zhuǎn)換-可視化分箱-將要分的數(shù)據(jù)拖到右邊-填寫分箱化變量-生成分割點(diǎn)-生成標(biāo)簽
逆推的話,則采用 轉(zhuǎn)換-重新編碼為不同變量-舊值和新值
數(shù)據(jù)標(biāo)準(zhǔn)化
0-1標(biāo)準(zhǔn)化
轉(zhuǎn)換-計(jì)算變量-目標(biāo)變量寫標(biāo)準(zhǔn)化值-公式(x-min)(max-min)-目標(biāo)變量數(shù)值
Z標(biāo)準(zhǔn)化
分析-描述統(tǒng)計(jì)-描述-變量拖動(dòng)
描述性分析
頻率分析
分析-描述統(tǒng)計(jì)-頻率-(Q幾可以右鍵顯示)-拖入
百分比:每類別有效值和缺省值所占總體比例
有效百分比:有效值所占
累計(jì)百分比:從第一個(gè)類別依次累加
連續(xù)變量頻率
分析-描述統(tǒng)計(jì)-頻率-拖入-statistics-四位分?jǐn)?shù)平均值百分點(diǎn)離散程度等選選選-圖表選擇
條形圖:數(shù)據(jù)分布,長(zhǎng)度表示頻數(shù)
直方圖:連續(xù)數(shù)據(jù),面積表示頻數(shù)
餅圖:數(shù)據(jù)結(jié)構(gòu)
交叉表分析
分析-描述統(tǒng)計(jì)-交叉表-行列以此拖入-單元格
多選題定義
分析-表-多重定制-選擇要弄得題目拖-二分法(計(jì)數(shù)值1)或類別-添加-更改集合名(Q幾)和集合標(biāo)簽(Q幾.名稱)
報(bào)表
分析-定職表-同時(shí)選中左側(cè)要選的-拖入行or列-摘要統(tǒng)計(jì)加權(quán)數(shù)
自定義分組
分析-定制表-拖入-分類和總計(jì)-選中起止點(diǎn)的標(biāo)簽-添加小計(jì)
相關(guān)分析
皮爾遜相關(guān)系數(shù)r反映連續(xù)變量之間線性相關(guān)強(qiáng)度的度量指標(biāo) 【-1,1】為0則線性無(wú)關(guān),絕對(duì)值小于0.3低度相關(guān),高于0.8高度相關(guān)。正負(fù)號(hào)表示正or負(fù)相關(guān)
回歸分析
簡(jiǎn)單線性回歸
步驟:1.確定自變量和因變量
2.繪制散點(diǎn)圖,看r:
圖形-舊對(duì)話框-散點(diǎn)圖-簡(jiǎn)單散點(diǎn)-將需要比較的變量拖入xy軸分析-相關(guān)-雙變量-依次
入,選擇皮爾遜-輸出表格看r的大小確立相關(guān)度
3.估計(jì)模型參數(shù),建立線性回歸模型
分析-回歸-線性,拖入自變因變-統(tǒng)計(jì)和選項(xiàng)一般保留默認(rèn)值
4.對(duì)回歸模型進(jìn)行檢驗(yàn)
輸出了四個(gè)表:
1線性回歸模型輸入/除去表
2線性模型回歸模型匯總表:R2越接近1,擬合效果越好
3線性回歸方差分析表:一般看F和顯著性P,P若大于0.05則不具有顯著地統(tǒng)計(jì)學(xué)意義,0.01-0.05具有顯著的統(tǒng)計(jì)學(xué)意義,若小于0.01極其顯著
4.線性回歸模型回歸系數(shù)表:一般根據(jù)B里面的兩個(gè)數(shù)可以列出Y=A+Bx的式子
5.利用回歸模型進(jìn)行預(yù)測(cè):根據(jù)式子代入,可在保存中勾選預(yù)測(cè)值中的未標(biāo)準(zhǔn)化
多重線性回歸(多個(gè)自變量)
步驟如上,圖形-舊對(duì)話框-散點(diǎn)圖-矩陣散點(diǎn)圖-定義-拖入要比較的多個(gè)變量到矩陣變量
自動(dòng)線性建模
連續(xù)變量,分類變量,均可作為自變量參與建模
自動(dòng)建模
分析-回歸-自動(dòng)建模-預(yù)測(cè)變量中是可以編輯的,將明顯不是自變量的移到“字段”中(例如日期,用戶id)將因變量移到“目標(biāo)”中-運(yùn)行
結(jié)果解讀
以圖示為例,其中左側(cè)圖都可以雙擊查看

Logistic回歸
因變量是分類變量的回歸,對(duì)數(shù)變換,分類變量分為二分類(是or否)和多分類。二分類就是logistic回歸,1和0 對(duì)應(yīng) 是和否 ?概率中P>0.5 對(duì)應(yīng)的是1
分析-回歸-二元logistic-移動(dòng)因變量和協(xié)變量-保存-勾選概率值
輸出的表格重點(diǎn)關(guān)注

此表格中,未續(xù)約數(shù)是300 續(xù)約數(shù)是797 ?續(xù)約判斷準(zhǔn)確性73.1%

回歸檢驗(yàn)量為 瓦爾德(wald)顯著性全部小于0.01 極顯著
logit(P)=-2.287+0.014*營(yíng)業(yè)收入+0.099*注冊(cè)時(shí)長(zhǎng)-0.184*成本
預(yù)測(cè)
在上述“保存”中-將模型信息導(dǎo)出到XML文件-再打開一個(gè)類似的新文件(因變量自變量相同)-實(shí)用程序-評(píng)分向?qū)?找到保存的文件-勾選預(yù)測(cè)值
時(shí)間序列分析
用于預(yù)測(cè)的時(shí)間序列,假設(shè)事物發(fā)展延伸到未來(lái),具有不規(guī)則性,不考慮因果關(guān)系
一般會(huì)把季節(jié)變動(dòng)因素分解出去(因?yàn)榧竟?jié)變動(dòng)會(huì)讓預(yù)測(cè)模型變?yōu)椴灰?guī)則)
定義日期指示變量
即便是數(shù)據(jù)中有“日期”這個(gè)變量,也要重新定義指示變量
數(shù)據(jù)-定義日期和時(shí)間-左側(cè)個(gè)案根據(jù)變量起止來(lái)決定,例如年份,月份-年份輸入
序列發(fā)展趨勢(shì)
分析-預(yù)測(cè)-序列圖-移動(dòng)變量-date作為時(shí)間軸標(biāo)簽
序列圖中,季節(jié)波動(dòng)大后續(xù)采用乘法模型(四種因素相互影響)Y=T(長(zhǎng)期模型)*S(季節(jié)變動(dòng))*C(循環(huán)變動(dòng))*I(不規(guī)則變動(dòng))
季節(jié)波動(dòng)小采用加法模型 Y=T+S+C+I
例如下圖 波動(dòng)大 采用乘法

季節(jié)因素分離
分析-預(yù)測(cè)-季節(jié)性(周期性)分解-變量移動(dòng),選擇模型
探索性分析
從大量的數(shù)據(jù)中發(fā)現(xiàn)未知有價(jià)值信息(找高端客戶)
RFM分析(Recency交易時(shí)間間隔 ?Frequency交易次數(shù) Monetary交易金額)
根據(jù)客戶活躍度和交易金額貢獻(xiàn)細(xì)分的方法
數(shù)據(jù)格式:1交易數(shù)據(jù):每次交易占用一行,關(guān)鍵變量為客戶ID,交易日期和交易金額
? ? ? ? ? ? ? ? ? ? ?2客戶數(shù)據(jù):每個(gè)客戶占用一行,關(guān)鍵變量是客戶ID,交易總金額,交易總次數(shù)和最 ? ? ? ? ? ? ? ? ? ? ? ?近交易日期
直銷-選擇技術(shù)-幫助確定我的最佳聯(lián)系人-交易數(shù)據(jù)-移動(dòng)對(duì)應(yīng)變量-輸出可全部勾選-出現(xiàn)分析圖
分析-描述統(tǒng)計(jì)-描述-將各種得分移動(dòng)-轉(zhuǎn)換-重新編碼為不同變量-每次移動(dòng)一個(gè)得分-
舊值和新值-從值到最高-框中輸入平均值-右側(cè)值中輸入表示高的值-添加
舊值和新值-所有其他值-值中輸入表示低的值-添加
數(shù)據(jù)-定義變量屬性-找到之前改的分類拖入
聚類分析
讓同一個(gè)類別的個(gè)體之間具有較高相似度,不同的則差別大
1.快速聚類分析(K均值聚類分析)
分析-分類-k平均值聚類-各種評(píng)定依據(jù)作為變量,個(gè)案選擇每個(gè)人-共分為幾組-保存勾選聚類成員
生成表后 分析-定制表(QCL移動(dòng)到列 評(píng)判依據(jù)到行)

2.系統(tǒng)聚類分析
分析-分類-系統(tǒng)聚類-評(píng)判依據(jù)移入變量
統(tǒng)計(jì)-可輸入生成類別范圍(例如3-4)

圖-譜系圖(即樹狀圖)
方法-(默認(rèn)組間連接 平方歐式距離)可勾選Z得分
保存-可勾選解的范圍(如果之前勾選范圍的話)
分析-描述統(tǒng)計(jì)-頻率
分析-定制表(將CLU移動(dòng)到列 評(píng)判依據(jù)到行)

3.二階聚類分析
分析-分類-兩步聚類-評(píng)判依據(jù)為連續(xù)變量-性別學(xué)歷等為分類變量-輸出選擇透視表和創(chuàng)建聚類成員變量
對(duì)比表格BCI變化量等三項(xiàng)依據(jù),選擇最大的,則為最佳類別數(shù)
雙擊最后一張圖表,可模型查看器,按ctrl點(diǎn)擊分類可以對(duì)比單元格分布

因子分析
通過(guò)研究變量間的相關(guān)系數(shù)矩陣,把復(fù)雜關(guān)系歸結(jié)成少數(shù)幾個(gè)綜合因子 降維
連續(xù)變量,各按個(gè)數(shù)為變量個(gè)數(shù)5倍以上,KMO在0.5以上(0.8以上極其適合)
分析-降維-因子分析-移動(dòng)變量-描述(原始結(jié)果和KMO球狀度)-抽?。J(rèn)以及碎石圖)-旋轉(zhuǎn)(最大方差法)-得分(保存為變量 回歸)-選項(xiàng)(按大小排序,取消小系數(shù),最后數(shù)值限定輸出)
在分析時(shí)

提取的因子個(gè)數(shù)應(yīng)該:下表第二列大于1(初始值) 第四列(累加)達(dá)到60,圖上位置較陡
旋轉(zhuǎn)載荷平方和(1,2,累加)

表中會(huì)呈現(xiàn)FAC1_1.FAC2_1.計(jì)算時(shí),轉(zhuǎn)換-計(jì)算變量-公式輸入38.968/72.367*FAC1_1+33.399/72.367*FAC2_1 ?最后綜合得分排序即可
對(duì)應(yīng)分析
和圖形有關(guān),分類變量構(gòu)成的交叉表
數(shù)據(jù)-加權(quán)個(gè)案-數(shù)值為頻率變量
分析-降維-對(duì)應(yīng)分析-移動(dòng)
下表 同一變量類別距離越近,差異越小
不同類別距離越近,相關(guān)性越大
