20190815SPSS學(xué)習(xí)心得(四)

一、神經(jīng)網(wǎng)絡(luò)算法

?????? 用于預(yù)測是非常好的方法,難以用來作解釋;過度學(xué)習(xí)會造成預(yù)測能力下降;標(biāo)準(zhǔn)化或歸一化是為了提供運算速度,不是消除量綱

??????? 1、算法介紹

???????????? ANN(artificial neural network)是由大量的簡單基本元件組成,每個元件的結(jié)構(gòu)和功能比較簡單,但眾多的神經(jīng)元組合所產(chǎn)生的系統(tǒng)卻非常復(fù)雜。在統(tǒng)計上它是一種智能的判別過程,對變量類型沒有太多的要求,可以有效地識別事物的不同特征及其模式,如不完全的信息、復(fù)雜的非線性特征等。神經(jīng)網(wǎng)絡(luò)模型可以近似多種預(yù)測模型,線性的回歸模型,廣義線性的 logistic 模型,并可以逼近各種復(fù)雜的非線性結(jié)構(gòu),具有良好的預(yù)測功能,不過該模型的缺點是目標(biāo)與預(yù)測變量間的關(guān)系不易確定。

????????? 2、預(yù)分析

?????????????? 2.1 需要關(guān)注缺失值、異常值、共線性、特征選擇、過擬合、變量變換、分箱化七項信息

????????????? 2.2 缺失值

??????????????????? 神經(jīng)網(wǎng)絡(luò)懼怕缺失值,主要原因是缺失值對網(wǎng)絡(luò)的干擾比較大,不管是自變量還是因變量存有缺失,則會導(dǎo)致整個網(wǎng)絡(luò)無法利用缺失數(shù)據(jù),所以數(shù)據(jù)丟失很嚴(yán)重,需要在模型之前填補缺失數(shù)據(jù)。

??????????????? 2.3 異常值

??????????????? 神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)數(shù)據(jù)信息隨網(wǎng)絡(luò)復(fù)雜度的變化而定,如果網(wǎng)絡(luò)復(fù)雜度越高,學(xué)習(xí)數(shù)據(jù)局部信息的能力就會越強,而數(shù)據(jù)局部信息和異常信息往往是對應(yīng)的,異常、隨機誤差都會被神經(jīng)網(wǎng)絡(luò)當(dāng)成有用的信息加以學(xué)習(xí),而這些信息將導(dǎo)致模型在預(yù)測功能上表現(xiàn)很差,所以,尤其是在數(shù)據(jù)庫質(zhì)量較差的情況下,幾乎每次神經(jīng)網(wǎng)絡(luò)建模都要判斷模型的過擬合。其實異常值導(dǎo)致的過擬合,經(jīng)驗認(rèn)為是神經(jīng)網(wǎng)絡(luò)過擬合的最頻繁的原因。

???????????????? 2.4 共線性

??????????????????? 共線性在傳統(tǒng)模型上的表現(xiàn)使模型系數(shù)估計的誤差成倍增加,而神經(jīng)網(wǎng)絡(luò)不存在系數(shù)估計問題,自然也不存在這種誤差,但是共線性會導(dǎo)致網(wǎng)絡(luò)結(jié)構(gòu)變得極其復(fù)雜,放大共線性變量間的作用,而且最重要的是其復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)使模型計算量呈指數(shù)級增加,這是問題其一;其二,有經(jīng)驗認(rèn)為共線性也會導(dǎo)致過擬合,所以仍需重視。

???????????????? 2.5 特征選擇

????????????????????? 神經(jīng)網(wǎng)絡(luò)每增加一個自變量,計算時間將呈指數(shù)級增加,并且自變量間的結(jié)構(gòu)變得更為復(fù)雜,而且這種關(guān)系很容易導(dǎo)致維度災(zāi)難問題。一個是時間問題,一個是列為災(zāi)難,這是特征冗余所引起的問題,因此如何控制自變量則變得很重要,通常此處使用的特征選擇包括回歸類的篩選技術(shù)、主成分壓縮和相關(guān)分析等。

?????????????????? 2.6? 過擬合

?????????????????????? 判斷過擬合問題可以從數(shù)據(jù)的列、行和模型三個角度。數(shù)據(jù)列維的復(fù)雜度和共線性會導(dǎo)致過擬合、數(shù)據(jù)行的不足和包含了異常信息的冗余行也會導(dǎo)致過擬合、算法的復(fù)雜度本身,如網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜度調(diào)整,令其足夠復(fù)雜也會導(dǎo)致過擬合。

??????????????????? 2.7 變量變換

???????????????????????? 變量變換,這里是指非最優(yōu)變換技術(shù),包括對數(shù)變換、標(biāo)準(zhǔn)化變換等內(nèi)容。在小數(shù)據(jù)中,我們有闡述變換的目的如對數(shù)變換,往往是為了消除異方差,滿足正態(tài)分布等問題,而大數(shù)據(jù)也使用對數(shù)變換,但其目的可不是為了異方差、正態(tài)分布,而多數(shù)情況都是為了提高運行速度。

??????????????????? 2.8分箱化

?????????????????????????? 小數(shù)據(jù)很少使用分箱化,而大數(shù)據(jù)的明星算法神經(jīng)網(wǎng)絡(luò),自然也離不開這一預(yù)分析。神經(jīng)網(wǎng)絡(luò)過擬合的主要原因是異常值和局部隨機誤差,尤其是強異常,一般可行的處理方案是約束其異常權(quán)值或直接進行分箱,如果能夠有效分箱,不但可以消除異常,還可以控制誤差并提高模型的運行速度,可謂一舉兩得

?????????????? 3、SPSS如何實現(xiàn)神經(jīng)網(wǎng)絡(luò)算法

??????????????????? 多層感知器(常用這個,專門跑純數(shù)據(jù)的)和徑向基函數(shù)(專門用于跑文本、圖像數(shù)據(jù),比如人臉識別技術(shù))

????????????????? 3.1 多層感知器

??????????????????????? 因變量(輸出層):Y,可放多個Y用于分析多個y的關(guān)系

??????????????????????? 因子(輸入層):放入分類變量

??????????????????????? 協(xié)變量(輸入層):放入連續(xù)變量

???????????????????????? 體系結(jié)構(gòu)(隱含層):可以根據(jù)需求調(diào)節(jié)層數(shù)

??????????????????????? 若ε=y值-y的預(yù)測值=0,說明原有知識匹配;若ε=y值-y的預(yù)測值>0,需提高正輸入鏈(或降低負(fù)輸入鏈)權(quán)值;若ε=y值-y的預(yù)測值<0,需降低正輸入鏈(或提高負(fù)輸入鏈)權(quán)值;

??????????????????????? SPSS的數(shù)據(jù)大小區(qū)分:大數(shù)據(jù)是幾億行以上,小數(shù)據(jù)是幾十萬以內(nèi),中大小數(shù)據(jù)是百萬以上一億以下。

???????????????????????? 分區(qū):

???????????????????????????????? 訓(xùn)練集(train,50%的數(shù)據(jù)):用來建立模型,需要查看R方

???????????????????????????????? 測試集(test):用來評估模型,也需要查看R方,與上面的R方相減的到ΔR方(用于判斷是否過擬合,小于等于5%才可行,大于等于10%過擬合了)

???????????????????????????????? 驗證集(ralid):用來避免過擬合現(xiàn)象,數(shù)據(jù)量是少于測試集的,不宜過多

???????????????????????????????? 得分集(score):真正的測試集數(shù)據(jù),用來預(yù)測未來的(SPSS是在導(dǎo)出中實現(xiàn))

???????????????????????? 正態(tài)化重要性圖解:

?????????????????????????????????? 小數(shù)據(jù):值小于0.1需要刪除這個變量

????????????????????????????????? 大數(shù)據(jù):值小于0.05需要刪除這個變量

??????????????????????? 增益圖解:

?????????????????????????????? 找拐點,拐點是最優(yōu)決策點,是給決策層解釋用的

???????????????????????? 效益圖解:從增益圖中找出拐點后,在此圖找出對應(yīng)位置,用來向主管解釋能提升多少倍用的

二、決策樹算法

???????? 主要是用于解釋,用于決策優(yōu)化,重點是決策樹過程,一般是和神經(jīng)網(wǎng)絡(luò)算法一起使用。樹的深度不宜超過6個(不含根),必須用交叉驗證,需要把連續(xù)變量分組處理。

???????? 1、定義

????????????? 決策樹是一種智能分類與回歸的方法,具有結(jié)果可讀性強、分類速度快、處理大量交互效應(yīng)等優(yōu)勢。決策樹學(xué)習(xí)算法一般包括 3 個步驟:特征選擇、決策樹的生長和剪枝。

???????????? 決策樹生長過程,包括節(jié)點(node)和有向邊(directed edge),其中節(jié)點包括根節(jié)點、內(nèi)部節(jié)點、葉節(jié)點,如積分卡是根節(jié)點、收入(或客戶類型,或購買特征)是內(nèi)部節(jié)點、長方形內(nèi)容是葉節(jié)點,一般來說葉節(jié)點表示一個類、內(nèi)部節(jié)點表示特征或?qū)傩浴?/p>

????????? 2、預(yù)分析

???????????? 2.1 缺失值

???????????????? 決策樹不怕缺失值,,并提供非常豐富的缺失值處理算法,如 c5.0 算法、分類法等

????????????? 2.2 異常值

????????????????? 決策樹本身就是一種異常值處理的技術(shù),異常值分析歸屬于市場細(xì)分領(lǐng)域。

??????????????? 2.3 變量變換

??????????????????? 變量變換,這里是指非最優(yōu)變換技術(shù),包括對數(shù)變換、標(biāo)準(zhǔn)化變換等內(nèi)容。

?????????????????? 決策樹本身對結(jié)構(gòu)性問題要求很嚴(yán)格,因為解釋業(yè)務(wù)規(guī)則或關(guān)系都依賴于對具體變量及取值的解釋,如果變換變量,則這一優(yōu)勢很難保證。

???????????? 3、特征選擇的方法

????????????????? 引入熵和基尼系數(shù),越小越好。

?????????????

信息增益計算實例

4、SPSS決策樹操作

?????????????????? 選項:錯誤分類成本窗口定制數(shù)據(jù)的修改需要與業(yè)務(wù)專家確定好,是要精確設(shè)置的;利潤窗口是用來分析各客戶群價值,數(shù)據(jù)不要去特別精確

????????????????? 驗證:必須選擇交叉驗證,樣本群數(shù)可以修改

????????????????? 條件:可以設(shè)置節(jié)點數(shù)

???????????????? 4.1 節(jié)點的增益摘要內(nèi)容解讀:最上面就是根據(jù)利潤中填寫的數(shù)據(jù)分析出的最優(yōu)決策情況(或者是促銷推薦人群)

???????????????? 4.2 風(fēng)險和分類一起解讀

?????????????????????? 風(fēng)險中重新代入的估算值+分類中總體百分比=1

?????????????????????? 風(fēng)險中交叉驗證的估算值/交叉驗證標(biāo)準(zhǔn)誤差的值大于1.96,說明誤差大?

三、時間序列算法

????? 1、時間序列數(shù)據(jù)特點:行與行間相關(guān),是均勻分布的,不能直接用統(tǒng)計學(xué)方法分析,需要進行轉(zhuǎn)換

?????? 2、把時間序列數(shù)據(jù)做穩(wěn)定性變換方法有X均值的差分變換和S的對數(shù)變換

?????? 3、時間序列分析分類

?????????? 長期效益趨勢:用的少,研究確定性模型

?????????? 短期效益趨勢:用到多,一般用arima模型,研究隨機確定性模型

?????????? 周期季節(jié)性趨勢:分析周、月、季度、年等趨勢情況

?????????? 白噪聲分析:分析誤差

??????? 4、模型

?????????? AR(p)模型:y_{t}=Ф_{1}y_{t-1}+Ф_{2}y_{t-2}+...+Ф_{p}y_{t-p}+ε_{t},ε_{t} 服從白噪聲序列;

?????????? MA(q)模型:y_{t}=ε_{t}+\theta _{1} ε_{t-1}+\theta_{2}ε_{t-2}+...+\theta_{p}ε_{t-p},ε_{t} 服從白噪聲序列;

?????????? ARMA(p,q)模型y_{t}=Ф_{1}y_{t-1}+Ф_{2}y_{t-2}+...+Ф_{p}y_{t-p}+ε_{t}+\theta _{1} ε_{t-1}+\theta_{2}ε_{t-2}+...+\theta_{p}ε_{t-p},ε_{t} 服從白噪聲序列

??????????? ARIMA(p,d,q)模型,在arma模型上加入 d (表示差分)

?????????? 5、時間序列分析步驟

一般步驟

?????????????? 6、模型選擇依據(jù)

模型識別圖示

????????????????? 7、SPSS實現(xiàn)時間序列

???????????????????? 時間數(shù)據(jù)一定要使用定義日期和時間轉(zhuǎn)換為SPSS可識別的時間序列數(shù)據(jù)

??????????????????? 分析→時間序列預(yù)測,建模用創(chuàng)建傳統(tǒng)模型,用序列圖判斷X均值和S是否穩(wěn)定

??????????????????? arima步驟:

???????????????????????? ①、打開序列圖,查看X均值和S是否穩(wěn)定

?????????????????????????????? 差異值系統(tǒng)默認(rèn)是1,若改為2,是原數(shù)據(jù)相鄰相減后獲得的新數(shù)據(jù)再做一步相鄰相減

???????????????????????? ②、把不穩(wěn)定的X均值和S變換為穩(wěn)定的

?????????????????????????????????X均值:作差分變換

???????????????????????????????? S:作對數(shù)變換

???????????????????????? ③、建立自相關(guān)分析圖

???????????????????????????????? 分析→時間序列→自相關(guān)??????????????????????????????

???????????????????????? ④、解讀自相關(guān)分析數(shù)據(jù)

?????????????????????????????????? 根據(jù)ACF和偏ACF兩個圖分析選擇AR(n)、MA(n)、ARMA(p,q)三者哪種模型

???????????????????????? ⑤、建立arima模型,把第四步中解讀獲得的p、q值代入模型中,看R方和白噪聲檢測數(shù)據(jù)

??????????????????????? 方法中有指數(shù)平滑(長期效益模型)和ARIMA(短期效益模型),都含有季節(jié)性模型

???????????????????????? 模型統(tǒng)計是看殘差數(shù)據(jù),若顯著性大于0.05,是說明殘差不相關(guān),模型是可用的,與回歸是反著分析的

???????????????????????? ⑥、預(yù)測未來3期數(shù)據(jù)(如3秒、三分鐘、三小時、三天、三個月...)

四、大數(shù)據(jù)分析和小數(shù)據(jù)分析區(qū)別

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容