一、神經(jīng)網(wǎng)絡(luò)算法
?????? 用于預(yù)測是非常好的方法,難以用來作解釋;過度學(xué)習(xí)會造成預(yù)測能力下降;標(biāo)準(zhǔn)化或歸一化是為了提供運算速度,不是消除量綱
??????? 1、算法介紹
???????????? ANN(artificial neural network)是由大量的簡單基本元件組成,每個元件的結(jié)構(gòu)和功能比較簡單,但眾多的神經(jīng)元組合所產(chǎn)生的系統(tǒng)卻非常復(fù)雜。在統(tǒng)計上它是一種智能的判別過程,對變量類型沒有太多的要求,可以有效地識別事物的不同特征及其模式,如不完全的信息、復(fù)雜的非線性特征等。神經(jīng)網(wǎng)絡(luò)模型可以近似多種預(yù)測模型,線性的回歸模型,廣義線性的 logistic 模型,并可以逼近各種復(fù)雜的非線性結(jié)構(gòu),具有良好的預(yù)測功能,不過該模型的缺點是目標(biāo)與預(yù)測變量間的關(guān)系不易確定。
????????? 2、預(yù)分析
?????????????? 2.1 需要關(guān)注缺失值、異常值、共線性、特征選擇、過擬合、變量變換、分箱化七項信息
????????????? 2.2 缺失值
??????????????????? 神經(jīng)網(wǎng)絡(luò)懼怕缺失值,主要原因是缺失值對網(wǎng)絡(luò)的干擾比較大,不管是自變量還是因變量存有缺失,則會導(dǎo)致整個網(wǎng)絡(luò)無法利用缺失數(shù)據(jù),所以數(shù)據(jù)丟失很嚴(yán)重,需要在模型之前填補缺失數(shù)據(jù)。
??????????????? 2.3 異常值
??????????????? 神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)數(shù)據(jù)信息隨網(wǎng)絡(luò)復(fù)雜度的變化而定,如果網(wǎng)絡(luò)復(fù)雜度越高,學(xué)習(xí)數(shù)據(jù)局部信息的能力就會越強,而數(shù)據(jù)局部信息和異常信息往往是對應(yīng)的,異常、隨機誤差都會被神經(jīng)網(wǎng)絡(luò)當(dāng)成有用的信息加以學(xué)習(xí),而這些信息將導(dǎo)致模型在預(yù)測功能上表現(xiàn)很差,所以,尤其是在數(shù)據(jù)庫質(zhì)量較差的情況下,幾乎每次神經(jīng)網(wǎng)絡(luò)建模都要判斷模型的過擬合。其實異常值導(dǎo)致的過擬合,經(jīng)驗認(rèn)為是神經(jīng)網(wǎng)絡(luò)過擬合的最頻繁的原因。
???????????????? 2.4 共線性
??????????????????? 共線性在傳統(tǒng)模型上的表現(xiàn)使模型系數(shù)估計的誤差成倍增加,而神經(jīng)網(wǎng)絡(luò)不存在系數(shù)估計問題,自然也不存在這種誤差,但是共線性會導(dǎo)致網(wǎng)絡(luò)結(jié)構(gòu)變得極其復(fù)雜,放大共線性變量間的作用,而且最重要的是其復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)使模型計算量呈指數(shù)級增加,這是問題其一;其二,有經(jīng)驗認(rèn)為共線性也會導(dǎo)致過擬合,所以仍需重視。
???????????????? 2.5 特征選擇
????????????????????? 神經(jīng)網(wǎng)絡(luò)每增加一個自變量,計算時間將呈指數(shù)級增加,并且自變量間的結(jié)構(gòu)變得更為復(fù)雜,而且這種關(guān)系很容易導(dǎo)致維度災(zāi)難問題。一個是時間問題,一個是列為災(zāi)難,這是特征冗余所引起的問題,因此如何控制自變量則變得很重要,通常此處使用的特征選擇包括回歸類的篩選技術(shù)、主成分壓縮和相關(guān)分析等。
?????????????????? 2.6? 過擬合
?????????????????????? 判斷過擬合問題可以從數(shù)據(jù)的列、行和模型三個角度。數(shù)據(jù)列維的復(fù)雜度和共線性會導(dǎo)致過擬合、數(shù)據(jù)行的不足和包含了異常信息的冗余行也會導(dǎo)致過擬合、算法的復(fù)雜度本身,如網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜度調(diào)整,令其足夠復(fù)雜也會導(dǎo)致過擬合。
??????????????????? 2.7 變量變換
???????????????????????? 變量變換,這里是指非最優(yōu)變換技術(shù),包括對數(shù)變換、標(biāo)準(zhǔn)化變換等內(nèi)容。在小數(shù)據(jù)中,我們有闡述變換的目的如對數(shù)變換,往往是為了消除異方差,滿足正態(tài)分布等問題,而大數(shù)據(jù)也使用對數(shù)變換,但其目的可不是為了異方差、正態(tài)分布,而多數(shù)情況都是為了提高運行速度。
??????????????????? 2.8分箱化
?????????????????????????? 小數(shù)據(jù)很少使用分箱化,而大數(shù)據(jù)的明星算法神經(jīng)網(wǎng)絡(luò),自然也離不開這一預(yù)分析。神經(jīng)網(wǎng)絡(luò)過擬合的主要原因是異常值和局部隨機誤差,尤其是強異常,一般可行的處理方案是約束其異常權(quán)值或直接進行分箱,如果能夠有效分箱,不但可以消除異常,還可以控制誤差并提高模型的運行速度,可謂一舉兩得
?????????????? 3、SPSS如何實現(xiàn)神經(jīng)網(wǎng)絡(luò)算法
??????????????????? 多層感知器(常用這個,專門跑純數(shù)據(jù)的)和徑向基函數(shù)(專門用于跑文本、圖像數(shù)據(jù),比如人臉識別技術(shù))
????????????????? 3.1 多層感知器
??????????????????????? 因變量(輸出層):Y,可放多個Y用于分析多個y的關(guān)系
??????????????????????? 因子(輸入層):放入分類變量
??????????????????????? 協(xié)變量(輸入層):放入連續(xù)變量
???????????????????????? 體系結(jié)構(gòu)(隱含層):可以根據(jù)需求調(diào)節(jié)層數(shù)
??????????????????????? 若ε=y值-y的預(yù)測值=0,說明原有知識匹配;若ε=y值-y的預(yù)測值>0,需提高正輸入鏈(或降低負(fù)輸入鏈)權(quán)值;若ε=y值-y的預(yù)測值<0,需降低正輸入鏈(或提高負(fù)輸入鏈)權(quán)值;
??????????????????????? SPSS的數(shù)據(jù)大小區(qū)分:大數(shù)據(jù)是幾億行以上,小數(shù)據(jù)是幾十萬以內(nèi),中大小數(shù)據(jù)是百萬以上一億以下。
???????????????????????? 分區(qū):
???????????????????????????????? 訓(xùn)練集(train,50%的數(shù)據(jù)):用來建立模型,需要查看R方
???????????????????????????????? 測試集(test):用來評估模型,也需要查看R方,與上面的R方相減的到ΔR方(用于判斷是否過擬合,小于等于5%才可行,大于等于10%過擬合了)
???????????????????????????????? 驗證集(ralid):用來避免過擬合現(xiàn)象,數(shù)據(jù)量是少于測試集的,不宜過多
???????????????????????????????? 得分集(score):真正的測試集數(shù)據(jù),用來預(yù)測未來的(SPSS是在導(dǎo)出中實現(xiàn))
???????????????????????? 正態(tài)化重要性圖解:
?????????????????????????????????? 小數(shù)據(jù):值小于0.1需要刪除這個變量
????????????????????????????????? 大數(shù)據(jù):值小于0.05需要刪除這個變量
??????????????????????? 增益圖解:
?????????????????????????????? 找拐點,拐點是最優(yōu)決策點,是給決策層解釋用的
???????????????????????? 效益圖解:從增益圖中找出拐點后,在此圖找出對應(yīng)位置,用來向主管解釋能提升多少倍用的
二、決策樹算法
???????? 主要是用于解釋,用于決策優(yōu)化,重點是決策樹過程,一般是和神經(jīng)網(wǎng)絡(luò)算法一起使用。樹的深度不宜超過6個(不含根),必須用交叉驗證,需要把連續(xù)變量分組處理。
???????? 1、定義
????????????? 決策樹是一種智能分類與回歸的方法,具有結(jié)果可讀性強、分類速度快、處理大量交互效應(yīng)等優(yōu)勢。決策樹學(xué)習(xí)算法一般包括 3 個步驟:特征選擇、決策樹的生長和剪枝。
???????????? 決策樹生長過程,包括節(jié)點(node)和有向邊(directed edge),其中節(jié)點包括根節(jié)點、內(nèi)部節(jié)點、葉節(jié)點,如積分卡是根節(jié)點、收入(或客戶類型,或購買特征)是內(nèi)部節(jié)點、長方形內(nèi)容是葉節(jié)點,一般來說葉節(jié)點表示一個類、內(nèi)部節(jié)點表示特征或?qū)傩浴?/p>
????????? 2、預(yù)分析
???????????? 2.1 缺失值
???????????????? 決策樹不怕缺失值,,并提供非常豐富的缺失值處理算法,如 c5.0 算法、分類法等
????????????? 2.2 異常值
????????????????? 決策樹本身就是一種異常值處理的技術(shù),異常值分析歸屬于市場細(xì)分領(lǐng)域。
??????????????? 2.3 變量變換
??????????????????? 變量變換,這里是指非最優(yōu)變換技術(shù),包括對數(shù)變換、標(biāo)準(zhǔn)化變換等內(nèi)容。
?????????????????? 決策樹本身對結(jié)構(gòu)性問題要求很嚴(yán)格,因為解釋業(yè)務(wù)規(guī)則或關(guān)系都依賴于對具體變量及取值的解釋,如果變換變量,則這一優(yōu)勢很難保證。
???????????? 3、特征選擇的方法
????????????????? 引入熵和基尼系數(shù),越小越好。

?????????????

4、SPSS決策樹操作
?????????????????? 選項:錯誤分類成本窗口定制數(shù)據(jù)的修改需要與業(yè)務(wù)專家確定好,是要精確設(shè)置的;利潤窗口是用來分析各客戶群價值,數(shù)據(jù)不要去特別精確
????????????????? 驗證:必須選擇交叉驗證,樣本群數(shù)可以修改
????????????????? 條件:可以設(shè)置節(jié)點數(shù)
???????????????? 4.1 節(jié)點的增益摘要內(nèi)容解讀:最上面就是根據(jù)利潤中填寫的數(shù)據(jù)分析出的最優(yōu)決策情況(或者是促銷推薦人群)
???????????????? 4.2 風(fēng)險和分類一起解讀
?????????????????????? 風(fēng)險中重新代入的估算值+分類中總體百分比=1
?????????????????????? 風(fēng)險中交叉驗證的估算值/交叉驗證標(biāo)準(zhǔn)誤差的值大于1.96,說明誤差大?
三、時間序列算法
????? 1、時間序列數(shù)據(jù)特點:行與行間相關(guān),是均勻分布的,不能直接用統(tǒng)計學(xué)方法分析,需要進行轉(zhuǎn)換
?????? 2、把時間序列數(shù)據(jù)做穩(wěn)定性變換方法有X均值的差分變換和S的對數(shù)變換
?????? 3、時間序列分析分類
?????????? 長期效益趨勢:用的少,研究確定性模型
?????????? 短期效益趨勢:用到多,一般用arima模型,研究隨機確定性模型
?????????? 周期季節(jié)性趨勢:分析周、月、季度、年等趨勢情況
?????????? 白噪聲分析:分析誤差
??????? 4、模型
?????????? AR(p)模型:,
服從白噪聲序列;
?????????? MA(q)模型:,
服從白噪聲序列;
?????????? ARMA(p,q)模型,
服從白噪聲序列
??????????? ARIMA(p,d,q)模型,在arma模型上加入 d (表示差分)
?????????? 5、時間序列分析步驟

?????????????? 6、模型選擇依據(jù)

????????????????? 7、SPSS實現(xiàn)時間序列
???????????????????? 時間數(shù)據(jù)一定要使用定義日期和時間轉(zhuǎn)換為SPSS可識別的時間序列數(shù)據(jù)
??????????????????? 分析→時間序列預(yù)測,建模用創(chuàng)建傳統(tǒng)模型,用序列圖判斷X均值和S是否穩(wěn)定
??????????????????? arima步驟:
???????????????????????? ①、打開序列圖,查看X均值和S是否穩(wěn)定
?????????????????????????????? 差異值系統(tǒng)默認(rèn)是1,若改為2,是原數(shù)據(jù)相鄰相減后獲得的新數(shù)據(jù)再做一步相鄰相減
???????????????????????? ②、把不穩(wěn)定的X均值和S變換為穩(wěn)定的
?????????????????????????????????X均值:作差分變換
???????????????????????????????? S:作對數(shù)變換
???????????????????????? ③、建立自相關(guān)分析圖
???????????????????????????????? 分析→時間序列→自相關(guān)??????????????????????????????
???????????????????????? ④、解讀自相關(guān)分析數(shù)據(jù)
?????????????????????????????????? 根據(jù)ACF和偏ACF兩個圖分析選擇AR(n)、MA(n)、ARMA(p,q)三者哪種模型
???????????????????????? ⑤、建立arima模型,把第四步中解讀獲得的p、q值代入模型中,看R方和白噪聲檢測數(shù)據(jù)
??????????????????????? 方法中有指數(shù)平滑(長期效益模型)和ARIMA(短期效益模型),都含有季節(jié)性模型
???????????????????????? 模型統(tǒng)計是看殘差數(shù)據(jù),若顯著性大于0.05,是說明殘差不相關(guān),模型是可用的,與回歸是反著分析的
???????????????????????? ⑥、預(yù)測未來3期數(shù)據(jù)(如3秒、三分鐘、三小時、三天、三個月...)
四、大數(shù)據(jù)分析和小數(shù)據(jù)分析區(qū)別
