一本91福利精品,费av在线

一、神經(jīng)網(wǎng)絡(luò)算法

?????? 用于預(yù)測是非常好的方法，難以用來作解釋；過度學(xué)習(xí)會造成預(yù)測能力下降；標(biāo)準(zhǔn)化或歸一化是為了提供運算速度，不是消除量綱

??????? 1、算法介紹

???????????? ANN（artificial neural network）是由大量的簡單基本元件組成，每個元件的結(jié)構(gòu)和功能比較簡單，但眾多的神經(jīng)元組合所產(chǎn)生的系統(tǒng)卻非常復(fù)雜。在統(tǒng)計上它是一種智能的判別過程，對變量類型沒有太多的要求，可以有效地識別事物的不同特征及其模式，如不完全的信息、復(fù)雜的非線性特征等。神經(jīng)網(wǎng)絡(luò)模型可以近似多種預(yù)測模型，線性的回歸模型，廣義線性的 logistic 模型，并可以逼近各種復(fù)雜的非線性結(jié)構(gòu)，具有良好的預(yù)測功能，不過該模型的缺點是目標(biāo)與預(yù)測變量間的關(guān)系不易確定。

????????? 2、預(yù)分析

?????????????? 2.1 需要關(guān)注缺失值、異常值、共線性、特征選擇、過擬合、變量變換、分箱化七項信息

????????????? 2.2 缺失值

??????????????????? 神經(jīng)網(wǎng)絡(luò)懼怕缺失值，主要原因是缺失值對網(wǎng)絡(luò)的干擾比較大，不管是自變量還是因變量存有缺失，則會導(dǎo)致整個網(wǎng)絡(luò)無法利用缺失數(shù)據(jù)，所以數(shù)據(jù)丟失很嚴(yán)重，需要在模型之前填補缺失數(shù)據(jù)。

??????????????? 2.3 異常值

??????????????? 神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)數(shù)據(jù)信息隨網(wǎng)絡(luò)復(fù)雜度的變化而定，如果網(wǎng)絡(luò)復(fù)雜度越高，學(xué)習(xí)數(shù)據(jù)局部信息的能力就會越強，而數(shù)據(jù)局部信息和異常信息往往是對應(yīng)的，異常、隨機誤差都會被神經(jīng)網(wǎng)絡(luò)當(dāng)成有用的信息加以學(xué)習(xí)，而這些信息將導(dǎo)致模型在預(yù)測功能上表現(xiàn)很差，所以，尤其是在數(shù)據(jù)庫質(zhì)量較差的情況下，幾乎每次神經(jīng)網(wǎng)絡(luò)建模都要判斷模型的過擬合。其實異常值導(dǎo)致的過擬合，經(jīng)驗認(rèn)為是神經(jīng)網(wǎng)絡(luò)過擬合的最頻繁的原因。

???????????????? 2.4 共線性

??????????????????? 共線性在傳統(tǒng)模型上的表現(xiàn)使模型系數(shù)估計的誤差成倍增加，而神經(jīng)網(wǎng)絡(luò)不存在系數(shù)估計問題，自然也不存在這種誤差，但是共線性會導(dǎo)致網(wǎng)絡(luò)結(jié)構(gòu)變得極其復(fù)雜，放大共線性變量間的作用，而且最重要的是其復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)使模型計算量呈指數(shù)級增加，這是問題其一；其二，有經(jīng)驗認(rèn)為共線性也會導(dǎo)致過擬合，所以仍需重視。

???????????????? 2.5 特征選擇

????????????????????? 神經(jīng)網(wǎng)絡(luò)每增加一個自變量，計算時間將呈指數(shù)級增加，并且自變量間的結(jié)構(gòu)變得更為復(fù)雜，而且這種關(guān)系很容易導(dǎo)致維度災(zāi)難問題。一個是時間問題，一個是列為災(zāi)難，這是特征冗余所引起的問題，因此如何控制自變量則變得很重要，通常此處使用的特征選擇包括回歸類的篩選技術(shù)、主成分壓縮和相關(guān)分析等。

?????????????????? 2.6? 過擬合

?????????????????????? 判斷過擬合問題可以從數(shù)據(jù)的列、行和模型三個角度。數(shù)據(jù)列維的復(fù)雜度和共線性會導(dǎo)致過擬合、數(shù)據(jù)行的不足和包含了異常信息的冗余行也會導(dǎo)致過擬合、算法的復(fù)雜度本身，如網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜度調(diào)整，令其足夠復(fù)雜也會導(dǎo)致過擬合。

??????????????????? 2.7 變量變換

???????????????????????? 變量變換，這里是指非最優(yōu)變換技術(shù)，包括對數(shù)變換、標(biāo)準(zhǔn)化變換等內(nèi)容。在小數(shù)據(jù)中，我們有闡述變換的目的如對數(shù)變換，往往是為了消除異方差，滿足正態(tài)分布等問題，而大數(shù)據(jù)也使用對數(shù)變換，但其目的可不是為了異方差、正態(tài)分布，而多數(shù)情況都是為了提高運行速度。

??????????????????? 2.8分箱化

?????????????????????????? 小數(shù)據(jù)很少使用分箱化，而大數(shù)據(jù)的明星算法神經(jīng)網(wǎng)絡(luò)，自然也離不開這一預(yù)分析。神經(jīng)網(wǎng)絡(luò)過擬合的主要原因是異常值和局部隨機誤差，尤其是強異常，一般可行的處理方案是約束其異常權(quán)值或直接進行分箱，如果能夠有效分箱，不但可以消除異常，還可以控制誤差并提高模型的運行速度，可謂一舉兩得

?????????????? 3、SPSS如何實現(xiàn)神經(jīng)網(wǎng)絡(luò)算法

??????????????????? 多層感知器(常用這個，專門跑純數(shù)據(jù)的)和徑向基函數(shù)(專門用于跑文本、圖像數(shù)據(jù)，比如人臉識別技術(shù))

????????????????? 3.1 多層感知器

??????????????????????? 因變量(輸出層)：Y,可放多個Y用于分析多個y的關(guān)系

??????????????????????? 因子(輸入層)：放入分類變量

??????????????????????? 協(xié)變量(輸入層)：放入連續(xù)變量

???????????????????????? 體系結(jié)構(gòu)(隱含層)：可以根據(jù)需求調(diào)節(jié)層數(shù)

??????????????????????? 若ε=y值-y的預(yù)測值=0，說明原有知識匹配；若ε=y值-y的預(yù)測值>0，需提高正輸入鏈(或降低負(fù)輸入鏈)權(quán)值；若ε=y值-y的預(yù)測值<0，需降低正輸入鏈(或提高負(fù)輸入鏈)權(quán)值；

??????????????????????? SPSS的數(shù)據(jù)大小區(qū)分：大數(shù)據(jù)是幾億行以上，小數(shù)據(jù)是幾十萬以內(nèi)，中大小數(shù)據(jù)是百萬以上一億以下。

???????????????????????? 分區(qū)：

???????????????????????????????? 訓(xùn)練集(train,50%的數(shù)據(jù)):用來建立模型，需要查看R方

???????????????????????????????? 測試集(test):用來評估模型，也需要查看R方，與上面的R方相減的到ΔR方(用于判斷是否過擬合，小于等于5%才可行，大于等于10%過擬合了)

???????????????????????????????? 驗證集(ralid):用來避免過擬合現(xiàn)象，數(shù)據(jù)量是少于測試集的，不宜過多

???????????????????????????????? 得分集(score):真正的測試集數(shù)據(jù)，用來預(yù)測未來的(SPSS是在導(dǎo)出中實現(xiàn))

???????????????????????? 正態(tài)化重要性圖解：

?????????????????????????????????? 小數(shù)據(jù)：值小于0.1需要刪除這個變量

????????????????????????????????? 大數(shù)據(jù)：值小于0.05需要刪除這個變量

??????????????????????? 增益圖解：

?????????????????????????????? 找拐點，拐點是最優(yōu)決策點，是給決策層解釋用的

???????????????????????? 效益圖解：從增益圖中找出拐點后，在此圖找出對應(yīng)位置，用來向主管解釋能提升多少倍用的

二、決策樹算法

???????? 主要是用于解釋，用于決策優(yōu)化，重點是決策樹過程，一般是和神經(jīng)網(wǎng)絡(luò)算法一起使用。樹的深度不宜超過6個(不含根)，必須用交叉驗證，需要把連續(xù)變量分組處理。

???????? 1、定義

????????????? 決策樹是一種智能分類與回歸的方法，具有結(jié)果可讀性強、分類速度快、處理大量交互效應(yīng)等優(yōu)勢。決策樹學(xué)習(xí)算法一般包括 3 個步驟：特征選擇、決策樹的生長和剪枝。

???????????? 決策樹生長過程，包括節(jié)點（node）和有向邊（directed edge），其中節(jié)點包括根節(jié)點、內(nèi)部節(jié)點、葉節(jié)點，如積分卡是根節(jié)點、收入（或客戶類型，或購買特征）是內(nèi)部節(jié)點、長方形內(nèi)容是葉節(jié)點，一般來說葉節(jié)點表示一個類、內(nèi)部節(jié)點表示特征或?qū)傩浴?/p>

????????? 2、預(yù)分析

???????????? 2.1 缺失值

???????????????? 決策樹不怕缺失值，，并提供非常豐富的缺失值處理算法，如 c5.0 算法、分類法等

????????????? 2.2 異常值

????????????????? 決策樹本身就是一種異常值處理的技術(shù)，異常值分析歸屬于市場細(xì)分領(lǐng)域。

??????????????? 2.3 變量變換

??????????????????? 變量變換，這里是指非最優(yōu)變換技術(shù)，包括對數(shù)變換、標(biāo)準(zhǔn)化變換等內(nèi)容。

?????????????????? 決策樹本身對結(jié)構(gòu)性問題要求很嚴(yán)格，因為解釋業(yè)務(wù)規(guī)則或關(guān)系都依賴于對具體變量及取值的解釋，如果變換變量，則這一優(yōu)勢很難保證。

???????????? 3、特征選擇的方法

????????????????? 引入熵和基尼系數(shù)，越小越好。

?????????????

信息增益計算實例

4、SPSS決策樹操作

?????????????????? 選項：錯誤分類成本窗口定制數(shù)據(jù)的修改需要與業(yè)務(wù)專家確定好，是要精確設(shè)置的；利潤窗口是用來分析各客戶群價值，數(shù)據(jù)不要去特別精確

????????????????? 驗證：必須選擇交叉驗證，樣本群數(shù)可以修改

????????????????? 條件:可以設(shè)置節(jié)點數(shù)

???????????????? 4.1 節(jié)點的增益摘要內(nèi)容解讀：最上面就是根據(jù)利潤中填寫的數(shù)據(jù)分析出的最優(yōu)決策情況(或者是促銷推薦人群)

???????????????? 4.2 風(fēng)險和分類一起解讀

?????????????????????? 風(fēng)險中重新代入的估算值+分類中總體百分比=1

?????????????????????? 風(fēng)險中交叉驗證的估算值/交叉驗證標(biāo)準(zhǔn)誤差的值大于1.96，說明誤差大?

三、時間序列算法

????? 1、時間序列數(shù)據(jù)特點：行與行間相關(guān)，是均勻分布的，不能直接用統(tǒng)計學(xué)方法分析，需要進行轉(zhuǎn)換

?????? 2、把時間序列數(shù)據(jù)做穩(wěn)定性變換方法有X均值的差分變換和S的對數(shù)變換

?????? 3、時間序列分析分類

?????????? 長期效益趨勢：用的少，研究確定性模型

?????????? 短期效益趨勢：用到多，一般用arima模型，研究隨機確定性模型

?????????? 周期季節(jié)性趨勢：分析周、月、季度、年等趨勢情況

?????????? 白噪聲分析：分析誤差

??????? 4、模型

?????????? AR（p）模型： $y_{t}=Ф_{1}y_{t-1}+Ф_{2}y_{t-2}+...+Ф_{p}y_{t-p}+ε_{t}$ , $ε_{t}$ 服從白噪聲序列；

?????????? MA（q）模型: $y_{t}=ε_{t}+\theta _{1} ε_{t-1}+\theta_{2}ε_{t-2}+...+\theta_{p}ε_{t-p}$ , $ε_{t}$ 服從白噪聲序列；

?????????? ARMA（p,q）模型 $y_{t}=Ф_{1}y_{t-1}+Ф_{2}y_{t-2}+...+Ф_{p}y_{t-p}+ε_{t}+\theta _{1} ε_{t-1}+\theta_{2}ε_{t-2}+...+\theta_{p}ε_{t-p}$ , $ε_{t}$ 服從白噪聲序列

??????????? ARIMA（p,d,q）模型,在arma模型上加入 d (表示差分)

?????????? 5、時間序列分析步驟

一般步驟

?????????????? 6、模型選擇依據(jù)

模型識別圖示

????????????????? 7、SPSS實現(xiàn)時間序列

???????????????????? 時間數(shù)據(jù)一定要使用定義日期和時間轉(zhuǎn)換為SPSS可識別的時間序列數(shù)據(jù)

??????????????????? 分析→時間序列預(yù)測，建模用創(chuàng)建傳統(tǒng)模型，用序列圖判斷X均值和S是否穩(wěn)定

??????????????????? arima步驟：

???????????????????????? ①、打開序列圖，查看X均值和S是否穩(wěn)定

?????????????????????????????? 差異值系統(tǒng)默認(rèn)是1，若改為2，是原數(shù)據(jù)相鄰相減后獲得的新數(shù)據(jù)再做一步相鄰相減

???????????????????????? ②、把不穩(wěn)定的X均值和S變換為穩(wěn)定的

?????????????????????????????????X均值:作差分變換

???????????????????????????????? S：作對數(shù)變換

???????????????????????? ③、建立自相關(guān)分析圖

???????????????????????????????? 分析→時間序列→自相關(guān)??????????????????????????????

???????????????????????? ④、解讀自相關(guān)分析數(shù)據(jù)

?????????????????????????????????? 根據(jù)ACF和偏ACF兩個圖分析選擇AR(n)、MA(n)、ARMA(p,q)三者哪種模型

???????????????????????? ⑤、建立arima模型，把第四步中解讀獲得的p、q值代入模型中，看R方和白噪聲檢測數(shù)據(jù)

??????????????????????? 方法中有指數(shù)平滑(長期效益模型)和ARIMA(短期效益模型)，都含有季節(jié)性模型

???????????????????????? 模型統(tǒng)計是看殘差數(shù)據(jù)，若顯著性大于0.05，是說明殘差不相關(guān)，模型是可用的，與回歸是反著分析的

???????????????????????? ⑥、預(yù)測未來3期數(shù)據(jù)(如3秒、三分鐘、三小時、三天、三個月...)

四、大數(shù)據(jù)分析和小數(shù)據(jù)分析區(qū)別

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

20190815SPSS學(xué)習(xí)心得(四)

20190815SPSS學(xué)習(xí)心得(四)

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

20190815SPSS學(xué)習(xí)心得(四)

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av