久久久无码高清视频,色欧美亚洲干,久久国产精品视屏

因為最近在做畢業(yè)論文，需要做一部分有關(guān)聚類&貝葉斯分類器的工作，所以開始啃周志華老師的西瓜書。

第1章緒論

若預(yù)測的是離散值，稱為“分類”classification

(1)只涉及兩個類別的分類——“二分類” binary classification ：正類positive class、反類negative class

(2)涉及多類別，稱為“多分類”multi-class classification

若預(yù)測的是連續(xù)值，稱為“回歸”regression

聚類 clustering 將訓(xùn)練集中的樣本分成若干組，每個組稱為一個簇cluster

根據(jù)是否有標(biāo)記信息label，學(xué)習(xí)任務(wù)分為兩類：

監(jiān)督學(xué)習(xí) supervised learning(分類、回歸)

無監(jiān)督學(xué)習(xí) unsupervised learning（聚類）

科學(xué)推理：

歸納induction-> 泛化generalization

演繹deduction->特化specialization

歸納偏好inductive bias

第2章模型評估與選擇

error rate 錯誤率:分類錯誤的樣本數(shù)占樣本總數(shù)的比例（1-精度accuracy）

training error訓(xùn)練誤差/empirical error經(jīng)驗誤差：學(xué)習(xí)器在訓(xùn)練集上的誤差

generalization error泛化誤差：在新樣本上的誤差

overfitting過擬合:學(xué)習(xí)器把訓(xùn)練樣本學(xué)得“太好了”，可能已經(jīng)把訓(xùn)練樣本自身的一些一些特點當(dāng)作了所有潛在樣本都會具有的一般性質(zhì)，會導(dǎo)致泛化性能下降。

underfitting欠擬合：對訓(xùn)練樣本的一般性質(zhì)尚未學(xué)好->解決：在決策樹學(xué)習(xí)中擴(kuò)展分支、在神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)中增加訓(xùn)練輪數(shù)等。

選擇哪種學(xué)習(xí)算法、哪種參數(shù)配置？——模型選擇model selection

2.2評估方法

可通過實驗測試來對學(xué)習(xí)器的泛化誤差進(jìn)行評估并進(jìn)而做出選擇。

所以，我們需要一個測試集testing set來測試學(xué)習(xí)器對新樣本的判別能力，然后以測試集上的測試誤差testing error作為泛化誤差的近似。

通常，我們假設(shè)測試樣本也是從樣本真實分布中獨立同分布采樣而得的。

Tips:測試集應(yīng)當(dāng)盡可能與訓(xùn)練集互斥，即測試樣本盡量不在訓(xùn)練集中出現(xiàn)、未在訓(xùn)練過程中使用過。

->當(dāng)只有有一個數(shù)據(jù)集時，既要訓(xùn)練又要測試->對數(shù)據(jù)集進(jìn)行恰當(dāng)處理，產(chǎn)生一個訓(xùn)練集S和測試集T，以下為方法：

2.2.1留出法hold-out：直接將數(shù)據(jù)集D劃分為兩個互斥的集合，其中一個集合為訓(xùn)練集，另一個為測試集。

Tips:劃分盡可能保持?jǐn)?shù)據(jù)分布的一致性（類比采樣sampling中的分層采樣stratified sampling，保留類別比例）

使用留出法時要采用若干次隨即劃分、重復(fù)進(jìn)行實驗評估后取平均值作為留出法的評估結(jié)果。

劃分比例的權(quán)衡：測試集較大的時候，評估結(jié)果的方差較大；測試集較小時，評估結(jié)果的偏差較大，即保真性fidelity不夠

常見做法：將大約2/3-4/5的樣本用于訓(xùn)練

2.2.2交叉驗證法cross validation

先將數(shù)據(jù)集劃分為k個大小相似的互斥子集，每個子集盡量保持?jǐn)?shù)據(jù)分布的一致性。每次用k-1個個子集的并集做訓(xùn)練集，剩下的是測試集，從而進(jìn)行k組訓(xùn)練和測試，最終返回k個測試結(jié)果的平均值

k是關(guān)鍵，所以也叫 k折交叉驗證（k-fold cross validation）常常取10

通常隨機使用不同的劃分方式重復(fù)p次，最終評估結(jié)果是p次k折交叉驗證結(jié)果的均值。

2.2.3自助法bootstrapping（可以減少訓(xùn)練樣本規(guī)模不同造成的影響，同時還能比較高效地進(jìn)行實驗估計），以自助采樣法bootstrap sampling為基礎(chǔ)

36.8%

Tips.在數(shù)據(jù)集較小、難以有效劃分訓(xùn)練集、測試集時有用，但會引入統(tǒng)計偏差

2.2.4 調(diào)參parameter tuning與最終模型

2.3性能度量performance measure——衡量模型泛化能力的評價標(biāo)準(zhǔn)

評估學(xué)習(xí)器f的性能既是吧學(xué)習(xí)器預(yù)測結(jié)果f(x)與真是標(biāo)記y進(jìn)行比較

回歸任務(wù)常用性能度量——均方誤差 mean squared error

2.3.1錯誤率與精度——分類任務(wù)常用，二分類、多分類均適用

2.3.2差準(zhǔn)率precision=TP/（TP+FP）、查全率recall=TP/（TP+FN）和F1

真正例true positive

假正例false positive

真反例true negative

假反例false negative

查全率和查準(zhǔn)率相互矛盾

平衡點Break-Even Point EBP 度量查全率=查準(zhǔn)率

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

《機器學(xué)習(xí)》讀書筆記

《機器學(xué)習(xí)》讀書筆記

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

《機器學(xué)習(xí)》讀書筆記

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av