轉(zhuǎn)自:機(jī)器學(xué)習(xí)常見算法總結(jié)
K近鄰:算法采用測量不同特征值之間的距離的方法進(jìn)行分類。
優(yōu)點(diǎn):
1.簡單好用,容易理解,精度高,理論成熟,既可以用來做分類也可以用來做回歸;
2.可用于數(shù)值型數(shù)據(jù)和離散型數(shù)據(jù);
3.訓(xùn)練時(shí)間復(fù)雜度為O(n);無數(shù)據(jù)輸入假定;
4.對異常值不敏感
缺點(diǎn):
1.計(jì)算復(fù)雜性高;空間復(fù)雜性高;
2.樣本不平衡問題(即有些類別的樣本數(shù)量很多,而其它樣本的數(shù)量很少);
3.一般數(shù)值很大的時(shí)候不用這個(gè),計(jì)算量太大。但是單個(gè)樣本又不能太少 否則容易發(fā)生誤分。
4.最大的缺點(diǎn)是無法給出數(shù)據(jù)的內(nèi)在含義。
樸素貝葉斯
優(yōu)點(diǎn):
1.生成式模型,通過計(jì)算概率來進(jìn)行分類,可以用來處理多分類問題,
2.對小規(guī)模的數(shù)據(jù)表現(xiàn)很好,適合多分類任務(wù),適合增量式訓(xùn)練,算法也比較簡單。
缺點(diǎn):
1.對輸入數(shù)據(jù)的表達(dá)形式很敏感,
2.由于樸素貝葉斯的“樸素”特點(diǎn),所以會(huì)帶來一些準(zhǔn)確率上的損失。
3.需要計(jì)算先驗(yàn)概率,分類決策存在錯(cuò)誤率。
決策樹
優(yōu)點(diǎn):
1.概念簡單,計(jì)算復(fù)雜度不高,可解釋性強(qiáng),輸出結(jié)果易于理解;
2.數(shù)據(jù)的準(zhǔn)備工作簡單, 能夠同時(shí)處理數(shù)據(jù)型和常規(guī)型屬性,其他的技術(shù)往往要求數(shù)據(jù)屬性的單一。
3.對中間值得確實(shí)不敏感,比較適合處理有缺失屬性值的樣本,能夠處理不相關(guān)的特征;
4.應(yīng)用范圍廣,可以對很多屬性的數(shù)據(jù)集構(gòu)造決策樹,可擴(kuò)展性強(qiáng)。決策樹可以用于不熟悉的數(shù)據(jù)集合,并從中提取出一些列規(guī)則 這一點(diǎn)強(qiáng)于KNN。
缺點(diǎn):
1.容易出現(xiàn)過擬合;
2.對于那些各類別樣本數(shù)量不一致的數(shù)據(jù),在決策樹當(dāng)中,信息增益的結(jié)果偏向于那些具有更多數(shù)值的特征。
- 信息缺失時(shí)處理起來比較困難。 忽略數(shù)據(jù)集中屬性之間的相關(guān)性。
Svm
優(yōu)點(diǎn):
1.可用于線性/非線性分類,也可以用于回歸,泛化錯(cuò)誤率低,計(jì)算開銷不大,結(jié)果容易解釋;
2.可以解決小樣本情況下的機(jī)器學(xué)習(xí)問題,可以解決高維問題 可以避免神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇和局部極小點(diǎn)問題。
3.SVM是最好的現(xiàn)成的分類器,現(xiàn)成是指不加修改可直接使用。并且能夠得到較低的錯(cuò)誤率,SVM可以對訓(xùn)練集之外的數(shù)據(jù)點(diǎn)做很好的分類決策。
缺點(diǎn):對參數(shù)調(diào)節(jié)和和函數(shù)的選擇敏感,原始分類器不加修改僅適用于處理二分類問題。
Logistic回歸:
根據(jù)現(xiàn)有數(shù)據(jù)對分類邊界線建立回歸公式,依次進(jìn)行分類。
優(yōu)點(diǎn):
實(shí)現(xiàn)簡單,易于理解和實(shí)現(xiàn);
計(jì)算代價(jià)不高,速度很快,存儲(chǔ)資源低;
缺點(diǎn):
容易欠擬合,分類精度可能不高
EM 期望最大化算法-上帝算法
只要有一些訓(xùn)練數(shù)據(jù),再定義一個(gè)最大化函數(shù),采用EM算法,利用計(jì)算機(jī)經(jīng)過若干次迭代,就可以得到所需的模型。EM算法是自收斂的分類算法,既不需要事先設(shè)定類別也不需要數(shù)據(jù)見的兩兩比較合并等操作。缺點(diǎn)是當(dāng)所要優(yōu)化的函數(shù)不是凸函數(shù)時(shí),EM算法容易給出局部最佳解,而不是最優(yōu)解。
【參考文獻(xiàn)】 機(jī)器學(xué)習(xí)–判別式模型與生成式模型 http://www.cnblogs.com/fanyabo/p/4067295.html
數(shù)據(jù)挖掘十大算法—-EM算法(最大期望算法) http://www.tuicool.com/articles/Av6NVzy 各種分類算法的優(yōu)缺點(diǎn) - 學(xué)習(xí)筆記1.0 - 經(jīng)管之家(原人大經(jīng)濟(jì)論壇) http://bbs.pinggu.org/thread-2604496-1-1.html 機(jī)器學(xué)習(xí)&數(shù)據(jù)挖掘筆記_16(常見面試之機(jī)器學(xué)習(xí)算法思想簡單梳理) http://www.cnblogs.com/tornadomeet/p/3395593.html 吳軍.?dāng)?shù)學(xué)之美[M].北京:人民郵電出版社,2014. Peter Harrington,李銳,李鵬,曲亞東,王斌.機(jī)器學(xué)習(xí)實(shí)戰(zhàn)[M].北京:人民郵電出版社2013. 李航.統(tǒng)計(jì)學(xué)習(xí)方法[M].北京:清華大學(xué)出版社 2012. 杉山將,許永偉.圖解機(jī)器學(xué)習(xí)[M].北京:人民郵電出版社2015. 斯坦福大學(xué)公開課 :機(jī)器學(xué)習(xí)課程