數(shù)山有路,學海無涯:機器學習概論
機器學習的基本原理與基礎概念,其要點如下:
- 機器學習是計算機基于數(shù)據(jù)構(gòu)建概率統(tǒng)計模型并運用模型對數(shù)據(jù)進行預測與分析的學科;
- 根據(jù)輸入輸出類型的不同,機器學習可分為分類問題、回歸問題、標注問題三類;
- 過擬合是機器學習中不可避免的問題,可通過選擇合適的模型降低其影響;
- 監(jiān)督學習是目前機器學習的主流任務,包括生成方法和判別方法兩類。

image
簡約而不簡單:線性回歸
線性回歸的基本原理,其要點如下:
- 線性回歸假設輸出變量是若干輸入變量的線性組合,并根據(jù)這一關(guān)系求解線性組合中的最優(yōu)系數(shù);
- 最小二乘法可用于解決單變量線性回歸問題,當誤差函數(shù)服從正態(tài)分布時,它與最大似然估計等價;
- 多元線性回歸問題也可以用最小二乘法求解,但極易出現(xiàn)過擬合現(xiàn)象;
- 嶺回歸和 LASSO 回歸分別通過引入二范數(shù)懲罰項和一范數(shù)懲罰項抑制過擬合。

image
大道至簡:樸素貝葉斯方法
樸素貝葉斯方法的基本原理,其要點如下:
- 樸素貝葉斯方法利用后驗概率選擇最佳分類,后驗概率可以通過貝葉斯定理求解;
- 樸素貝葉斯方法假定所有屬性相互獨立,基于這一假設將類條件概率轉(zhuǎn)化為屬性條件概率的乘積;
- 樸素貝葉斯方法可以使期望風險最小化;
- 影響樸素貝葉斯分類的是所有屬性之間的依賴關(guān)系在不同類別上的分布。

image
衍化至繁:邏輯回歸
邏輯回歸方法的基本原理,其要點如下:
- 邏輯回歸模型是對線性回歸的改進,用于解決分類問題;
- 邏輯回歸輸出的是實例屬于每個類別的似然概率,似然概率最大的類別就是分類結(jié)果;
- 在一定條件下,邏輯回歸模型與樸素貝葉斯分類器是等價的;
- 多分類問題時可以通過多次使用二分類邏輯回歸或者使用 Softmax 回歸解決。

image
步步為營,有章可循:決策樹
決策樹的基本原理,其要點如下:
- 決策樹是包含根節(jié)點、內(nèi)部節(jié)點和葉節(jié)點的樹結(jié)構(gòu),通過判定不同屬性的特征來解決分類問題;
- 決策樹的學習過程包括特征選擇、決策樹生成、決策樹剪枝三個步驟;
- 決策樹生成的基礎是特征選擇,特征選擇的指標包括信息增益、信息增益比和基尼系數(shù);
- 決策樹的剪枝策略包括預剪枝和后剪枝。

image
窮則變,變則通:支持向量機
支持向量機的基本原理,其要點如下:
- 線性可分支持向量機通過硬間隔最大化求出劃分超平面,解決線性分類問題;
- 線性支持向量機通過軟間隔最大化求出劃分超平面,解決線性分類問題;
- 非線性支持向量機利用核函數(shù)實現(xiàn)從低維原始空間到高維特征空間的轉(zhuǎn)換,在高維空間上解決非線性分類問題;
- 支持向量機的學習是個凸二次規(guī)劃問題,可以用 SMO 算法快速求解。

image
三個臭皮匠,賽過諸葛亮:集成學習
集成學習的基本原理,其要點如下:
- 集成學習使用多個個體學習器來獲得比每個單獨學習器更好的預測性能,包括序列化方法和并行化方法兩類;
- 多樣性要求集成學習中的不同個體學習器之間具有足夠的差異性;
- 序列化方法采用 Boosting 機制,通過重復使用概率分布不同的訓練數(shù)據(jù)實現(xiàn)集成,可以降低泛化誤差中的偏差;
- 并行化方法采用 Bagging 機制,通過在訓練數(shù)據(jù)中多次自助抽取不同的采樣子集實現(xiàn)集成,可以降低泛化誤差中的方差。

image
物以類聚,人以群分:聚類分析
聚類分析的基本原理,其要點如下:
- 聚類分析是一種無監(jiān)督學習方法,通過學習沒有分類標記的訓練樣本發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在性質(zhì)和規(guī)律;
- 數(shù)據(jù)之間的相似性通常用距離度量,類內(nèi)差異應盡可能小,類間差異應盡可能大;
- 根據(jù)形成聚類方式的不同,聚類算法可以分為層次聚類、原型聚類、分布聚類、密度聚類等幾類;
- 聚類分析的一個重要應用是對用戶進行分組與歸類。

image
好鋼用在刀刃上:降維學習
主成分分析是一種主要的降維方法,另一種更加直觀的降維方式則是直接對樣本的屬性做出篩選,這種降維方法就是“特征選擇”,其要點如下:
- 主成分分析利用正交變換將可能存在相關(guān)性的原始屬性轉(zhuǎn)換成一組線性無關(guān)的新屬性,并通過選擇重要的新屬性實現(xiàn)降維;
- 主成分分析的解滿足最大方差和最小均方誤差兩類約束條件,因而具有最大可分性和最近重構(gòu)性;
- 特征選擇則是選取原始特征中的一個子集用于學習任務,是另一種主要的降維技術(shù);
- 特征選擇的關(guān)鍵問題是對特征子集的評價,主要的特征選擇算法包括包裹法、過濾法和嵌入法。

image
拓展閱讀參考書

image
總結(jié)自:人工智能基礎課: https://time.geekbang.org/column/62
簡寶玉寫作群日更打卡第 36 天