1 什么是機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí):能從數(shù)據(jù)中自動提取有價值信息的算法設(shè)計(jì)。
三要素:數(shù)據(jù)、模型、學(xué)習(xí)。模型(model)描述了從一個數(shù)據(jù)集生成另一個數(shù)據(jù)集的過程。從數(shù)據(jù)中學(xué)習(xí)而得到模型,學(xué)習(xí)的過程就是不斷調(diào)整模型參數(shù)的過程。(筆者:好的模型能應(yīng)用于新的數(shù)據(jù),稱為泛化。)
1.1 正名
算法(algorithm):一指模型預(yù)測(predictors);二值模型訓(xùn)練(training)。
看待數(shù)據(jù)(data)的三個視角:
- 數(shù)組(計(jì)算機(jī)科學(xué)視角)
- 向量(物理視角)
- 遵循加法和縮放(scaling)規(guī)則的對象(代數(shù)視角)
本節(jié)小結(jié)
- 把數(shù)據(jù)看成向量。
- 從統(tǒng)計(jì)或優(yōu)化的視角選擇合適的模型。
- 學(xué)習(xí)就是基于已有數(shù)據(jù)使用優(yōu)化方法使得模型能應(yīng)用于新的數(shù)據(jù)。
1.2 本書的兩種閱讀方式
- 自底向上。優(yōu)點(diǎn)基礎(chǔ)扎,步步為營;缺點(diǎn),缺少應(yīng)用路徑,容易忘記不感興趣的點(diǎn)。
- 自頂向下。優(yōu)點(diǎn):問題導(dǎo)向,目標(biāo)驅(qū)動,所學(xué)既所用;缺點(diǎn):基礎(chǔ)不牢,部分概念不清。
本書組織方式: - 第一部分。按自底向上組織數(shù)學(xué)基礎(chǔ)。包括:
- 線性代數(shù)(linear algebra)
- 解析幾何(analytic geometry)
- 矩陣分解(matrix decomposition)
- 矢量驗(yàn)算(vector calculus)
- 統(tǒng)計(jì)理論(probability theory)
- 最優(yōu)化(optimization)
- 第二部分。分為四大類問題:
- 回歸(regression)
- 降維(dimensionality reduction)
- 密度估計(jì)(density estimation)
- 分類(classification)。
兩個部分之間可以方便導(dǎo)航。