? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 第一章? ? ? ? ? 緒論?
? ? ? ?機器學(xué)習(xí)是致力于研究如何通過計算的手段,利用經(jīng)驗來改善系統(tǒng)自身的性能的學(xué)科。機器學(xué)習(xí)所研究的主要內(nèi)容,是關(guān)于在計算機上從數(shù)據(jù)中產(chǎn)生的“模型”的算法,我們把經(jīng)驗數(shù)據(jù)丟給它,它就能基于這些數(shù)據(jù)產(chǎn)生模型,在面對新的情況時,模型會為我們提供相應(yīng)的判斷。
基本術(shù)語:
1、數(shù)據(jù)集:是記錄的合集。其中每條記錄是關(guān)于一個事件或者對象的描述。稱為示例或者樣本。反映事件或?qū)ο笤谀撤矫娴谋憩F(xiàn)或性質(zhì)的事項。例如西瓜的‘色澤’、‘根蒂’等稱為屬性或者特征。如果我們把‘色澤’、‘根蒂’、‘敲聲’作為三個坐標(biāo)軸,則它們張成一個用于描述西瓜的三維空間,每個西瓜都可在這個空間中找到自己的坐標(biāo)位置,空間中每一個點對應(yīng)一個坐標(biāo)向量,因此也把一個示例稱為‘特征向量’。
2、訓(xùn)練樣本:訓(xùn)練過程中使用的數(shù)據(jù)稱為“訓(xùn)練數(shù)據(jù)”,其中每個樣本稱為一個‘訓(xùn)練樣本’。
3、假設(shè):學(xué)得的模型對應(yīng)了關(guān)于數(shù)據(jù)的某種潛在規(guī)律
4、監(jiān)督學(xué)習(xí):訓(xùn)練數(shù)據(jù)擁有標(biāo)記信息
5、無監(jiān)督學(xué)習(xí):訓(xùn)練數(shù)據(jù)不擁有標(biāo)記信息
6、泛化:學(xué)得的模型適用于新樣本的能力
7、歸納:從特殊到一般的泛化過程,即從具體的事實歸結(jié)出一般性規(guī)律
8、演繹:從一般到特殊的“特化”過程,即從基礎(chǔ)原理推演出具體狀況
9、假設(shè)空間:我們可以把學(xué)習(xí)過程看作一個在所有假設(shè)組成的空間中進(jìn)行搜索的過程,搜索目標(biāo)是找到與訓(xùn)練集‘匹配’的假設(shè),即能夠?qū)⒂?xùn)練集中的瓜判斷正確地假設(shè)。假設(shè)的表示一旦確定,假設(shè)空間及其規(guī)模大小就確定了,這里我們的假設(shè)空間有形如“(色澤=?)^(根蒂=?)^(敲聲=?)”的可能取值所形成的假設(shè)組成。
10、歸納偏好:機器學(xué)習(xí)算法在學(xué)習(xí)過程中對某種類型假設(shè)的偏好,稱為“歸納偏好”
11、奧卡姆剃刀原則:若有多個假設(shè)與觀察一致,則選擇最簡單的那一個。
12、沒有免費的午餐(NFL):無論學(xué)習(xí)算法A多聰明,學(xué)習(xí)算法B多笨拙,它們的期望性能相同。沒有免費的午餐定理最重要的意義在于,讓我們清楚的認(rèn)識到,脫離具體問題,空談“什么學(xué)習(xí)算法更好”毫無意義。因為若考慮到所有潛在的問題,則所有學(xué)習(xí)算法都一樣好。要談?wù)撍惴ǖ南鄬?yōu)劣,必須要針對具體的學(xué)習(xí)問題,,學(xué)習(xí)算法自身的歸納偏好與問題是否相配,往往會起到?jīng)Q定性的作用。