機器學(xué)習(xí)之基本術(shù)語

首先我們要明白機器學(xué)習(xí)的基本的原理,那就是把現(xiàn)實世界當(dāng)中要研究的對象通過特征值將其數(shù)字化,然后讓計算機通過這些已有的數(shù)字學(xué)習(xí)“經(jīng)驗”,從而有了判斷的能力,這時如果有了新的輸入,計算機就能夠根據(jù)這些經(jīng)驗來做出判斷。比如下面的例子就是要計算機判斷西瓜是好瓜還是壞瓜,我們把西瓜對象提取出三種類型的特征值,然后通過算法讓機器去學(xué)習(xí),從而擁有了判斷西瓜好壞的能力。我們把這個可以將經(jīng)驗(數(shù)據(jù))轉(zhuǎn)化為最終的模型(model,也就是那個能判斷好瓜還是壞瓜的程序)的算法稱之為學(xué)習(xí)算法(learning algorithm)

西瓜數(shù)據(jù)集

dataset.png

我們可以看出現(xiàn)實世界的任何事物其實都可以通過屬性或著特征來進(jìn)行描述,上圖給出的就是通過三個屬性來描述西瓜的一組數(shù)據(jù)。屬性的數(shù)目我們稱之為維數(shù),本例中表示西瓜用了三個特征,因此就是三維。
下面的圖表示樣本空間(sample space)或者屬性空間(attribute space),我們也可以看到這是一個三維空間。

cubic.JPG

每個樣本根據(jù)其特征值都會落在樣本空間的一個點上,這個點由一組坐標(biāo)向量來表示,因此樣本又叫做特征向量(feature vector)

機器學(xué)習(xí)的過程就是通過這些樣本數(shù)據(jù)進(jìn)行訓(xùn)練學(xué)習(xí)的過程,通過訓(xùn)練,我們可以得出自己的模型,這個模型我們可以理解為經(jīng)過訓(xùn)練的機器大腦,這個機器大腦可以幫助我們做判斷,比如判斷一個西瓜的好壞,判斷的越準(zhǔn)確,說明我們的模型越好。

當(dāng)我們開始訓(xùn)練我們的模型的時候,只有上面所示的數(shù)據(jù)集是不夠的,我們還需要一組帶有判斷結(jié)果的數(shù)據(jù),如下
((色澤=青綠;根蒂=蜷縮;敲聲=濁響),好瓜)
判斷結(jié)果我們叫做“標(biāo)記”(label),帶有標(biāo)記信息的樣本,則稱之為樣例(example)。
所有標(biāo)記的集合叫做“標(biāo)記空間”(label space)或“輸出空間”
通常我們訓(xùn)練模型就是為了找到輸入空間到輸出空間的對應(yīng)關(guān)系,即給定輸入空間的一個特征向量,能夠?qū)?yīng)到輸出空間的一個值。

如果我們想讓我們的模型只是簡單地去判斷(通常叫預(yù)測)一個瓜是好瓜還是壞瓜,即分成兩類,這種學(xué)習(xí)任務(wù)稱為“分類”(classification),它預(yù)測的是離散值;如果是想讓其預(yù)測的是連續(xù)值,如預(yù)測西瓜成熟度0.95, 0.88,此類學(xué)習(xí)任務(wù)就叫做“回歸”(regression)

在我們的示例中只是簡單地分為“好瓜”,“壞瓜”兩類,此種分類稱為“二分類”(binary classification),通常一個稱為“正類”(positive class)也有翻譯為“陽類”,另一個稱為“反類”(negtive class)也翻譯為“陰類”。
如果是多個類別的話,就稱為“多分類”任務(wù)。

如果我們想將訓(xùn)練集中的西瓜分成若干組,每組就稱之為一個“簇”(cluster),這個過程就叫做“聚類”(clustering)。這些簇可能對應(yīng)一些潛在的分類,比如“淺色瓜”,“深色瓜”等。而這些分類可能是我們事先并不知道的,就是說學(xué)習(xí)算法在做聚類分析的時候是自動產(chǎn)生的類別,通常訓(xùn)練樣本中也不需要標(biāo)記信息。

根據(jù)訓(xùn)練數(shù)據(jù)是否有標(biāo)記信息,學(xué)習(xí)任務(wù)可分為監(jiān)督學(xué)習(xí)(supervised learning)和無監(jiān)督學(xué)習(xí)(unsupervised learning)。分類和回歸是監(jiān)督學(xué)習(xí)的典型代表,而聚類則是無監(jiān)督學(xué)習(xí)的典型代表。

假設(shè)空間
每種特征的組合都認(rèn)為是一個假設(shè)(hypothesis),如,(色澤=青綠;根蒂=蜷縮;敲聲=濁響)是一種假設(shè),所有假設(shè)的集合我們稱之為假設(shè)空間。
如果“色澤”,“根蒂”,“敲聲”分別有3,2,2種可能,(每種特征值都要加一種任意值可能)那么假設(shè)空間的規(guī)模就是4x3x3 + 1 = 37

hypothesis.png

從這幅圖可以看出,每種特征值在計算可能性的時候都加了一種可能,就是任意值可能,我們用“*”表示,最后結(jié)果加1是由于存在一種可能就是根本沒有“好瓜”這個概念,或者說“好瓜”跟這些特征都沒有關(guān)系。當(dāng)給定一個訓(xùn)練集進(jìn)行訓(xùn)練的時候,模型會逐漸刪除那些與正例不一致的假設(shè)和(或)與反例一致的假設(shè),最后獲得與訓(xùn)練集一致的假設(shè)。而剩下的這些假設(shè)可能有多個,我們把剩下的這些假設(shè)的集合稱之為“版本空間”(version space)。

歸納偏好
在上文中我們可以發(fā)現(xiàn)版本空間中可能有多個假設(shè),究竟選擇什么樣的假設(shè)作為模型的基礎(chǔ)呢?比如是越特殊越好,還是越泛化越好呢?比如傾向于色澤還是讓敲聲有更多的權(quán)重?這些針對某種類型的假設(shè)的偏好,就叫做“歸納偏好”或者簡稱“偏好”。而具體到實際的問題解決,往往就是這個偏好的設(shè)置最為關(guān)鍵,直接決定了算法的效果。

另外在機器學(xué)習(xí)領(lǐng)域有一個著名的定理叫NFL定理(No Free Lunch Theorem)是說在所有問題的解決上,不同算法的總誤差相同。實際應(yīng)用時,由于我們只針對特定問題,所以選擇不同的算法還是有差異的。

參考:
周志華《機器學(xué)習(xí)》

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容