機(jī)器學(xué)習(xí)中的關(guān)鍵概念為理解該領(lǐng)域奠定了基礎(chǔ)。
在這篇文章中,您將學(xué)習(xí)在描述數(shù)據(jù)和數(shù)據(jù)集時使用的命名法(標(biāo)準(zhǔn)術(shù)語)。
您還將學(xué)習(xí)用于描述數(shù)據(jù)學(xué)習(xí)和建模的概念和術(shù)語,這些概念和術(shù)語將為您在機(jī)器學(xué)習(xí)領(lǐng)域的旅程提供有價值的直覺。
數(shù)據(jù)
機(jī)器學(xué)習(xí)方法從實(shí)例中學(xué)習(xí)。掌握輸入數(shù)據(jù)和描述數(shù)據(jù)時使用的各種術(shù)語非常重要。在本節(jié)中,您將學(xué)習(xí)在引用數(shù)據(jù)時機(jī)器學(xué)習(xí)中使用的術(shù)語。
當(dāng)我想到數(shù)據(jù)時,我會想到行和列,比如數(shù)據(jù)庫表或Excel電子表格。這是一種傳統(tǒng)的數(shù)據(jù)結(jié)構(gòu),是機(jī)器學(xué)習(xí)領(lǐng)域的常見結(jié)構(gòu)。目前不考慮其他數(shù)據(jù),如圖像,視頻和文本,即所謂的非結(jié)構(gòu)化數(shù)據(jù)。

顯示實(shí)例,功能和訓(xùn)練測試數(shù)據(jù)集的數(shù)據(jù)表
實(shí)例:單行數(shù)據(jù)稱為實(shí)例。這是來自領(lǐng)域的觀察。
功能:單列數(shù)據(jù)稱為功能。它是觀察的一個組成部分,也稱為數(shù)據(jù)實(shí)例的屬性。一些特征可以是模型的輸入(預(yù)測變量),而其他特征可以是輸出或要預(yù)測的特征。
數(shù)據(jù)類型:功能具有數(shù)據(jù)類型。它們可以是實(shí)數(shù)或整數(shù)值,也可以具有分類或序數(shù)值。您可以使用字符串,日期,時間和更復(fù)雜的類型,但在使用傳統(tǒng)的機(jī)器學(xué)習(xí)方法時,通常會將它們簡化為實(shí)際值或分類值。
數(shù)據(jù)集:實(shí)例集合是一個數(shù)據(jù)集,在使用機(jī)器學(xué)習(xí)方法時,我們通常需要一些數(shù)據(jù)集用于不同的目的。
訓(xùn)練數(shù)據(jù)集:我們提供給我們的機(jī)器學(xué)習(xí)算法以訓(xùn)練我們的模型的數(shù)據(jù)集。
測試數(shù)據(jù)集:我們用于驗(yàn)證模型準(zhǔn)確性但不用于訓(xùn)練模型的數(shù)據(jù)集。它可以稱為驗(yàn)證數(shù)據(jù)集。
我們可能必須收集實(shí)例來形成我們的數(shù)據(jù)集,或者我們可能會得到一個必須拆分為子數(shù)據(jù)集的有限數(shù)據(jù)集。
學(xué)習(xí)
機(jī)器學(xué)習(xí)確實(shí)是關(guān)于算法的自動學(xué)習(xí)。
在本節(jié)中,我們將考慮一些關(guān)于學(xué)習(xí)的高級概念。
歸納:機(jī)器學(xué)習(xí)算法通過稱為歸納學(xué)習(xí)或歸納學(xué)習(xí)的過程學(xué)習(xí)。歸納是一種推理過程,它根據(jù)特定信息(訓(xùn)練數(shù)據(jù))進(jìn)行概括(模型)。
泛化:需要泛化,因?yàn)闄C(jī)器學(xué)習(xí)算法準(zhǔn)備的模型需要根據(jù)培訓(xùn)期間未見的特定數(shù)據(jù)實(shí)例進(jìn)行預(yù)測或決策。
過度學(xué)習(xí):當(dāng)模型過于緊密地學(xué)習(xí)訓(xùn)練數(shù)據(jù)而不進(jìn)行概括時,這稱為過度學(xué)習(xí)。結(jié)果是除了訓(xùn)練數(shù)據(jù)集之外的數(shù)據(jù)表現(xiàn)不佳。這也稱為過度擬合。
在學(xué)習(xí):當(dāng)一個模型并沒有從數(shù)據(jù)庫中了解到足夠的結(jié)構(gòu),因?yàn)樵趯W(xué)習(xí)過程被提前終止,這是在學(xué)習(xí)調(diào)用。結(jié)果是良好的泛化,但所有數(shù)據(jù)(包括訓(xùn)練數(shù)據(jù)集)的性能都很差。這也稱為欠配合。
在線學(xué)習(xí):在線學(xué)習(xí)是指在域可用時使用域中的數(shù)據(jù)實(shí)例更新方法。在線學(xué)習(xí)需要對噪聲數(shù)據(jù)具有魯棒性的方法,但可以生成與域的當(dāng)前狀態(tài)更加一致的模型。
離線學(xué)習(xí):離線學(xué)習(xí)是指在預(yù)先準(zhǔn)備好的數(shù)據(jù)上創(chuàng)建方法,然后在未觀察到的數(shù)據(jù)上進(jìn)行操作。由于訓(xùn)練數(shù)據(jù)的范圍是已知的,因此可以控制并且可以仔細(xì)調(diào)整訓(xùn)練過程。準(zhǔn)備好后,模型不會更新,如果域名發(fā)生變化,性能可能會下降。
監(jiān)督學(xué)習(xí):這是一個學(xué)習(xí)過程,用于概括需要預(yù)測的問題?!敖虒W(xué)過程”將模型的預(yù)測與已知答案進(jìn)行比較,并在模型中進(jìn)行校正。
無監(jiān)督學(xué)習(xí):這是一個學(xué)習(xí)過程,用于推廣數(shù)據(jù)中不需要預(yù)測的結(jié)構(gòu)。識別和利用自然結(jié)構(gòu)以將實(shí)例相互關(guān)聯(lián)。
在機(jī)器學(xué)習(xí)算法的帖子之前,我們已經(jīng)介紹了有監(jiān)督和無監(jiān)督的學(xué)習(xí)。這些術(shù)語可用于按行為對算法進(jìn)行分類。
造型
由機(jī)器學(xué)習(xí)過程創(chuàng)建的人工制品本身可以被視為一個程序。
模型選擇:我們可以將配置和訓(xùn)練模型的過程視為模型選擇過程。每次迭代我們都有一個新模型,我們可以選擇使用或修改。甚至機(jī)器學(xué)習(xí)算法的選擇也是該模型選擇過程的一部分。在針對問題存在的所有可能模型中,所選訓(xùn)練數(shù)據(jù)集上的給定算法和算法配置將提供最終選擇的模型。
感應(yīng)偏差:偏差是對所選模型施加的限制。所有模型都有偏差,這會在模型中引入誤差,并且根據(jù)定義,所有模型都有誤差(它們是觀察的概括)。通過模型中的一般化引入偏差,包括模型的配置和生成模型的算法的選擇。機(jī)器學(xué)習(xí)方法可以創(chuàng)建具有低偏差或高偏差的模型,并且可以使用策略來減少高偏差模型的偏差。
模型方差:方差是模型對訓(xùn)練數(shù)據(jù)的敏感程度。在數(shù)據(jù)集上創(chuàng)建模型時,機(jī)器學(xué)習(xí)方法可以具有高或低的方差。減少模型方差的策略是在具有不同初始條件的數(shù)據(jù)集上多次運(yùn)行,并將平均精度作為模型性能。
偏差 - 方差權(quán)衡:模型選擇可以被認(rèn)為是偏差和方差的權(quán)衡。低偏差模型將具有高差異并且需要長時間或多次訓(xùn)練以獲得可用模型。高偏差模型將具有較低的方差并且將快速訓(xùn)練,但是遭受差的且有限的性能。
資源
如果您想深入挖掘,下面是一些資源。
- 湯姆米切爾,1980年學(xué)習(xí)概括中對偏見的需求
- 了解偏差 - 方差權(quán)衡
這篇文章提供了一個有用的術(shù)語表,您可以隨時參考這些術(shù)語以獲得清晰的定義。