13、數(shù)據(jù),學(xué)習(xí)和建模

機(jī)器學(xué)習(xí)中的關(guān)鍵概念為理解該領(lǐng)域奠定了基礎(chǔ)。

在這篇文章中,您將學(xué)習(xí)在描述數(shù)據(jù)和數(shù)據(jù)集時使用的命名法(標(biāo)準(zhǔn)術(shù)語)。

您還將學(xué)習(xí)用于描述數(shù)據(jù)學(xué)習(xí)和建模的概念和術(shù)語,這些概念和術(shù)語將為您在機(jī)器學(xué)習(xí)領(lǐng)域的旅程提供有價值的直覺。

數(shù)據(jù)

機(jī)器學(xué)習(xí)方法從實(shí)例中學(xué)習(xí)。掌握輸入數(shù)據(jù)和描述數(shù)據(jù)時使用的各種術(shù)語非常重要。在本節(jié)中,您將學(xué)習(xí)在引用數(shù)據(jù)時機(jī)器學(xué)習(xí)中使用的術(shù)語。

當(dāng)我想到數(shù)據(jù)時,我會想到行和列,比如數(shù)據(jù)庫表或Excel電子表格。這是一種傳統(tǒng)的數(shù)據(jù)結(jié)構(gòu),是機(jī)器學(xué)習(xí)領(lǐng)域的常見結(jié)構(gòu)。目前不考慮其他數(shù)據(jù),如圖像,視頻和文本,即所謂的非結(jié)構(gòu)化數(shù)據(jù)。

image.png

顯示實(shí)例,功能和訓(xùn)練測試數(shù)據(jù)集的數(shù)據(jù)表

實(shí)例:單行數(shù)據(jù)稱為實(shí)例。這是來自領(lǐng)域的觀察。

功能:單列數(shù)據(jù)稱為功能。它是觀察的一個組成部分,也稱為數(shù)據(jù)實(shí)例的屬性。一些特征可以是模型的輸入(預(yù)測變量),而其他特征可以是輸出或要預(yù)測的特征。

數(shù)據(jù)類型:功能具有數(shù)據(jù)類型。它們可以是實(shí)數(shù)或整數(shù)值,也可以具有分類或序數(shù)值。您可以使用字符串,日期,時間和更復(fù)雜的類型,但在使用傳統(tǒng)的機(jī)器學(xué)習(xí)方法時,通常會將它們簡化為實(shí)際值或分類值。

數(shù)據(jù)集:實(shí)例集合是一個數(shù)據(jù)集,在使用機(jī)器學(xué)習(xí)方法時,我們通常需要一些數(shù)據(jù)集用于不同的目的。

訓(xùn)練數(shù)據(jù)集:我們提供給我們的機(jī)器學(xué)習(xí)算法以訓(xùn)練我們的模型的數(shù)據(jù)集。

測試數(shù)據(jù)集:我們用于驗(yàn)證模型準(zhǔn)確性但不用于訓(xùn)練模型的數(shù)據(jù)集。它可以稱為驗(yàn)證數(shù)據(jù)集。

我們可能必須收集實(shí)例來形成我們的數(shù)據(jù)集,或者我們可能會得到一個必須拆分為子數(shù)據(jù)集的有限數(shù)據(jù)集。

學(xué)習(xí)

機(jī)器學(xué)習(xí)確實(shí)是關(guān)于算法的自動學(xué)習(xí)。

在本節(jié)中,我們將考慮一些關(guān)于學(xué)習(xí)的高級概念。

歸納:機(jī)器學(xué)習(xí)算法通過稱為歸納學(xué)習(xí)或歸納學(xué)習(xí)的過程學(xué)習(xí)。歸納是一種推理過程,它根據(jù)特定信息(訓(xùn)練數(shù)據(jù))進(jìn)行概括(模型)。

泛化:需要泛化,因?yàn)闄C(jī)器學(xué)習(xí)算法準(zhǔn)備的模型需要根據(jù)培訓(xùn)期間未見的特定數(shù)據(jù)實(shí)例進(jìn)行預(yù)測或決策。

過度學(xué)習(xí):當(dāng)模型過于緊密地學(xué)習(xí)訓(xùn)練數(shù)據(jù)而不進(jìn)行概括時,這稱為過度學(xué)習(xí)。結(jié)果是除了訓(xùn)練數(shù)據(jù)集之外的數(shù)據(jù)表現(xiàn)不佳。這也稱為過度擬合。

在學(xué)習(xí):當(dāng)一個模型并沒有從數(shù)據(jù)庫中了解到足夠的結(jié)構(gòu),因?yàn)樵趯W(xué)習(xí)過程被提前終止,這是在學(xué)習(xí)調(diào)用。結(jié)果是良好的泛化,但所有數(shù)據(jù)(包括訓(xùn)練數(shù)據(jù)集)的性能都很差。這也稱為欠配合。

在線學(xué)習(xí):在線學(xué)習(xí)是指在域可用時使用域中的數(shù)據(jù)實(shí)例更新方法。在線學(xué)習(xí)需要對噪聲數(shù)據(jù)具有魯棒性的方法,但可以生成與域的當(dāng)前狀態(tài)更加一致的模型。

離線學(xué)習(xí):離線學(xué)習(xí)是指在預(yù)先準(zhǔn)備好的數(shù)據(jù)上創(chuàng)建方法,然后在未觀察到的數(shù)據(jù)上進(jìn)行操作。由于訓(xùn)練數(shù)據(jù)的范圍是已知的,因此可以控制并且可以仔細(xì)調(diào)整訓(xùn)練過程。準(zhǔn)備好后,模型不會更新,如果域名發(fā)生變化,性能可能會下降。

監(jiān)督學(xué)習(xí):這是一個學(xué)習(xí)過程,用于概括需要預(yù)測的問題?!敖虒W(xué)過程”將模型的預(yù)測與已知答案進(jìn)行比較,并在模型中進(jìn)行校正。

無監(jiān)督學(xué)習(xí):這是一個學(xué)習(xí)過程,用于推廣數(shù)據(jù)中不需要預(yù)測的結(jié)構(gòu)。識別和利用自然結(jié)構(gòu)以將實(shí)例相互關(guān)聯(lián)。

機(jī)器學(xué)習(xí)算法的帖子之前,我們已經(jīng)介紹了有監(jiān)督和無監(jiān)督的學(xué)習(xí)。這些術(shù)語可用于按行為對算法進(jìn)行分類。

造型

由機(jī)器學(xué)習(xí)過程創(chuàng)建的人工制品本身可以被視為一個程序。

模型選擇:我們可以將配置和訓(xùn)練模型的過程視為模型選擇過程。每次迭代我們都有一個新模型,我們可以選擇使用或修改。甚至機(jī)器學(xué)習(xí)算法的選擇也是該模型選擇過程的一部分。在針對問題存在的所有可能模型中,所選訓(xùn)練數(shù)據(jù)集上的給定算法和算法配置將提供最終選擇的模型。

感應(yīng)偏差:偏差是對所選模型施加的限制。所有模型都有偏差,這會在模型中引入誤差,并且根據(jù)定義,所有模型都有誤差(它們是觀察的概括)。通過模型中的一般化引入偏差,包括模型的配置和生成模型的算法的選擇。機(jī)器學(xué)習(xí)方法可以創(chuàng)建具有低偏差或高偏差的模型,并且可以使用策略來減少高偏差模型的偏差。

模型方差:方差是模型對訓(xùn)練數(shù)據(jù)的敏感程度。在數(shù)據(jù)集上創(chuàng)建模型時,機(jī)器學(xué)習(xí)方法可以具有高或低的方差。減少模型方差的策略是在具有不同初始條件的數(shù)據(jù)集上多次運(yùn)行,并將平均精度作為模型性能。

偏差 - 方差權(quán)衡:模型選擇可以被認(rèn)為是偏差和方差的權(quán)衡。低偏差模型將具有高差異并且需要長時間或多次訓(xùn)練以獲得可用模型。高偏差模型將具有較低的方差并且將快速訓(xùn)練,但是遭受差的且有限的性能。

資源

如果您想深入挖掘,下面是一些資源。

這篇文章提供了一個有用的術(shù)語表,您可以隨時參考這些術(shù)語以獲得清晰的定義。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容