什么是機(jī)器學(xué)習(xí)machine learning?

機(jī)器學(xué)習(xí)致力于研究如何通過(guò)計(jì)算的手段,利用經(jīng)驗(yàn)來(lái)改善系統(tǒng)自身的性能,主要是通過(guò)數(shù)據(jù)產(chǎn)生模型的算法——“學(xué)習(xí)算法”。機(jī)器學(xué)習(xí)的定義有多種說(shuō)法,但是我們可以重點(diǎn)了解其中的兩種。

第一個(gè)機(jī)器學(xué)習(xí)的定義來(lái)自Arthur Samuel,他定義機(jī)器學(xué)習(xí)為“在進(jìn)行特定編程的情況下,給予計(jì)算機(jī)學(xué)習(xí)能力的領(lǐng)域”。Samuel的定義可以回溯到50年代,他編寫(xiě)了一個(gè)西洋棋程序。這程序神奇之處在于,編程者自己并不是個(gè)下棋高手,通過(guò)編程,讓西洋棋程序自己跟自己下了上萬(wàn)盤棋。通過(guò)觀察哪種布局會(huì)贏,哪些布局會(huì)輸,一段時(shí)間后,跳棋游戲程序就學(xué)到了什么是好的布局,什么是不好的布局,最終,程序就學(xué)會(huì)了玩棋,而且水平超過(guò)了Samuel,這絕對(duì)是令人注目的成果。盡管編寫(xiě)者自己是個(gè)菜鳥(niǎo),但因?yàn)橛?jì)算機(jī)有著足夠的耐心去下上萬(wàn)盤棋,通過(guò)這些練習(xí),計(jì)算機(jī)獲得無(wú)比豐富的經(jīng)驗(yàn),于是漸漸成為了比Samuel更厲害的西洋棋手。這是有點(diǎn)不太正式的定義,也是較老的一個(gè)定義。

另一個(gè)年代近一點(diǎn)的定義,由Tom Mitchell提出,他來(lái)自卡內(nèi)基梅隆大學(xué)。Tom定義的機(jī)器學(xué)習(xí)是這樣的:“一個(gè)好的學(xué)習(xí)問(wèn)題定義如下:‘一個(gè)程序被認(rèn)為能從經(jīng)驗(yàn)E中學(xué)習(xí),解決任務(wù)T,達(dá)到性能度量值P,當(dāng)且僅當(dāng),有了經(jīng)驗(yàn)E后,經(jīng)過(guò)P評(píng)判,程序在處理T時(shí)的性能有所提升’。”在西洋棋的例子中,經(jīng)驗(yàn)E就是程序上萬(wàn)次的自我練習(xí)的經(jīng)驗(yàn);而任務(wù)T就是下棋;性能度量P就是它在與一些新的對(duì)手比賽時(shí),贏得比賽的概率。


要簡(jiǎn)單認(rèn)識(shí)機(jī)器學(xué)習(xí),我們除了知道大概的定義外,還要了解兩個(gè)術(shù)語(yǔ):監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)。

監(jiān)督學(xué)習(xí):意指給出一個(gè)算法,需要部分?jǐn)?shù)據(jù)集已經(jīng)有了正確的答案(比如給定房?jī)r(jià)數(shù)據(jù)集,即數(shù)據(jù)集中的每個(gè)房子大小對(duì)應(yīng)著一個(gè)房?jī)r(jià),那么對(duì)于里面的每個(gè)數(shù)據(jù),算法都知道對(duì)應(yīng)的正確房?jī)r(jià),即這房子實(shí)際賣出的價(jià)格),算法的結(jié)果就是算出更多的正確價(jià)格(比如有個(gè)新房子,你想要賣掉,算法會(huì)根據(jù)已有的數(shù)據(jù)集答案算出你的房?jī)r(jià))。用更術(shù)語(yǔ)的方式來(lái)定義,監(jiān)督學(xué)習(xí)又叫回歸問(wèn)題,意指要預(yù)測(cè)一個(gè)連續(xù)值的輸出,比如房?jī)r(jià),雖然從現(xiàn)實(shí)生活看,一般把房?jī)r(jià)記到分單位,實(shí)際還是個(gè)離散值,但通常把它看作實(shí)際數(shù)字,是一個(gè)標(biāo)量值,一個(gè)連續(xù)值的數(shù)。

無(wú)監(jiān)督學(xué)習(xí):意指讓機(jī)器自己學(xué)習(xí),在給出的數(shù)據(jù)集中是沒(méi)有對(duì)應(yīng)的正確答案的(比如腫瘤的大小和良惡性的關(guān)系,數(shù)據(jù)集不會(huì)給出“腫瘤大就惡性或良性”這樣的答案),而是需要算法根據(jù)數(shù)據(jù)集的特征進(jìn)行分類,再得出答案。因此聚類是無(wú)監(jiān)督學(xué)習(xí)的代表。

以上是機(jī)器學(xué)習(xí)主要的兩種方式。


此外,算法的歸納偏好也是很重要的一點(diǎn)。歸納偏好,我的理解就是,因?yàn)樾碌挠?xùn)練集或者是舊的訓(xùn)練集外的空間,是未知的,需要算法去得出答案。但算法往往是根據(jù)以往的數(shù)據(jù)集產(chǎn)生的,那么面對(duì)未知的數(shù)據(jù)空間時(shí),算法的性能是不一樣的,也就是不同的數(shù)據(jù)集偏好的歸納特征是不一樣的。因此要討論算法的相對(duì)優(yōu)劣,必須要針對(duì)具體的學(xué)習(xí)問(wèn)題;在某些問(wèn)題上表現(xiàn)好的學(xué)習(xí)算法,在另一些問(wèn)題上卻可能不盡如人意,學(xué)習(xí)算法自身的歸納偏好與問(wèn)題是否相配,往往會(huì)起決定性作用。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容