歡迎大家關(guān)注公眾號【哈希大數(shù)據(jù)】
致哈希粉的一封信:
最近大家反應(yīng)說公眾號的東西太難啦~看到一般看不懂就關(guān)掉了,估計(jì)下次也不會(huì)打開了。所以昨天小希希呀,希小妹啊等等哈希們進(jìn)行了很激烈的討論,做了個(gè)極其重要的決定那就是:接下來我們的內(nèi)容將給大家從最基礎(chǔ)的東西講起?。?!這一周以及接下來幾周我們主要是進(jìn)行知識點(diǎn)全面掃盲,包括機(jī)器學(xué)習(xí)、數(shù)據(jù)爬蟲和分析、圖像識別、自然語言處理、機(jī)器人編程、人工智能等知識概念和應(yīng)用普及。
畢竟每個(gè)進(jìn)來的孩紙都是抱著做"更好的自己"這樣的初衷,先給每位努力的小可愛一個(gè)抱抱,所以現(xiàn)在希望大家緊緊跟著我們的腳步來,我們慢慢地努力地跟大家一起不放過任何一個(gè)知識點(diǎn)?。?!
并且我們還開設(shè)了答疑專欄,有任何不懂的可以在文章后面or公眾號后臺(tái)留言,我們會(huì)通過公眾號私信你,或是直接回答你,或是在下一期的講解里集中回答,千萬不要怕自己提出的問題很幼稚,我們需要你的提問和建議??!
今天要給大家介紹的是“機(jī)器學(xué)習(xí)的掃盲篇(一) 機(jī)器學(xué)習(xí)的概念和分類”
文章不長,想從基礎(chǔ)學(xué)習(xí)的同學(xué),需要靜下心來跟上哦!!
一起加油!小希希期待你的留言~~
機(jī)器學(xué)習(xí)的概念
機(jī)器學(xué)習(xí)(machine learning),從字面上來看可分為機(jī)器和學(xué)習(xí)兩部分,其中機(jī)器是指電腦、pad、手機(jī)等一切可以處理數(shù)據(jù)的電子設(shè)備(計(jì)算機(jī));學(xué)習(xí)是指機(jī)器為獲得解決問題能力所做出的行為(學(xué)習(xí)是智能生物的基本特征之一),即設(shè)計(jì)一些讓計(jì)算機(jī)可以自動(dòng)“學(xué)習(xí)”的算法,以便從輸入(輸出)的數(shù)據(jù)中習(xí)得經(jīng)驗(yàn)獲取規(guī)律,進(jìn)一步將其轉(zhuǎn)換成知識,利用知識而完成特定的預(yù)測和判斷任務(wù)。
在這里機(jī)器是學(xué)習(xí)的承擔(dān)者,而學(xué)習(xí)是機(jī)器執(zhí)行的具體行為。機(jī)器學(xué)習(xí)的目的就是讓機(jī)器可以像人類一樣通過不斷的學(xué)習(xí)而具備解決問題的能力,這種能力可以體現(xiàn)在算法設(shè)計(jì)和數(shù)據(jù)模型構(gòu)建中??赏瓿傻娜蝿?wù)包括分類、聚類、回歸、降維、推薦、密度估計(jì)等新的輸出。
機(jī)器學(xué)習(xí)的分類
對于機(jī)器而言,無論文字、圖片、音頻、視頻等都是一種數(shù)據(jù),根據(jù)給定數(shù)據(jù)集的不同,機(jī)器學(xué)習(xí)可以分為有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。
有監(jiān)督的學(xué)習(xí)是指,在訓(xùn)練機(jī)器學(xué)習(xí)的過程中,給定機(jī)器完整已知數(shù)據(jù)的輸入(數(shù)據(jù)特征)和輸出結(jié)果(數(shù)據(jù)回歸值或類別),機(jī)器學(xué)習(xí)后可以對新的輸入特征進(jìn)行預(yù)測得到新的輸出結(jié)果。
給大家舉個(gè)例子:
以我們之前做的波士頓房價(jià)可視化回歸預(yù)測來看,如果告訴機(jī)器一棟房子所在地區(qū)的住宅地比例、環(huán)保的指標(biāo)、自住的比例、便利的指數(shù)、以及不動(dòng)產(chǎn)稅率等指標(biāo),以及不同指標(biāo)下房屋的價(jià)格,這樣機(jī)器就能學(xué)習(xí)這些指標(biāo)的特點(diǎn)和房價(jià)的關(guān)系,而給出當(dāng)前指標(biāo)下具體的房屋價(jià)格。但是這個(gè)價(jià)格準(zhǔn)確率的問題要看機(jī)器通過不同模型和算法學(xué)習(xí)效果如何。(之前已嘗試過線性回歸模型、決策樹模型等,不同模型對應(yīng)的預(yù)測結(jié)果完全不同的,這也表示出了機(jī)器學(xué)習(xí)程度的不同)。
以機(jī)器學(xué)習(xí)實(shí)現(xiàn)鳶尾花的分類來看,我們只需給機(jī)器提供鳶尾花萼片和花瓣的長度和寬度數(shù)據(jù),以及花的類別,機(jī)器便可以通過學(xué)習(xí)KNN算法、邏輯回歸算法、決策樹算法等,來判斷新生長出的鳶尾花究竟是屬于山鳶尾、變色鳶尾還是維尼亞鳶尾。這些都是有監(jiān)督的機(jī)器學(xué)習(xí)方式。
無監(jiān)督的機(jī)器學(xué)習(xí),是僅提供輸入特征即鳶尾花萼片和花瓣的長度和寬度數(shù)據(jù),機(jī)器在學(xué)習(xí)過程中并不知道其結(jié)果是否正確。但是通過聚類、神經(jīng)網(wǎng)絡(luò)等算法它會(huì)自動(dòng)從這些特征中找出其潛在類別規(guī)則,而將鳶尾花分為三大類。


強(qiáng)化學(xué)習(xí)是基于監(jiān)督和無監(jiān)督學(xué)習(xí)兩者之間,其中機(jī)器在學(xué)習(xí)階段和有監(jiān)督學(xué)習(xí)是一樣的,數(shù)據(jù)特征和數(shù)據(jù)結(jié)果會(huì)完整輸入提供給數(shù)據(jù)。但等到測試階段,只是會(huì)告訴機(jī)器這次測試的結(jié)果是否達(dá)到了預(yù)期,也就是預(yù)測的房子價(jià)格和實(shí)際價(jià)格是否是差很多。只有預(yù)測差值符合要求后才會(huì)停止學(xué)習(xí),否則機(jī)器將在學(xué)習(xí)中動(dòng)態(tài)調(diào)整預(yù)測算法參數(shù),來達(dá)到預(yù)期。
一些總結(jié)
總而言之機(jī)器學(xué)習(xí)要實(shí)現(xiàn)從規(guī)律到知識的提煉,進(jìn)而得出輸入特征和目標(biāo)之間的映射關(guān)系(由模型算法定義的算法空間),這種映射關(guān)系就是計(jì)算機(jī)通過學(xué)習(xí)大量實(shí)例數(shù)據(jù)得出的。因此機(jī)器學(xué)習(xí)雖然包括數(shù)據(jù)和算法,但最主要的部分還是數(shù)據(jù),數(shù)據(jù)是機(jī)器學(xué)習(xí)成為可能的關(guān)鍵因素。在使用機(jī)器學(xué)習(xí)中也需要注意:
首先需要了解機(jī)器學(xué)習(xí)只能在與訓(xùn)練數(shù)據(jù)同分布的數(shù)據(jù)上有效,其并非適用于所有的數(shù)據(jù)集,因此需要對訓(xùn)練數(shù)據(jù)和實(shí)際數(shù)據(jù)之間統(tǒng)計(jì)上的不對稱性保持足夠的警覺,同時(shí)需要保持模型不斷地被訓(xùn)練讓它不落伍。
其次,如果機(jī)器學(xué)習(xí)算法出現(xiàn)偏差,在學(xué)習(xí)過程中也可能會(huì)持續(xù)的收集新的數(shù)據(jù)來不斷強(qiáng)化這一偏差。要時(shí)刻保持懷疑的態(tài)度來使用機(jī)器學(xué)習(xí)算法,并在應(yīng)用的過程中進(jìn)行嚴(yán)格的檢查。
最終,我們需要明白無論何種學(xué)習(xí)方式都不是萬能的,需要結(jié)合現(xiàn)實(shí)應(yīng)用場景在一定的范圍內(nèi)使用機(jī)器學(xué)習(xí)技術(shù),而且可能更多的需要在數(shù)據(jù)清洗和變換上花進(jìn)行不斷嘗試,以便讓機(jī)器可以更好的從數(shù)據(jù)中學(xué)習(xí)。