看到很多的小伙伴對(duì)于機(jī)器學(xué)習(xí)有這么大的興趣,同時(shí)發(fā)現(xiàn)也有很多剛剛接觸機(jī)器學(xué)習(xí)的小伙伴并不了解什么是機(jī)器學(xué)習(xí).所以我想盡自己的微薄之力來(lái)談?wù)勎覍?duì)與機(jī)器學(xué)習(xí)的理解.
不聊專(zhuān)業(yè),只正三觀.也感謝各位的多多指導(dǎo).
好,現(xiàn)在讓我們看看什么是機(jī)器學(xué)習(xí).其實(shí)呢,我們可以用一句話就可以把機(jī)器學(xué)習(xí)概括出來(lái)
機(jī)器學(xué)習(xí)就是利用計(jì)算機(jī)從歷史數(shù)據(jù)中找出規(guī)律,并把這些規(guī)律用到對(duì)未來(lái)不確定場(chǎng)景的決策.那么在這句話中呢,有幾個(gè)關(guān)鍵的要素需要知道.首先,機(jī)器學(xué)習(xí)要解決什么問(wèn)題,這些問(wèn)題呢實(shí)際上就是對(duì)于未來(lái)不確定場(chǎng)景的決策問(wèn)題.比如說(shuō)我們想知道明天的太陽(yáng)從哪個(gè)方向升起,這其實(shí)就屬于一個(gè)確定性的場(chǎng)景,因?yàn)樘?yáng)他永遠(yuǎn)是從東方升起從西方落下.這個(gè)問(wèn)題是獨(dú)一無(wú)二的,你不需要去猜,這個(gè)就屬于確定性的場(chǎng)景.與之相對(duì),還有一些不確定的場(chǎng)景,比如說(shuō)我們公司下個(gè)季度的業(yè)績(jī)銷(xiāo)量是個(gè)什么樣子,是會(huì)漲,還是會(huì)跌?漲的話漲幅會(huì)是多少.這些呢其實(shí)都是受很多客觀的因素所決定的,這些呢就是屬于不確定性的場(chǎng)景.那么我們機(jī)器學(xué)習(xí)就是對(duì)這樣的一種不確定的場(chǎng)景進(jìn)行一種判斷,進(jìn)行一種決策.這是機(jī)器學(xué)習(xí)要解決什么問(wèn)題.
那么,機(jī)器學(xué)習(xí)是怎么解決這些問(wèn)題的呢?它靠的就是規(guī)律.那么這些規(guī)律又是從哪里來(lái)的呢?他是靠計(jì)算機(jī)從歷史數(shù)據(jù)中挖出來(lái)的.這就是機(jī)器學(xué)習(xí)的幾個(gè)主體,這里邊呢有幾個(gè)因素,第一呢干機(jī)器學(xué)習(xí)的主體是計(jì)算機(jī),不是人.與之相對(duì)的呢就是還有一種是通過(guò)人來(lái)觀察數(shù)據(jù)中的一些規(guī)律.因?yàn)檫@些主體的不同,這就意味著我們現(xiàn)階段對(duì)應(yīng)的兩種崗位,數(shù)據(jù)分析和機(jī)器學(xué)習(xí)的不同.數(shù)據(jù)分析呢,他也是從數(shù)據(jù)中去找到一些規(guī)律,但是這個(gè)活動(dòng)呢,是靠人來(lái)驅(qū)動(dòng)的,也就是靠那些所謂的數(shù)據(jù)分析師所驅(qū)動(dòng)的,因此呢,這種的數(shù)據(jù)分析的方式他的學(xué)習(xí)效果很大程度上是歸類(lèi)于這個(gè)參加數(shù)據(jù)分析的這個(gè)數(shù)據(jù)分析師本身的經(jīng)驗(yàn),本身的知識(shí)水平所來(lái)決定的.那么機(jī)器學(xué)習(xí)實(shí)際上就是想要擺脫掉對(duì)于這樣的數(shù)據(jù)分析師,這樣的專(zhuān)家的依賴(lài),我們就完完全全的靠機(jī)器從實(shí)際中挖規(guī)律.好,這就是我們的第一個(gè)主體.
第二個(gè)主體呢,就是數(shù)據(jù),因?yàn)槟貦C(jī)器學(xué)習(xí)本身就是一個(gè)對(duì)于學(xué)習(xí)的框架或者就是一套算法,本身呢他也不能去做無(wú)米之炊,他必須也要有原材料,這個(gè)原材料呢就是歷史數(shù)據(jù).并且這個(gè)數(shù)據(jù)量越大的話,我們找出的這個(gè)數(shù)據(jù)量會(huì)越精準(zhǔn),能找到一些更微妙的規(guī)律出來(lái).另外一個(gè)要素呢就是我們要找出規(guī)律,這個(gè)規(guī)律到底是個(gè)什么樣的東西呢?這個(gè)規(guī)律落地后到底是中怎樣的表現(xiàn)呢?那現(xiàn)在先讓我們說(shuō)從數(shù)據(jù)中尋找規(guī)律.從數(shù)據(jù)中尋找規(guī)律他是怎么找的呢?這里邊牽扯的呢就是一些機(jī)器學(xué)習(xí)的算法了.并且這些不同的算法分辨出的規(guī)律分辨出的規(guī)律其實(shí)是不一樣的,那么大多數(shù)情況下我們找出的這個(gè)規(guī)律落實(shí)到地的話你可以就是看作是找出了一個(gè)數(shù)學(xué)函數(shù)和數(shù)學(xué)公式,類(lèi)似于y=ax+b,這樣的形式,當(dāng)我們把這樣的自變量X帶入以后會(huì)給我們找出一個(gè)結(jié)果Y來(lái),這就是所謂的尋找規(guī)律.那么我們是怎么把這些規(guī)律應(yīng)用到?jīng)Q策中的呢?換句話說(shuō),這些規(guī)律你是怎么落實(shí)到程序中呢?那么這時(shí)候可能會(huì)很多程序員就想我們找出規(guī)律以后,這時(shí)候程序員把這些規(guī)律轉(zhuǎn)變?yōu)橐恍┡袛啻a,或者函數(shù)之類(lèi)的,這是我們程序員最擅長(zhǎng)干的事.但其實(shí)呢,這個(gè)規(guī)律的落地不是這么樣子的,這些都是我們的機(jī)器學(xué)習(xí)的系統(tǒng)自動(dòng)生成的,所以在機(jī)器學(xué)習(xí)中,那些傳統(tǒng)的,只會(huì)寫(xiě)if else的程序員呢會(huì)面臨很大的壓力.
好,那么問(wèn)題又來(lái)了,既然機(jī)器學(xué)習(xí)就是從歷史數(shù)據(jù)中尋找規(guī)律,那我們就稍微把從數(shù)據(jù)中找規(guī)律這件事稍微探討下,其實(shí)坦白講這件事和機(jī)器學(xué)習(xí)沒(méi)有半毛錢(qián)關(guān)系,機(jī)器學(xué)習(xí)的歷史也不過(guò)即使那幾十年,他真正火起來(lái)也不過(guò)是這個(gè)大數(shù)據(jù)概念火起來(lái)以后這么七八年的歷史,但是呢人們從數(shù)據(jù)中去尋找規(guī)律的這件事人們已經(jīng)做了千百年了,大家如果對(duì)數(shù)據(jù)有一定了解的話就應(yīng)該知道有專(zhuān)門(mén)的學(xué)科像是概率論和數(shù)據(jù)統(tǒng)計(jì)之類(lèi)的,那么呢我們其實(shí)覺(jué)得概率論這個(gè)學(xué)科其實(shí)就是機(jī)器學(xué)習(xí)的一個(gè)基石,數(shù)據(jù)統(tǒng)計(jì)呢本身就是從數(shù)據(jù)中尋找規(guī)律,那么我們不妨思考下這個(gè)統(tǒng)計(jì)學(xué)和我們目前機(jī)器學(xué)習(xí)的處理方法有什么不同.這個(gè)統(tǒng)計(jì)學(xué)在我看來(lái)他的一個(gè)發(fā)展的瓶頸本身就在于當(dāng)時(shí)的一個(gè)計(jì)算能力的限制,比如說(shuō)當(dāng)時(shí)的計(jì)算方式大多數(shù)都靠人工和和一些簡(jiǎn)單的計(jì)算器,也就是近些年采用一些低端的計(jì)算機(jī),你不妨想一下,如果現(xiàn)在給你一萬(wàn)個(gè)數(shù)字求一下他的均值,這個(gè)對(duì)于計(jì)算機(jī)來(lái)說(shuō),可能不過(guò)就是一毫秒的事,但是如果你要是靠人的手算的話這可能就是那一個(gè)比較恐怖的活動(dòng)了.因?yàn)殚L(zhǎng)時(shí)間受限于計(jì)算能力的限制,所以呢統(tǒng)計(jì)學(xué)長(zhǎng)期以來(lái)一直用一個(gè)采樣的方式來(lái)處理這些數(shù)據(jù),比如說(shuō)我現(xiàn)在有一萬(wàn)個(gè)數(shù)據(jù)球平均數(shù),但是我現(xiàn)在不能計(jì)算這么多,我就從當(dāng)中抽取100個(gè)數(shù)字來(lái)計(jì)算這100個(gè)數(shù)字的平均數(shù)然后呢我就根據(jù)這個(gè)樣本的結(jié)果,去吧這個(gè)結(jié)果反撲給這個(gè)整體,那么既然是他抽取的是和這個(gè)部分的整體,那么他這個(gè)個(gè)體是否能夠很好的去表達(dá)這個(gè)整體的一個(gè)結(jié)果呢?這樣呢有還得去驗(yàn)證下你這個(gè)數(shù)據(jù)靠不靠譜.所以呢現(xiàn)在統(tǒng)計(jì)學(xué)的對(duì)于數(shù)據(jù)的處理流程一般就是先抽樣,然后再描述統(tǒng)計(jì),得出一些結(jié)論后然后再去做假設(shè)檢驗(yàn),去做統(tǒng)計(jì)推斷,所以呢這是這個(gè)統(tǒng)計(jì)學(xué)的一個(gè)傳統(tǒng)的統(tǒng)計(jì)方式.
因?yàn)楝F(xiàn)在呢,我們已經(jīng)基本上不再考慮機(jī)器的運(yùn)算能力的問(wèn)題了,我們現(xiàn)在單機(jī)的處理能力都已經(jīng)如此強(qiáng)大了,更何況我們還有一些集群.所以呢我們現(xiàn)在就不用考慮數(shù)據(jù)量的問(wèn)題,更不會(huì)去采用一種抽樣的技術(shù)了.我們直接全量的數(shù)據(jù)進(jìn)行處理.上述呢,就是我們對(duì)于從數(shù)據(jù)中發(fā)展規(guī)律的一個(gè)歷史.
現(xiàn)在我舉一個(gè)小例子,比如說(shuō)我們現(xiàn)在想要分析下某個(gè)地區(qū)的氣溫的變化并且來(lái)預(yù)測(cè)下未來(lái)的他的氣溫的一個(gè)變化,對(duì)于這個(gè)問(wèn)題呢,我們更好地就是去收集這個(gè)地方一些的氣溫的歷史的數(shù)據(jù).比如說(shuō)像溫度,空氣濕度,光照度等等,然后呢我們可以吧這些數(shù)據(jù)用一些可以觀察的展示化的方式展示出來(lái),通過(guò)這個(gè)可視化的方式發(fā)現(xiàn)其中會(huì)不會(huì)有什么的規(guī)律
比如說(shuō)氣溫的上下波動(dòng),氣溫一直以來(lái)以年為單位是總體上升的,這些呢都是我們?nèi)祟?lèi)通過(guò)觀察數(shù)據(jù)來(lái)主觀的做出了一個(gè)判斷,主觀的感受呢,是沒(méi)有辦法進(jìn)行計(jì)算的,那我們就要做這個(gè)數(shù)據(jù)分析呢,我們首先就必須要對(duì)其進(jìn)行量化,只有量化了以后我們才可以去做計(jì)算,我們才可以去做比較,那我們就希望的呢就是從當(dāng)中尋找出一個(gè)規(guī)律,這個(gè)呢實(shí)際上我們就是想要得到一個(gè)函數(shù),這個(gè)函數(shù)呢就可以用函數(shù)曲線來(lái)表示出來(lái),那這個(gè)我們就希望這個(gè)函數(shù)曲線可以被很好的符合剛才我們對(duì)于氣溫可視化的一個(gè)正確的總體趨勢(shì),或者說(shuō)這個(gè)曲線可以很好的和我們收集到的數(shù)據(jù)的散點(diǎn)圖擬合在一起,但是呢這個(gè)尋找模型在我們這個(gè)問(wèn)題中看起來(lái)比較簡(jiǎn)單,畢竟我們的這個(gè)數(shù)據(jù)的維度只有幾個(gè)維度,也就是氣溫,空氣,光照這些,但是一旦到了四維,等更多維度呢?在我們的實(shí)際工業(yè)中,我們一般都是采用了上百維的,當(dāng)有這么多維度的時(shí)候,實(shí)際上你是很難可以用可視化的角度去展現(xiàn)的,你也很難能從圖形中的規(guī)律中發(fā)現(xiàn)規(guī)律的,那這個(gè)時(shí)候我們更多地就是靠完全的數(shù)學(xué)運(yùn)算了.
好的,現(xiàn)在暫時(shí)想到的就有這么多.也同時(shí)感謝各位的多多支持.也歡迎各位多多指教啦!