從剛注冊簡書時強迫自己寫文章時的拖延,到現(xiàn)在有了想法不自覺的想記錄下來,是好的轉(zhuǎn)變。
最近開始對數(shù)據(jù)挖掘很感興趣,在網(wǎng)易公開課上開始學加州理工的《機器學習和數(shù)據(jù)挖掘》,還可以順便練練英語聽力。
第一課《學習問題》只要從問題引入,介紹什么是機器學習,以及常見的學習分類。
在人類的認知中一些顯而易見的結(jié)論,對機器而言是一個卻是無限靠近的過程,比如嬰兒可以快速識別一張臉的情緒等。
課中介紹了銀行信貸審批的例子。闡述了人類的認知是,input x(客戶提供的各方面信息),output y(審批結(jié)論),在人類的大腦中有一個模型f(x)=y。而機器學習則是從歷史的(x,y)中嘗試去推導一系列假設(shè)集,不斷驗證優(yōu)化,以期得到一個盡可能靠近f(x),用于在未來的場景中,機器可以脫離人類,在得到x輸入時,得到y(tǒng).
所以機器學習的三個要素是:
1、have data(基礎(chǔ),沒數(shù)據(jù)沒法玩)
2、要解決的問題域存在模型
3、模型目前是未知的(因為未知才需要機器不停學習,無限靠近,如果已知,那只是計算而已)
接下來還是用銀行信貸審批的例子,機器學習按照學習形式分為以下四類:
1、有監(jiān)督學習:即提供歷史( x1,y1)...(Xn,Yn)的基礎(chǔ)上,讓機器進行學習,以求在未來輸入某個時能輸出正確的y。
2、無監(jiān)督學習:僅提供特征X,不提供y,讓計算機學習找出特征的內(nèi)在結(jié)構(gòu),比如分類等。
3、半監(jiān)督學習(課堂中未提及此點,查閱其他中文資料后補充):顧名思義介于有監(jiān)督和無監(jiān)督之間,一部分特征有標記,一部分特征無標記,且往往無標記特征極大于有標記特征,常常用于數(shù)據(jù)并不完全隨機分布存在極限值,通過沒標記的整體數(shù)據(jù)+有標記的局部特征得到更好的分布結(jié)果。
4、加強學習:給出特征集,和正確/錯誤標記,類似正確獎勵錯誤懲罰,不斷強化訓練。比如下棋等需要連續(xù)決策的領(lǐng)域。
其他:
不知道是聽力退步還是印度英語的原因,斷斷續(xù)續(xù)停下來還比較依賴字幕。需要繼續(xù)加油。