歡迎關(guān)注公眾號(hào)-AI圈終身學(xué)習(xí)。
公眾號(hào)首頁(yè)回復(fù)“機(jī)器學(xué)習(xí)”查看所有系列文章。
機(jī)器學(xué)習(xí)基石課程大概八周,分為四個(gè)部分:
- When Can Machines Learn?
- Why Can Machines Learn?
- How Can Machines Learn?
- How Can Machines Learn Better?
課程主頁(yè):
http://www.csie.ntu.edu.tw/~htlin/
本節(jié)筆記Lecture 1-The Learning Problem包含內(nèi)容如下:
- When Can Machines Learn?(什么時(shí)候用機(jī)器學(xué)習(xí))
- What is Machine learning(什么是機(jī)器學(xué)習(xí))
- Applications of Machine Learning(機(jī)器學(xué)習(xí)應(yīng)用)
- Components of Machine Learning(機(jī)器學(xué)習(xí)組成部分)
- Machine Learning and Other Fields(機(jī)器學(xué)習(xí)和其他領(lǐng)域)
一、什么是機(jī)器學(xué)習(xí)(What is Machine Learning)
機(jī)器學(xué)習(xí)和學(xué)習(xí)的異同是什么?首先學(xué)習(xí)和機(jī)器學(xué)習(xí)的共通性就是觀察,他們也有差異性。
1.1 學(xué)習(xí)的流程
學(xué)習(xí)的主體是人,人通過(guò)觀察(聽、觀、觸覺)出發(fā),經(jīng)過(guò)腦袋的內(nèi)化轉(zhuǎn)化,變成有用的技能。流程圖如下:

1.2 機(jī)器學(xué)習(xí)的流程
機(jī)器學(xué)習(xí)的主體是電腦,電腦通過(guò)觀察資料(語(yǔ)料),經(jīng)過(guò)電腦的CPU運(yùn)作,變成對(duì)電腦有用的技能。流程圖如下:

什么是“變成有用的技能”?技能就是在某種領(lǐng)域做事靠譜,比如
- 對(duì)于人,自己的英語(yǔ)能力、數(shù)學(xué)能力得到了提高
- 對(duì)于電腦,預(yù)測(cè)股票的能力得到了提高
因此機(jī)器學(xué)習(xí)更準(zhǔn)確的定義是:
通過(guò)觀察計(jì)算有規(guī)律的數(shù)據(jù),根據(jù)某種評(píng)價(jià)指標(biāo),提升電腦性能。
流程圖如下:

1.3機(jī)器學(xué)習(xí)的三個(gè)關(guān)鍵要素
什么時(shí)候適合使用機(jī)器學(xué)習(xí),林老師總結(jié)三個(gè)關(guān)鍵要素如下:
- 編程定義不明確,普通編程難以完成的任務(wù)
- 資料數(shù)據(jù)具有某種潛藏的規(guī)律,可以學(xué)習(xí)
- 有關(guān)于潛藏的規(guī)律資料數(shù)據(jù)
(測(cè)試題)下面哪種情況最適合使用機(jī)器學(xué)習(xí)?
- 預(yù)測(cè)小女孩下一次哭的時(shí)間是奇數(shù)還是偶數(shù)(No,沒有規(guī)律)
- 判斷一個(gè)圖是否有環(huán)(No,可以編程定義明確)
- 預(yù)測(cè)下一個(gè)十年地球是否會(huì)毀滅(No,沒有數(shù)據(jù))
- 決定是否同意給用戶辦理信用卡(Yes,有用戶歷史行為數(shù)據(jù)且難以編程解決)
二、機(jī)器學(xué)習(xí)應(yīng)用(Applications of Machine Learning)
- 衣(Abu-Mostafa, 2012)
- 技能:穿衣搭配推薦
- 數(shù)據(jù):衣服銷售數(shù)字+顧客調(diào)差反饋
- 食(Sadilek et al., 2013)
- 技能:正確告訴餐廳食物中毒的可能性
- 數(shù)據(jù):用戶的Twitter數(shù)據(jù)(評(píng)論的文字+餐廳地點(diǎn))
- 住(Tsanas and Xifara, 2012)
- 技能:預(yù)測(cè)建房所需能源消耗
- 數(shù)據(jù):歷史修建房屋的能源消耗數(shù)據(jù)
- 行(Stalkamp et al., 2012)
- 技能:識(shí)別交通信號(hào)
- 數(shù)據(jù):交通信號(hào)圖片和含義數(shù)據(jù)
除此之外,還有教育(流利說(shuō))、金融(信用卡辦理)、醫(yī)療(藥效預(yù)測(cè))、法律(摘要)、娛樂(推薦系統(tǒng))等各種行業(yè)。
二、機(jī)器學(xué)習(xí)組成部分(Components of Learning)

以信用卡辦理為例,任務(wù)是給要用信用卡花錢的用戶辦理。機(jī)器學(xué)習(xí)組件如下:
- 輸入X(銀行用戶數(shù)據(jù)特征,如年齡、性別、工資等)
- 輸出Y(辦卡后刷還信用卡的好壞)
- 訓(xùn)練數(shù)據(jù)
- 目標(biāo)函數(shù)
(理想的函數(shù),表示實(shí)際訓(xùn)練數(shù)據(jù)的分布規(guī)律,但是未知)
- 假設(shè)集合H(hypothesis set),我們需要通過(guò)算法學(xué)到集合中最佳的假設(shè),其對(duì)應(yīng)的函數(shù)為
我們希望最終的模型表達(dá)式
。
機(jī)器學(xué)習(xí)整個(gè)流程可以表示如下:

比如以上面的信用卡辦理為例,假設(shè)其中的hypothesis set H為:
- h1: 年薪 > 80萬(wàn)
- h2: 欠款 > 10 萬(wàn)
- h3: 工齡 < 2年
我們的H中的假設(shè)有好有壞,我們通過(guò)演算法A去選擇最好的一個(gè)作為g。
因此我們?cè)跈C(jī)器學(xué)習(xí)中常說(shuō)的模型是 演算法A+假設(shè)集合H。
我們?cè)僖灶A(yù)測(cè)用戶給歌曲打分(0-100分)為例,我們有:
訓(xùn)練數(shù)據(jù)D = 100萬(wàn)條((userid, songid), rating)對(duì)
輸入X = 所有可能的(userid, songid)對(duì)
輸出Y = [0, 100]
假設(shè)集合H = 將用戶因素和歌曲因子相乘,并由所有可能的因素組合索引
我們以訓(xùn)練數(shù)據(jù)D為入口,通過(guò)演算法A選出H中最好的假設(shè)得到g。

四、機(jī)器學(xué)習(xí)和其他領(lǐng)域(Machine Learning and Other Fields)
- 機(jī)器學(xué)習(xí)與統(tǒng)計(jì)

- 機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘

- 機(jī)器學(xué)習(xí)與人工智能

總結(jié)來(lái)說(shuō):
- 統(tǒng)計(jì)可以實(shí)現(xiàn)機(jī)器學(xué)習(xí)
- 機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘相互纏繞,難以區(qū)分
- 機(jī)器學(xué)習(xí)是實(shí)現(xiàn)人工智能的一種方式
五、總結(jié)

本節(jié)主要概括性的講了機(jī)器學(xué)習(xí)的方方面面,高層籠統(tǒng),概念清晰,沒有太多技術(shù)性的東西。