林軒田機(jī)器學(xué)習(xí)基石(1):The Learning Problem

歡迎關(guān)注公眾號(hào)-AI圈終身學(xué)習(xí)。
公眾號(hào)首頁(yè)回復(fù)“機(jī)器學(xué)習(xí)”查看所有系列文章。


機(jī)器學(xué)習(xí)基石課程大概八周,分為四個(gè)部分:

  • When Can Machines Learn?
  • Why Can Machines Learn?
  • How Can Machines Learn?
  • How Can Machines Learn Better?

課程主頁(yè):
http://www.csie.ntu.edu.tw/~htlin/

本節(jié)筆記Lecture 1-The Learning Problem包含內(nèi)容如下:

  • When Can Machines Learn?(什么時(shí)候用機(jī)器學(xué)習(xí))
    • What is Machine learning(什么是機(jī)器學(xué)習(xí))
    • Applications of Machine Learning(機(jī)器學(xué)習(xí)應(yīng)用)
    • Components of Machine Learning(機(jī)器學(xué)習(xí)組成部分)
    • Machine Learning and Other Fields(機(jī)器學(xué)習(xí)和其他領(lǐng)域)

一、什么是機(jī)器學(xué)習(xí)(What is Machine Learning)

機(jī)器學(xué)習(xí)和學(xué)習(xí)的異同是什么?首先學(xué)習(xí)和機(jī)器學(xué)習(xí)的共通性就是觀察,他們也有差異性。

1.1 學(xué)習(xí)的流程

學(xué)習(xí)的主體是人,人通過(guò)觀察(聽、觀、觸覺)出發(fā),經(jīng)過(guò)腦袋的內(nèi)化轉(zhuǎn)化,變成有用的技能。流程圖如下:

image

1.2 機(jī)器學(xué)習(xí)的流程

機(jī)器學(xué)習(xí)的主體是電腦,電腦通過(guò)觀察資料(語(yǔ)料),經(jīng)過(guò)電腦的CPU運(yùn)作,變成對(duì)電腦有用的技能。流程圖如下:

image

什么是“變成有用的技能”?技能就是在某種領(lǐng)域做事靠譜,比如

  • 對(duì)于人,自己的英語(yǔ)能力、數(shù)學(xué)能力得到了提高
  • 對(duì)于電腦,預(yù)測(cè)股票的能力得到了提高

因此機(jī)器學(xué)習(xí)更準(zhǔn)確的定義是:
通過(guò)觀察計(jì)算有規(guī)律的數(shù)據(jù),根據(jù)某種評(píng)價(jià)指標(biāo),提升電腦性能。
流程圖如下:


image

1.3機(jī)器學(xué)習(xí)的三個(gè)關(guān)鍵要素

什么時(shí)候適合使用機(jī)器學(xué)習(xí),林老師總結(jié)三個(gè)關(guān)鍵要素如下:

  1. 編程定義不明確,普通編程難以完成的任務(wù)
  2. 資料數(shù)據(jù)具有某種潛藏的規(guī)律,可以學(xué)習(xí)
  3. 有關(guān)于潛藏的規(guī)律資料數(shù)據(jù)

(測(cè)試題)下面哪種情況最適合使用機(jī)器學(xué)習(xí)?

  1. 預(yù)測(cè)小女孩下一次哭的時(shí)間是奇數(shù)還是偶數(shù)(No,沒有規(guī)律)
  2. 判斷一個(gè)圖是否有環(huán)(No,可以編程定義明確)
  3. 預(yù)測(cè)下一個(gè)十年地球是否會(huì)毀滅(No,沒有數(shù)據(jù))
  4. 決定是否同意給用戶辦理信用卡(Yes,有用戶歷史行為數(shù)據(jù)且難以編程解決)

二、機(jī)器學(xué)習(xí)應(yīng)用(Applications of Machine Learning)

  • 衣(Abu-Mostafa, 2012)
    • 技能:穿衣搭配推薦
    • 數(shù)據(jù):衣服銷售數(shù)字+顧客調(diào)差反饋
  • 食(Sadilek et al., 2013)
    • 技能:正確告訴餐廳食物中毒的可能性
    • 數(shù)據(jù):用戶的Twitter數(shù)據(jù)(評(píng)論的文字+餐廳地點(diǎn))
  • 住(Tsanas and Xifara, 2012)
    • 技能:預(yù)測(cè)建房所需能源消耗
    • 數(shù)據(jù):歷史修建房屋的能源消耗數(shù)據(jù)
  • 行(Stalkamp et al., 2012)
    • 技能:識(shí)別交通信號(hào)
    • 數(shù)據(jù):交通信號(hào)圖片和含義數(shù)據(jù)

除此之外,還有教育(流利說(shuō))、金融(信用卡辦理)、醫(yī)療(藥效預(yù)測(cè))、法律(摘要)、娛樂(推薦系統(tǒng))等各種行業(yè)。

二、機(jī)器學(xué)習(xí)組成部分(Components of Learning)

image

以信用卡辦理為例,任務(wù)是給要用信用卡花錢的用戶辦理。機(jī)器學(xué)習(xí)組件如下:

  • 輸入X(銀行用戶數(shù)據(jù)特征,如年齡、性別、工資等)
  • 輸出Y(辦卡后刷還信用卡的好壞)
  • 訓(xùn)練數(shù)據(jù)D={(x_1, y_1),(x_2, y_2),...,(x_n, y_n)}
  • 目標(biāo)函數(shù)f:x \rightarrow y(理想的函數(shù),表示實(shí)際訓(xùn)練數(shù)據(jù)的分布規(guī)律,但是未知)
  • 假設(shè)集合H(hypothesis set),我們需要通過(guò)算法學(xué)到集合中最佳的假設(shè),其對(duì)應(yīng)的函數(shù)為g:x \rightarrow y我們希望最終的模型表達(dá)式g滿足g\approx f。

機(jī)器學(xué)習(xí)整個(gè)流程可以表示如下:


image

比如以上面的信用卡辦理為例,假設(shè)其中的hypothesis set H為:

  • h1: 年薪 > 80萬(wàn)
  • h2: 欠款 > 10 萬(wàn)
  • h3: 工齡 < 2年

我們的H中的假設(shè)有好有壞,我們通過(guò)演算法A去選擇最好的一個(gè)作為g。

因此我們?cè)跈C(jī)器學(xué)習(xí)中常說(shuō)的模型是 演算法A+假設(shè)集合H。

我們?cè)僖灶A(yù)測(cè)用戶給歌曲打分(0-100分)為例,我們有:

訓(xùn)練數(shù)據(jù)D = 100萬(wàn)條((userid, songid), rating)對(duì)
輸入X = 所有可能的(userid, songid)對(duì)
輸出Y = [0, 100]
假設(shè)集合H = 將用戶因素和歌曲因子相乘,并由所有可能的因素組合索引

我們以訓(xùn)練數(shù)據(jù)D為入口,通過(guò)演算法A選出H中最好的假設(shè)得到g。


image

四、機(jī)器學(xué)習(xí)和其他領(lǐng)域(Machine Learning and Other Fields)

  • 機(jī)器學(xué)習(xí)與統(tǒng)計(jì)
image
  • 機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘
image
  • 機(jī)器學(xué)習(xí)與人工智能
image

總結(jié)來(lái)說(shuō):

  • 統(tǒng)計(jì)可以實(shí)現(xiàn)機(jī)器學(xué)習(xí)
  • 機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘相互纏繞,難以區(qū)分
  • 機(jī)器學(xué)習(xí)是實(shí)現(xiàn)人工智能的一種方式

五、總結(jié)

image

本節(jié)主要概括性的講了機(jī)器學(xué)習(xí)的方方面面,高層籠統(tǒng),概念清晰,沒有太多技術(shù)性的東西。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容