ML.Andrew Ng.04-25

1-5 無監(jiān)督學(xué)習(xí)

首先是一個(gè)雞尾酒會(huì)的例子,在一個(gè)雞尾酒會(huì)上,有兩個(gè)人分別從不同的距離向兩個(gè)位置不同的麥克風(fēng)說話。
在第一批錄音中,兩個(gè)人同時(shí)對(duì)兩臺(tái)距離不同的麥克風(fēng)從1到10用英語和另一種語言讀數(shù)字

結(jié)果是,利用“雞尾酒算法”算法可以將英語部分和外語部分的語音有效分開,并且形成單獨(dú)增強(qiáng)的效果。

在第二批錄音中,說話者開始單獨(dú)說話,但是他們說話時(shí)背景會(huì)同時(shí)播放吵鬧的音樂,以此觀察算法對(duì)這樣錄音的處理效果。

出乎意料地,算法實(shí)現(xiàn)了將人和音樂的頻段分開并增強(qiáng)。在分離人聲時(shí),還能依稀聽到背景有一些音樂沒有剔除干凈,但是在分離音樂時(shí)可以非常漂亮地將人聲祛除。

要設(shè)計(jì)這樣算法其實(shí)非常復(fù)雜,但是現(xiàn)在能看見的簡化代碼僅僅只要一行

[W,s,v]=svd((repmat(sum(x.*x,1),size(x,1),1).*x)*x');   #奇異值分解

Andrew對(duì)工具的建議

注意,視頻在11年,所以現(xiàn)在python用來實(shí)現(xiàn)算法第三方庫比較方便了,以下建議比較過時(shí)

Andew Ng:在這門課中使用Octave編程環(huán)境,它是一個(gè)免費(fèi)的開源環(huán)境,matlab和octave中實(shí)現(xiàn)代碼只需要幾行 在硅谷當(dāng)中使用都是先用Octave開發(fā)出工程原型,然后在用其他語言移植,在Python中只會(huì)更復(fù)雜

在今天澄清這一點(diǎn),會(huì)用matlab沒有必要再去學(xué)octave,因?yàn)閛ctave的語法和matlab大致相似,但是沒有那么多的庫和語法,而且據(jù)說Andrew本人已經(jīng)改用了Python

課上給出的其他例子:

具有類似關(guān)鍵詞的新聞分類、將你的客戶進(jìn)行市場分割都是無監(jiān)督學(xué)習(xí)
自動(dòng)給垃圾郵件貼上標(biāo)簽和利用訓(xùn)練集進(jìn)行糖尿病的診斷是監(jiān)督學(xué)習(xí)

2-1 線性回歸

看到算法內(nèi)核和算法部署的流程,回顧到回歸模型是用來得到連續(xù)值的學(xué)習(xí)問題.
因?yàn)榻o出了正確答案,所以叫做監(jiān)督學(xué)習(xí),在監(jiān)督學(xué)習(xí)當(dāng)中有數(shù)據(jù)集,叫做訓(xùn)練集

訓(xùn)練集:正確的數(shù)據(jù)集叫做訓(xùn)練集

我們的任務(wù)就是從這個(gè)數(shù)據(jù)集當(dāng)中學(xué)習(xí)如何預(yù)測房屋價(jià)格

現(xiàn)在給出符號(hào)定義
m:訓(xùn)練案例數(shù),也就是訓(xùn)練集的大小
x:輸入變量,特征
y:輸出變量,目標(biāo)變量

(x,y)表示訓(xùn)練樣本,用(x^{(i)},y^{(i)})表示第i個(gè)樣本,

監(jiān)督學(xué)習(xí)流程

訓(xùn)練集將房價(jià)“喂食”feed到學(xué)習(xí)算法當(dāng)中,輸出一個(gè)函數(shù)h,這個(gè)函數(shù)的功能就是:

再拿到新的房屋價(jià)格x代進(jìn)去能夠求得一個(gè)全新的估計(jì)的價(jià)格y

如何得到h(x)?

有時(shí)候假設(shè)函數(shù)省略掉h的下標(biāo)設(shè)成這樣
h(x)=\theta_0+\theta_1 x
以這樣的假設(shè)函數(shù)的建構(gòu)模型,這個(gè)模型就叫做單變量線性回歸

2-2 代價(jià)函數(shù)

代價(jià)函數(shù)

在訓(xùn)練集當(dāng)中我們會(huì)得到一定數(shù)量的樣本,x表示賣出哪所房子,y代表賣出的價(jià)格,所以我們要盡量選擇參數(shù)值使得,在訓(xùn)練集中,給出訓(xùn)練集的x能夠盡可能準(zhǔn)確地預(yù)測y值.

我們定義解決一個(gè)最小化問題
也就是最小化損失函數(shù)問題:
min_{\theta_0,\theta_1}\{ \frac{1}{2m}\sum_{i=1}^{m}(h(x^{(i)})-y^{(i)})^2\}

注意兩點(diǎn):除一個(gè)\frac{1}{2}是為了數(shù)字更好看一點(diǎn),平方誤差的使用是解決大部分回歸問題的常用方法

為了簡化設(shè)定
J(\theta_0,\theta_1)= \frac{1}{2m}\sum_{i=1}^{m}(h(x^{(i)})-y^{(i)})^2

min_{\theta_0,\theta_1}J(\theta_0,\theta_1)
有時(shí)被稱為平方誤差函數(shù)

2-3 線性回歸的直觀理解 Ⅰ

假設(shè)函數(shù)h(x)和代價(jià)函數(shù)J(\theta_1)進(jìn)行比較

假設(shè)函數(shù)h是關(guān)于特征x的函數(shù)
而代價(jià)函數(shù)是關(guān)于參數(shù)\theta_1, \theta_0的函數(shù)

可以看到損失函數(shù)已經(jīng)慢慢變成了一個(gè)曲線,每次取定不同的\theta_1都會(huì)算出不同的損失函數(shù),也是對(duì)應(yīng)著左邊不同的擬合曲線, 還記得目標(biāo)是找到\theta_1使得能夠得到目標(biāo)
min_{\theta_1}\{ \frac{1}{2m}\sum_{i=1}^{m}(h_{\theta_1}(x^{(i)})-y^{(i)})^2\}

image.png

在本節(jié)中,我們使用了圖形來理解代價(jià)函數(shù),也就是一開始把\theta_0=0了,下一課將看原來帶有雙變量\theta_0,\theta_1的損失函數(shù)

2-4 線性回歸的直觀理解 Ⅱ

假設(shè):假設(shè)你們已經(jīng)熟悉等高線圖Contour plot

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 概述斷斷續(xù)續(xù),一個(gè)月的時(shí)間,把吳老師的機(jī)器學(xué)習(xí)視頻教程看完,收獲很多,從一無所知到概念的理解、公式的推導(dǎo)、算法的探...
    AnuoF閱讀 718評(píng)論 0 0
  • 之前瀏覽Coursera上機(jī)器學(xué)習(xí)方面的課程,Andrew Ng的《Machine Learning》課程評(píng)分一直...
    黑洞王閱讀 1,796評(píng)論 0 2
  • 一、課程大綱1.1課程內(nèi)容介紹1.1.1 Supervised Learning關(guān)于監(jiān)督型學(xué)習(xí)方法,本課程涉及到的...
    xiaorun閱讀 1,413評(píng)論 0 1
  • 機(jī)器學(xué)習(xí)系統(tǒng)設(shè)計(jì) 第九十三課:確定執(zhí)行的優(yōu)先級(jí) 當(dāng)你在設(shè)計(jì)復(fù)雜的機(jī)器學(xué)習(xí)系統(tǒng)時(shí)所面臨的主要問題,并會(huì)在如何制定一個(gè)...
    帶刺的小花_ea97閱讀 1,729評(píng)論 0 6
  • 以西瓜書為主線,以其他書籍作為參考進(jìn)行補(bǔ)充,例如《統(tǒng)計(jì)學(xué)習(xí)方法》,《PRML》等 第一章 緒論 1.2 基本術(shù)語 ...
    danielAck閱讀 4,901評(píng)論 0 5

友情鏈接更多精彩內(nèi)容