前文

本文是對吳恩達(dá)老師的機器學(xué)習(xí) 章節(jié)2 教學(xué)視頻進行學(xué)習(xí)時，所記錄的學(xué)習(xí)筆記。

以下是本章主要講的內(nèi)容：

1.模型、代價函數(shù)、假設(shè)函數(shù)是什么、干什么、怎么工作的。

2.監(jiān)督學(xué)習(xí)算法、梯度下降算法的工作過程。

3.批量梯度下降算法的細(xì)節(jié)以及如何使用。

本章總結(jié)

學(xué)習(xí)了機器學(xué)習(xí)的基礎(chǔ)概念還有第一個算法并且了解了其工作的整體過程。

正文

2.0?目錄

2.1?模型描述

? ? ? ? 2.1.1?模型概述

? ? ? ? 2.1.2?監(jiān)督學(xué)習(xí)算法的工作過程

2.2?代價函數(shù)

? ? ? ? 2.2.1?代價函數(shù)概述

? ? ? ? 2.2.2?詳細(xì)闡述

2.3 梯度下降

? ??????2.3.1 梯度下降概述

? ??????2.3.2 詳細(xì)闡述

? ??????2.3.3 梯度下降算法的同步更新問題

? ??????2.3.4 梯度下降算法中對學(xué)習(xí)率α乘導(dǎo)數(shù)項的理解

2.4 線性回歸的梯度下降

2.1 模型描述

首先我們通過一個線性回歸算法的例子來了解模型是什么，監(jiān)督學(xué)習(xí)的過程是什么樣子的。

然后我們會不斷用小例子深入了解相關(guān)知識。

2.1.1模型概述

模型：我們假設(shè)輸入與輸出存在某個函數(shù)關(guān)系式，這個關(guān)系式這就是模型。

我們先看一個小例子：

預(yù)測房價問題 (回歸問題)

首先我們把數(shù)據(jù)做成圖像，其中：

????????橫軸是不同房屋平方英尺數(shù)。

????????縱軸是不同房子的價格。

這是一個監(jiān)督學(xué)習(xí)算法例子，也是一個回歸過程的例子。

模型擬合圖像

我們先了解兩個概念：

假設(shè)：指通過學(xué)習(xí)后得到的一個預(yù)測結(jié)果的規(guī)律，即預(yù)測模型。

真相或真實：我們通過機器學(xué)習(xí)所得到的是一個假設(shè)的規(guī)律，真相或真實指的是真正的規(guī)律。

在上一個圖像中，假設(shè)就是那條直線，直線所代表的函數(shù)就是假設(shè)函數(shù)。

訓(xùn)練集列表

在監(jiān)督學(xué)習(xí)里還有這幾個概念：

學(xué)習(xí)或訓(xùn)練：從數(shù)據(jù)中學(xué)得模型的過程。

訓(xùn)練數(shù)據(jù)：訓(xùn)練過程中使用的數(shù)據(jù)。

訓(xùn)練樣本：訓(xùn)練數(shù)據(jù)中的每一個樣本。

訓(xùn)練集：訓(xùn)練樣本所組成的集合。

屬性或特征：反應(yīng)樣本某一個性質(zhì)或表現(xiàn)的事項。

屬性值：落實到每一個樣本的某一個屬性的具體值。

以預(yù)測房價問題為例：

????????房價就是訓(xùn)練集

????????m表示訓(xùn)練樣本的數(shù)量

????????x代表輸入標(biāo)量或者特征

????????y代表輸出變量或者說是要預(yù)測的值

????????(x,y)代表一個訓(xùn)練樣本

????????(x^(i),y^(i))表示第i個訓(xùn)練樣本?i指樣本索引

2.1.2監(jiān)督學(xué)習(xí)算法的工作過程

監(jiān)督學(xué)習(xí)算法的工作過程

1.向?qū)W習(xí)算法提供訓(xùn)練集

2.學(xué)習(xí)算法會輸出一個函數(shù)通常以h表示，h代表假設(shè)函數(shù)

3.把輸入變量x輸入假設(shè)函數(shù)里來然后對輸出變量進行預(yù)測

如何表示假設(shè)函數(shù)h？

假設(shè)函數(shù)：hθ(x)=θ0+θ1*x

此函數(shù)被稱為：一元線性回歸或者單變量線性回歸，它是一個預(yù)測y是一個關(guān)于x的線性函數(shù)。

θ0與θ1被稱為：模型參數(shù)。

2.2 代價函數(shù)

2.1.1? 代價函數(shù)概述

代價函數(shù)：又叫損失函數(shù)或成本函數(shù)，它是將一個或多個變量的事件閾值映射到直觀地表示與該事件。?在統(tǒng)計中，通常使用代價函數(shù)來進行參數(shù)估計，并且所討論的事件是數(shù)據(jù)實例的估計值和真值之間的差異的一些函數(shù)。

訓(xùn)練集列表和假設(shè)函數(shù)h

現(xiàn)在有圖片中的訓(xùn)練集和假設(shè)函數(shù)，接下來我們討論如何選擇這些模型參數(shù)θ0、θ1。

參數(shù)θ0、θ1的值不同時??

由上圖我們可以看出：不同的模型參數(shù)得到不同的假設(shè)和假設(shè)函數(shù)。

在線性回歸中我們有以下的一個訓(xùn)練集：

我們需要從訓(xùn)練集中得出模型參數(shù)θ0、θ1的值，好讓直線更好的與數(shù)據(jù)點擬合。

在上圖中，圖中的假設(shè)函數(shù)所選擇的模型參數(shù)θ0、θ1的值就很合適，這會使代價函數(shù)的值很小并且其模型所做出的預(yù)測會更貼合真實。

解決最小化的問題

由以上可知，在線性回歸中，其實我們需要解決一個最小化的問題！

我們要寫出關(guān)于模型參數(shù)θ0、θ1值的最小化，并且需要想辦法讓h(x)和y之間的差異盡量的小。

對于上文h(x)這個假設(shè)函數(shù)來講，我們需要做的就是盡量減少假設(shè)輸出與樣本結(jié)果之間差的平方(即求均方差代價函數(shù)得最小值)。

注意：因為數(shù)學(xué)輸入板無法輸入代表代價函數(shù)的大寫J所以有時候我會拿大寫T來代替J。

2.2.2 詳細(xì)闡述

均方差代價函數(shù)

盡量減少上圖所示的求均方差代價函數(shù)的值，這個表達(dá)式因θ0和θ1的變化而變化，其中m為訓(xùn)練集的樣本容量。

假設(shè)函數(shù)

換句話來講也就是找到上圖所示的假設(shè)函數(shù)中模型參數(shù)θ0和θ1的最小值。

接下來我們進行詳細(xì)說明，首先我們定義一個代價函數(shù)如下：

代價函數(shù)

這是一個關(guān)于θ0和θ1對J(θ0,θ1)求最小值的代價函數(shù)，也被稱為平方誤差函數(shù)或者平方誤差代價函數(shù) 。

我們選擇此種函數(shù)是因為，它對于大多數(shù)問題特別是回歸問題很合適。他是最常用的手段，在后續(xù)我們會討論其他的代價函數(shù)。

因為使用簡化的代價函數(shù)可以更好地讓我們理解代價函數(shù)的概念，所以接下來我們用例子來理解上面的知識。

例一：假設(shè)θ0=0

所有我們需要的式子

假設(shè)θ0=0，訓(xùn)練集如下：

訓(xùn)練集

代價函數(shù)

如果θ1=1時的代價函數(shù) J(θ1)=0

假設(shè)函數(shù)

代價函數(shù)

如果θ1=0.5時的代價函數(shù) J(θ1)=3.5/6≈0.58

假設(shè)函數(shù)

代價函數(shù)

如果θ1=0時的代價函數(shù) J(θ1)=14/6≈2.3

如果繼續(xù)不斷的設(shè)定θ1的值來求代價函數(shù)，我們會得到代價函數(shù)J(θ1)的圖像如下。

代價函數(shù)

總結(jié)：

對于每一個θ1來說都有一個與其他值不同的假設(shè)函數(shù)，其假設(shè)函數(shù)就是hθ(x)。

對于每一個θ1來說都有其對應(yīng)代價函數(shù)J(θ1)的值，并且代價函數(shù)T(θ1)的值越小，預(yù)測也就越準(zhǔn)確。

學(xué)習(xí)算法的優(yōu)化目標(biāo)是通過選擇θ1的值來使T(θ1)的值更小

對于上一個例子我們可以看到，當(dāng)θ1=1時T(θ1)的值達(dá)到了最小為0,? 我們看θ1=1時的假設(shè)函數(shù)hθ(x)的圖像是完全吻合訓(xùn)練數(shù)據(jù)的，并且已經(jīng)完美的擬合了它。

所以說我們就是要最小化代價函數(shù)J(θ1)的值，來找到一條最符合數(shù)據(jù)的直線。

例二：假設(shè)θ0，θ1都存在

所有我們需要的式子

以下是房價數(shù)據(jù)集

房價數(shù)據(jù)集

θ0=50?θ1=0.06時假設(shè)函數(shù)如下

假設(shè)函數(shù)

其用等高線圖表達(dá)代價函數(shù)的三維圖如下