監(jiān)督學習——回歸

介紹
第一部分?參數(shù)方法——類密度模型參數(shù)估計
第二部分?監(jiān)督學習——分類(基于似然的方法)
第三部分?監(jiān)督學習——分類(基于判別式的方法)(參數(shù)方法——判別式參數(shù)估計)
第四部分 監(jiān)督學習——回歸
第五部分?監(jiān)督學習——關聯(lián)規(guī)則
第六部分?維度規(guī)約(特征的提取和組合)
第七部分?半?yún)?shù)方法
第八部分?非監(jiān)督學習——聚類
第九部分?非參數(shù)方法——密度估計
第十部分?非參數(shù)方法——決策樹實現(xiàn)的判別式
第十一部分?多層感知器——非參數(shù)估計器
第十二部分?局部模型
第十三部分?支持向量機與核機器
第十四部分?隱馬爾科夫模型
第十五部分?參數(shù)的貝葉斯估計
第十六部分?集成學習——組合多學習器
第十七部分?增強學習
第十八部分?機器學習實驗
第十九部分?特征工程與數(shù)據(jù)預處理

不同于分類,輸出時離散的?;貧w的輸出時連續(xù)的,需要學習的是一個數(shù)值函數(shù)。這個函數(shù)是未知的。假設我們從中抽取的樣本訓練集是X=\{\mathbf{x}^t,r^t \}_{t=1}^{N},其中r^t\in \mathbf{R}是一維的數(shù)值輸出。

如果不存在噪聲,任務就是插值。希望找到通過這些點的函數(shù) f,使得r^t=f(\mathbf{x}^t)。?

對于噪聲,添加到未知函數(shù)上,有r^t=f(\mathbf{x}^t)+\varepsilon 。引起噪聲的因素則是不可觀測量。

我們希望通過模型g(x)來逼近輸出r,使得訓練集X上的經驗誤差(誤差平方和)E(g|X)=\frac {1}{N}\sum_{t=1}^N[r^t-g(\mathbf{x}^t)]^2最小。模型g(x)的選擇很重要。?


參數(shù)回歸

同上,假定輸出是輸入的確定性函數(shù)和隨機噪聲的和:r=f(x)+\varepsilon

其中f 是未知函數(shù),將用定義在參數(shù)\theta 上的估計g(x|\theta)來近似它。如果假設\varepsilon \sim N(0,\sigma^2),則有p(r|x)\sim N(g(x|\theta),\sigma^2),是給定輸入下輸出的概率。

訓練集中的數(shù)據(jù)對(x^t,r^t)取自聯(lián)合概率密度p(x,r),有p(x,r)=p(r|x)p(x)。給定樣本X,對數(shù)自然為

L(\theta|X)=\log \prod_{i=1}^N p(x^t,r^t)=\log \prod_{i=1}^N p(r^t|x^t)+\log \prod_{i=1}^N p(x^t)

第二項不依賴估計,故等同于考慮

\begin{align}L(\theta|X) &=\log \prod_{i=1}^N \frac{1}{\sqrt{2\pi }\sigma}\exp[-\frac{[r^t-g(x^t|\theta)]^2}{2\sigma^2}] \\&=-N \log(\sqrt{2\pi}\sigma) -\frac{1}{2\sigma^2}\sum_{t=1}^N [r^t-g(x^t|\theta)]^2 \\\end{align}

第一項獨立于參數(shù)\theta ,最大化上式,等同于最小化

E[\theta|X]=\frac{1}{2}\sum_{t=1}^N[r^t-g(x^t|\theta)]^2

形式上與上面所提經驗誤差一樣,最小化它的\theta 就是最小二乘估計??梢钥闯觯斦`差\varepsilon 服從正態(tài)分布時,最大化似然等同于最小化誤差平方和,最大似然估計等同于最小二乘估計(least squares estimate),不論g是什么形式的函數(shù)。

在常見的線性回歸多項式回歸中,常使用這種方式,通過公式求得參數(shù)估計。以線性回歸為例,有線性模型g(x^t|\omega_1,\omega_0)=\omega_1x^t+\omega_0

對誤差的平方和關于\omega_1,\omega_0求導,得到

\begin{align}\sum_tr^t=&N\omega_0+\omega_1\sum_tx^t\\\sum_tr^tx^t=&\omega_0\sum_tx^t+\omega_1\sum_t(x^t)^2\end{align}

可以寫成向量矩陣的形式A\boldsymbol{\omega}=y,得到\boldsymbol{\omega}=A^{-1}y,其中

A=\begin{equation}\left[  \begin{array}{} N & \sum_tx^t \\\sum_tx^t & \sum_t(x^t)^2  \end{array}\right]\end{equation},\boldsymbol{\omega}=\begin{equation}\left[\begin{array}{}\omega_0\\\omega_1\end{array}\right]\end{equation},y=\begin{equation}\left[\begin{array}{}\sum_tr^t\\ \sum_tr^tx^t\end{array}\right]\end{equation}

基于誤差平方和,有相對平方誤差E_{RSE}=\frac {\sum_t [r^t-g(x^t|\theta)]^2}{\sum_t (r^t- \bar{r} )^2}。其更接近0時,說明得到更好的擬合。如果接近1,說明模型不比采用平均值進行估計更好。

多元線性回歸中,情況和一維的一樣,最大化似然等價于最小化誤差的平方和。


非參數(shù)回歸

給定訓練集X=\{x^t,r^t\},其中r^t\in R,假定r^t=g(x^t)+\varepsilon 。在參數(shù)回歸中,假定g為某種多項式,并最小化訓練集上的誤差平方和。當不能假定多項式時,使用非參數(shù)回歸,只假定相近的x 有相近的g(x)值。

與非參數(shù)密度估計一樣,給定x,我們的方法是找出x 的鄰域。并求領域中r 的某種平均值,作為g(x)的估計。這種非參數(shù)回歸估計子稱為光滑子,該估計成光滑。

類似于非參數(shù)密度估計,有不同的定義鄰域的方式。

移動均值光滑

像直方圖中那樣,定義一個原定和箱寬度h,并求箱中 r 的平均值。得到回歸

\hat g(x)=\frac{\sum_{t=1}^N b(x,x^t)r^t}{\sum_{t=1}^Nb(x,x^t)}

其中b(x,x^t)=\begin{equation}\left\{             \begin{array}{lr}           1, & x,x^t 同箱 \\0, & else\             \end{array}\right.\end{equation}。

如質樸估計一樣,在移動均值光滑中,于x周圍定義一個對稱箱來避免定義原點。

\hat g(x)=\frac{\sum_{t=1}^N \omega(\frac{x-x^t}{h})r^t}{\sum_{t=1}^N\omega(\frac{x-x^t}{h})},其中\omega(u)=\begin{equation}\left\{             \begin{array}{lr}           1, & |u|<1  \\0, & eles\             \end{array}\right.\end{equation}。

核光滑

和核估計一樣,讓較遠的實例點有較小的權重,并得到核光滑。

\hat g(x)=\frac{\sum_t^NK(\frac{x-x^t}{h})r^t}{\sum_t^NK(\frac{x-x^t}{h})}

通常使用高斯核K。除了固定h,可使用x 與距其 第k近的實例 之間的距離d_k(x),使得估計能自適應 x 周圍的密度,得到k-nn光滑。

移動線光滑

取代在點上取點鄰域內實例的平均值來進行估計擬合,使用輸入x鄰域內的實例數(shù)據(jù),來擬合一條局部回歸線。再給出x的輸出。

局部加權移動線光滑(loess),通過核加權使較遠的點對誤差具有較小影響,而不是像移動線光滑一樣使用鄰域的硬定義。


回歸樹

運用非參數(shù)的決策樹方法,同樣能實現(xiàn)回歸的目的。見《非參數(shù)方法——決策樹》一節(jié)。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

  • 回歸問題常用來進行預測。主要的分類有 (1)線性回歸 使用最小二乘法進行曲線擬合,其損失 為均分誤差。...
    頑皮的石頭7788121閱讀 997評論 0 0
  • 以西瓜書為主線,以其他書籍作為參考進行補充,例如《統(tǒng)計學習方法》,《PRML》等 第一章 緒論 1.2 基本術語 ...
    danielAck閱讀 4,888評論 0 5
  • 》擬合訓練數(shù)據(jù)和尋找能夠泛化到新數(shù)據(jù)的參數(shù)有哪些不同。 》如何使用額外的數(shù)據(jù)設置超參數(shù)。 》機器學習本質上屬于應用...
    N89757閱讀 2,257評論 0 0
  • 首頁 資訊 文章 資源 小組 相親 登錄 注冊 首頁 最新文章 IT 職場 前端 后端 移動端 數(shù)據(jù)庫 運維 其他...
    Helen_Cat閱讀 4,130評論 1 10
  • 按照用途分類出以下統(tǒng)計函數(shù): AVEDEV 用途:返回一組數(shù)據(jù)與其平均值的絕對偏差的平均值,該函數(shù)可以評測數(shù)據(jù)(例...
    四方院祭司閱讀 3,070評論 0 3

友情鏈接更多精彩內容