国产久久怡红院av,艹女的国产精品,蜜桃视频三区在线

介紹
第一部分?參數(shù)方法——類密度模型參數(shù)估計
第二部分?監(jiān)督學習——分類（基于似然的方法）
第三部分?監(jiān)督學習——分類（基于判別式的方法）（參數(shù)方法——判別式參數(shù)估計）
第四部分監(jiān)督學習——回歸
第五部分?監(jiān)督學習——關聯(lián)規(guī)則
第六部分?維度規(guī)約（特征的提取和組合）
第七部分?半?yún)?shù)方法
第八部分?非監(jiān)督學習——聚類
第九部分?非參數(shù)方法——密度估計
第十部分?非參數(shù)方法——決策樹實現(xiàn)的判別式
第十一部分?多層感知器——非參數(shù)估計器
第十二部分?局部模型
第十三部分?支持向量機與核機器
第十四部分?隱馬爾科夫模型
第十五部分?參數(shù)的貝葉斯估計
第十六部分?集成學習——組合多學習器
第十七部分?增強學習
第十八部分?機器學習實驗
第十九部分?特征工程與數(shù)據(jù)預處理

不同于分類，輸出時離散的?；貧w的輸出時連續(xù)的，需要學習的是一個數(shù)值函數(shù)。這個函數(shù)是未知的。假設我們從中抽取的樣本訓練集是 $X=\{\mathbf{x}^t,r^t \}_{t=1}^{N}$ ，其中 $r^t\in \mathbf{R}$ 是一維的數(shù)值輸出。

如果不存在噪聲，任務就是插值。希望找到通過這些點的函數(shù) f，使得 $r^t=f(\mathbf{x}^t)$ 。?

對于噪聲，添加到未知函數(shù)上，有 $r^t=f(\mathbf{x}^t)+\varepsilon$ 。引起噪聲的因素則是不可觀測量。

我們希望通過模型 $g(x)$ 來逼近輸出r，使得訓練集X上的經驗誤差（誤差平方和） $E(g|X)=\frac {1}{N}\sum_{t=1}^N[r^t-g(\mathbf{x}^t)]^2$ 最小。模型 $g(x)$ 的選擇很重要。?

參數(shù)回歸

同上，假定輸出是輸入的確定性函數(shù)和隨機噪聲的和： $r=f(x)+\varepsilon$

其中f 是未知函數(shù)，將用定義在參數(shù) $\theta$ 上的估計 $g(x|\theta)$ 來近似它。如果假設 $\varepsilon \sim N(0,\sigma^2)$ ，則有 $p(r|x)\sim N(g(x|\theta),\sigma^2)$ ，是給定輸入下輸出的概率。

訓練集中的數(shù)據(jù)對 $(x^t,r^t)$ 取自聯(lián)合概率密度 $p(x,r)$ ，有 $p(x,r)=p(r|x)p(x)$ 。給定樣本X，對數(shù)自然為

$L(\theta|X)=\log \prod_{i=1}^N p(x^t,r^t)=\log \prod_{i=1}^N p(r^t|x^t)+\log \prod_{i=1}^N p(x^t)$

第二項不依賴估計，故等同于考慮

$\begin{align}L(\theta|X) &=\log \prod_{i=1}^N \frac{1}{\sqrt{2\pi }\sigma}\exp[-\frac{[r^t-g(x^t|\theta)]^2}{2\sigma^2}] \\&=-N \log(\sqrt{2\pi}\sigma) -\frac{1}{2\sigma^2}\sum_{t=1}^N [r^t-g(x^t|\theta)]^2 \\\end{align}$

第一項獨立于參數(shù) $\theta$ ，最大化上式，等同于最小化

$E[\theta|X]=\frac{1}{2}\sum_{t=1}^N[r^t-g(x^t|\theta)]^2$

形式上與上面所提經驗誤差一樣，最小化它的 $\theta$ 就是最小二乘估計?？梢钥闯觯斦`差 $\varepsilon$ 服從正態(tài)分布時，最大化似然等同于最小化誤差平方和，最大似然估計等同于最小二乘估計（least squares estimate），不論g是什么形式的函數(shù)。

在常見的線性回歸和多項式回歸中，常使用這種方式，通過公式求得參數(shù)估計。以線性回歸為例，有線性模型 $g(x^t|\omega_1,\omega_0)=\omega_1x^t+\omega_0$

對誤差的平方和關于 $\omega_1,\omega_0$ 求導，得到

$\begin{align}\sum_tr^t=&N\omega_0+\omega_1\sum_tx^t\\\sum_tr^tx^t=&\omega_0\sum_tx^t+\omega_1\sum_t(x^t)^2\end{align}$

可以寫成向量矩陣的形式 $A\boldsymbol{\omega}=y$ ，得到 $\boldsymbol{\omega}=A^{-1}y$ ，其中

$A=\begin{equation}\left[ \begin{array}{} N & \sum_tx^t \\\sum_tx^t & \sum_t(x^t)^2 \end{array}\right]\end{equation}$ ， $\boldsymbol{\omega}=\begin{equation}\left[\begin{array}{}\omega_0\\\omega_1\end{array}\right]\end{equation}$ ， $y=\begin{equation}\left[\begin{array}{}\sum_tr^t\\ \sum_tr^tx^t\end{array}\right]\end{equation}$

基于誤差平方和，有相對平方誤差 $E_{RSE}=\frac {\sum_t [r^t-g(x^t|\theta)]^2}{\sum_t (r^t- \bar{r} )^2}$ 。其更接近0時，說明得到更好的擬合。如果接近1，說明模型不比采用平均值進行估計更好。

在多元線性回歸中，情況和一維的一樣，最大化似然等價于最小化誤差的平方和。

非參數(shù)回歸

給定訓練集 $X=\{x^t,r^t\}$ ，其中 $r^t\in R$ ，假定 $r^t=g(x^t)+\varepsilon$ 。在參數(shù)回歸中，假定g為某種多項式，并最小化訓練集上的誤差平方和。當不能假定多項式時，使用非參數(shù)回歸，只假定相近的x 有相近的g(x)值。

與非參數(shù)密度估計一樣，給定x，我們的方法是找出x 的鄰域。并求領域中r 的某種平均值，作為g(x)的估計。這種非參數(shù)回歸估計子稱為光滑子，該估計成光滑。

類似于非參數(shù)密度估計，有不同的定義鄰域的方式。

移動均值光滑

像直方圖中那樣，定義一個原定和箱寬度h，并求箱中 r 的平均值。得到回歸

$\hat g(x)=\frac{\sum_{t=1}^N b(x,x^t)r^t}{\sum_{t=1}^Nb(x,x^t)}$

其中 $b(x,x^t)=\begin{equation}\left\{ \begin{array}{lr} 1, & x,x^t 同箱 \\0, & else\ \end{array}\right.\end{equation}$ 。

如質樸估計一樣，在移動均值光滑中，于x周圍定義一個對稱箱來避免定義原點。

$\hat g(x)=\frac{\sum_{t=1}^N \omega(\frac{x-x^t}{h})r^t}{\sum_{t=1}^N\omega(\frac{x-x^t}{h})}$ ，其中 $\omega(u)=\begin{equation}\left\{ \begin{array}{lr} 1, & |u|<1 \\0, & eles\ \end{array}\right.\end{equation}$ 。

核光滑

和核估計一樣，讓較遠的實例點有較小的權重，并得到核光滑。

$\hat g(x)=\frac{\sum_t^NK(\frac{x-x^t}{h})r^t}{\sum_t^NK(\frac{x-x^t}{h})}$

通常使用高斯核K。除了固定h，可使用x 與距其第k近的實例之間的距離 $d_k(x)$ ，使得估計能自適應 x 周圍的密度，得到k-nn光滑。

移動線光滑

取代在點上取點鄰域內實例的平均值來進行估計擬合，使用輸入x鄰域內的實例數(shù)據(jù)，來擬合一條局部回歸線。再給出x的輸出。

局部加權移動線光滑（loess），通過核加權使較遠的點對誤差具有較小影響，而不是像移動線光滑一樣使用鄰域的硬定義。

回歸樹

運用非參數(shù)的決策樹方法，同樣能實現(xiàn)回歸的目的。見《非參數(shù)方法——決策樹》一節(jié)。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

監(jiān)督學習——回歸