非參數(shù)方法——密度估計

介紹
第一部分?參數(shù)方法——類密度模型參數(shù)估計
第二部分?監(jiān)督學(xué)習(xí)——分類(基于似然的方法)
第三部分?監(jiān)督學(xué)習(xí)——分類(基于判別式的方法)(參數(shù)方法——判別式參數(shù)估計)
第四部分?監(jiān)督學(xué)習(xí)——回歸
第五部分?監(jiān)督學(xué)習(xí)——關(guān)聯(lián)規(guī)則
第六部分?維度規(guī)約(特征的提取和組合)
第七部分?半?yún)?shù)方法
第八部分?非監(jiān)督學(xué)習(xí)——聚類
第九部分 非參數(shù)方法——密度估計
第十部分?非參數(shù)方法——決策樹實現(xiàn)的判別式
第十一部分?多層感知器——非參數(shù)估計器
第十二部分?局部模型
第十三部分?支持向量機與核機器
第十四部分?隱馬爾科夫模型
第十五部分?參數(shù)的貝葉斯估計
第十六部分?集成學(xué)習(xí)——組合多學(xué)習(xí)器
第十七部分?增強學(xué)習(xí)
第十八部分?機器學(xué)習(xí)實驗
第十九部分?特征工程與數(shù)據(jù)預(yù)處理

參數(shù)方法和半?yún)?shù)方法,假定數(shù)據(jù)取自一個形式已知的概率分布或混合分布。當(dāng)輸入不能做這樣的假定時,可以使用非參數(shù)方法。

在非參數(shù)估計中,只假定相似的輸入有相似的輸出。不對數(shù)據(jù)基礎(chǔ)密度假定任何形式的先驗參數(shù)。實現(xiàn)參數(shù)方法的復(fù)雜度只依賴于訓(xùn)練集的大小。

非參數(shù)密度估計

假設(shè)樣本X=\{x^t\}_{t=1}^N獨立地從一個未知地概率密度p(\cdot)中抽取。使用非參數(shù)方法估計概率密度為\hat{p}(\cdot)

首先考慮一維變量,累積分布函數(shù)\hat F(x)=\frac {\#\{x^t\leq x\}} {N},其中\#\left\{x^t\leq x\right\}表示小于等于x 的訓(xùn)練實例。密度函數(shù)地非參數(shù)估計為

\hat p(x)=\frac 1h\left[ \frac{\#\{ x^t\leq x+h \}-\# \{ x^t\leq x\}}{N} \right]

h是足夠小區(qū)間長度,落入該區(qū)間的實例距離x^t”足夠接近“。下面使用的方法是這種方式的一些變形,使用不同的啟發(fā)式策略來確定領(lǐng)域的實例,及它們對估計的影響。

直方圖估計

在直方圖中,輸入空間為劃分到 稱為箱(bin)的相等區(qū)間中。給定原點x_0和箱寬度h,箱區(qū)間為[x_0+mh,x_0+(m+1)h](m是正整數(shù)或負(fù)整數(shù))。密度估計為

\hat p(x)=\frac{\#\{x^t與x在同個箱內(nèi)\}}{Nh}

在構(gòu)造直方圖時,需選定原定和箱寬度。它們直接影響估計的結(jié)果,尤其是箱寬度明顯影響密度分布的形狀。如果不設(shè)置原點,則可估計密度為

\hat p (x)=\frac{\#\{x-h/2<x^t\leq x+h/2 \}}{Nh}

這種估計方式稱為質(zhì)樸估計法,每個樣本數(shù)據(jù)x_t只對圍繞它的大小為h的區(qū)域有影響,也就是說這種影響區(qū)域是“硬的”。所以估計的密度不是連續(xù)函數(shù),會在x^t\pm h/2處有跳躍。

核估計

為了得到光滑的估計,我們使用一個光滑的權(quán)重函數(shù),稱為核函數(shù)。最常用的是高斯核:

K(u)=\frac{1}{\sqrt{2\pi}}\exp \left[ -\frac{u^2}{2}\right]

核估計又稱為Parzen窗口:

\hat p(x)= \frac1{Nh}\sum_{t=1}^NK \left( \frac{x-x^t}{h} \right)

核函數(shù)K(\cdot)決定影響的形狀,而窗口寬度決定影響的寬度。與 上面提到的 “箱”的和一樣,核估計是“凸塊”的和。所有實例x^t都對x上的估計有影響,并隨兩者距離增大而減小。

為了簡化計算,如果|x-x^t|>3h,則取K(\cdot)為0。只要核函數(shù)處處非負(fù),且積分為1,那么它就是合法的。\hat p (x)也就同樣合法。

k最鄰近估計

估計的最近鄰方法調(diào)整光滑量使之適應(yīng)數(shù)據(jù)的局部密度。光滑量有所考慮的鄰近數(shù)k \ll N控制。根據(jù)距離的定義,選取距離x最近的k個實例,作為x的近鄰。用d_i(x)表示距離x 第 i 近的數(shù)據(jù)實例到 x 的距離。

k最近鄰(k-nn) 密度估計為:

\hat p(x)=\frac k {2Nd_k(x)}

就像h=2d_k(x)的質(zhì)樸估計,只是對于每個x,h不是固定的。

k-nn估計不是連續(xù)的,并且k-nn估計不是概率密度函數(shù),它的積分是\infty

為了得到光滑的估計,可使用核函數(shù),將實例的影響雖距離增加而減小,這時

\hat p (x)=\frac 1{Nd_k(x)}\sum_{t=1}^NK\left( \frac{x-x^t}{d_k(x)}\right)

多元數(shù)據(jù)

給定d維觀測數(shù)據(jù)X=\{\mathbf{x}^t\}_{t=1}^N,多元核密度估計為\hat p(x)=\frac1{Nh^d}\sum_{t=1}^NK\left( \frac{\mathbf{x}-\mathbf{x}^t}{h}\right),并滿足\int_{R^d}K(\mathbf{x})d\mathbf{x}=1

常用的多元高斯核為K(\mathbf{u})=\left( \frac1{\sqrt{2\pi}} \right)^d\exp \left[ -\frac{\|\mathbf{u}\|^2}{2}\right]。

但對于多維度,除非有大量數(shù)據(jù),否則大部分箱 會為空。


光滑參數(shù)的選擇

在非參數(shù)方法之中,關(guān)鍵是要選擇光滑參數(shù),比如箱寬度、核展寬h或近鄰數(shù)k。

數(shù)據(jù)中往往存在噪聲,來源于未知函數(shù)的隨機性。光滑之后的估計應(yīng)該恰好能克服噪聲帶來的影響(就像在參數(shù)方法中去最小化均方誤差)。太大的h或k,許多實例都對點上的估計做出貢獻,從而也光滑掉了函數(shù)本身的變化,這就造成過光滑(在局部點欠擬合密度),導(dǎo)致了較低的方差和較大的偏倚。太小的h或k,單個實例具有較大影響,則不能光滑到噪聲,這就造成欠光滑(在點局部過擬合密度),導(dǎo)致較大的方差和較小的偏倚。

采用正則化函數(shù)\sum_r[r^t-\hat g(x^t)]^2+\lambda \int_{a}^ [\hat g^{\prime\prime}(x)]^2dx,來在驗證集上交叉驗證h和k或\lambda 。其中第一項是 驗證集上的 誤差,第二項是度量估計函數(shù) \hat g(x)的曲率變化,懲罰曲率快速變化的估計。


需要注意到,對每個輸入x,計算它到所有其他訓(xùn)練實例的距離需要較大的計算復(fù)雜度,來識別局部區(qū)域。


由于其簡單性,k-nn是最常使用的非參數(shù)方法。

非參數(shù)方法最重要的因素是所選擇的距離度量。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容