- Wang Y. Smoothing Splines: Methods and Applications (Chapman & Hall CRC Monographs on Statistics & Applied Probability) [Internet]. 1st ed. Chapman and Hall/CRC; 2011. Available from: http://gen.lib.rus.ec/book/index.php?md5=2EFF745DDEB91107DC1030287CB70BED
前言
統(tǒng)計(jì)分析通常涉及建立檢查依賴變量和自變量之間的關(guān)系的數(shù)學(xué)模型。這本書是關(guān)于一般類的強(qiáng)大而靈活的建模技術(shù),即樣條平滑。平滑樣條模型的研究近年來引起了人們的極大關(guān)注,并且該方法已經(jīng)在許多領(lǐng)域得到廣泛應(yīng)用。本書提供了一些基本平滑樣條線模型的介紹,包括多項(xiàng)式,周期,球面,薄板,L-和部分樣條,以及更高級(jí)模型的概述,包括平滑樣條線ANOVA,擴(kuò)展和廣義平滑樣條ANOVA,矢量樣條,非參數(shù)非線性回歸,半?yún)?shù)回歸和半?yún)?shù)混合效應(yīng)模型。還介紹了模型選擇和推理的方法。本書中非參數(shù)/半?yún)?shù)線性/非線性固定/混合平滑樣條模型的一般形式為估計(jì),推理和軟件實(shí)現(xiàn)提供了統(tǒng)一的框架。本書借鑒了再現(xiàn)核Hilbert空間(RKHS)的理論,以統(tǒng)一的方式呈現(xiàn)各種平滑樣條模型。另一方面,在RKHS和正則化的背景下的平滑樣條的主題通常被認(rèn)為是技術(shù)和困難的。我的主要目標(biāo)之一是使基于RKHS的高級(jí)平滑樣條法更易于從業(yè)者和學(xué)生訪問??紤]到這一點(diǎn),本書側(cè)重于方法,計(jì)算,實(shí)現(xiàn),軟件和應(yīng)用。它為RKHS提供了溫和的介紹,將理論保持在最低水平,并提供了有關(guān)如何使用RKHS構(gòu)建樣條模型的細(xì)節(jié)。用戶友好的軟件是任何統(tǒng)計(jì)方法的常規(guī)使用的關(guān)鍵。
R中的輔助庫實(shí)現(xiàn)本書中提出的用于擬合各種非參數(shù)/半?yún)?shù)線性/非線性固定/混合平滑樣條模型的方法。輔助庫可以在http://www.r-project.org獲得。大部分的說明是基于對(duì)實(shí)例的分析。
這些示例不是形式分析,而是用于說明樣條平滑方法的功能和多樣性。所有數(shù)據(jù)分析在R中執(zhí)行,其中大多數(shù)使用輔助庫中的函數(shù)。與本書相關(guān)的所有示例和進(jìn)一步發(fā)展的代碼將公布在網(wǎng)頁http://www.pstat.ucsb.edu/faculty/yuedong/book.html
本書面向那些想了解平滑樣條曲線的人。它可以是需要先進(jìn)和靈活的建模技術(shù)的統(tǒng)計(jì)學(xué)家和科學(xué)家的參考書。它也可以作為一個(gè)高級(jí)研究生課程的文本。事實(shí)上,第1章到第4章的主題在加州大學(xué)圣塔芭芭拉分校和中國科學(xué)技術(shù)大學(xué)的四分之一課程中討論。我確實(shí)幸運(yùn)地學(xué)到了平滑樣條
GraceWahba,他的先驅(qū)工作為許多研究工作鋪平了道路,使本書成為可能。我非常感謝我的前學(xué)生和合作者Chunlei Ke開發(fā)的輔助包。特別感謝劉安娜仔細(xì)閱讀草稿,糾正了許多錯(cuò)誤。幾個(gè)人幫助我寫了這本書的各個(gè)階段:創(chuàng)業(yè),郭文生,大衛(wèi)恒克利,平馬和溫迪邁林。我必須感謝我的編輯David Grubbes的耐心和鼓勵(lì)。最后,我要感謝幾位研究人員分享他們的數(shù)據(jù)集以納入本書;他們被引用到他們的數(shù)據(jù)被引入。
第1章簡介
1.1參數(shù)和非參數(shù)回歸
回歸分析構(gòu)建檢驗(yàn)因變量與一個(gè)或多個(gè)自變量的關(guān)系的數(shù)學(xué)模型。這些模型可以用于預(yù)測自變量的未觀察值和/或未來值的響應(yīng)。在簡單情況下,從屬變量y和獨(dú)立變量x都是標(biāo)量變量,給定對(duì)于i = 1,...的觀察值(xi,yi)。 。 。 ,n,回歸模型關(guān)聯(lián)依賴和自變量如下:
其中f是回歸函數(shù),ei是具有共同方差σ2的零均值獨(dú)立隨機(jī)誤差?;貧w分析的目的是構(gòu)建f的模型,并基于噪聲數(shù)據(jù)進(jìn)行估計(jì)。
例如,對(duì)于黃石國家公園的老忠實(shí)噴泉,考慮使用先前噴發(fā)的長度預(yù)測下一次噴發(fā)的等待時(shí)間的問題。圖1.1(a)顯示了來自舊忠實(shí)噴泉的272次觀測的等待時(shí)間到下一次噴發(fā)(y =等待)對(duì)先前噴發(fā)持續(xù)時(shí)間(x =持續(xù)時(shí)間)的散點(diǎn)圖。目標(biāo)是建立一個(gè)數(shù)學(xué)模型,將等待時(shí)間與先前噴發(fā)的持續(xù)時(shí)間相關(guān)聯(lián)。第一次嘗試可能是通過直線近似回歸函數(shù)f
最小二乘直線擬合如圖1.1(a)所示。沒有明顯的缺乏適應(yīng)的跡象。此外,在圖1.1(b)中的殘差圖中沒有明顯的可見趨勢。通常f在x中是非線性的。處理非線性關(guān)系的常見方法是通過階m的多項(xiàng)式近似f
圖1.2顯示了模擬摩托車碰撞實(shí)驗(yàn)對(duì)沖擊頭盔的功效的加速度(y =加速度)對(duì)沖擊后時(shí)間(x =時(shí)間)的散點(diǎn)圖。很明顯,直線不能解釋加速度和時(shí)間之間的關(guān)系。多元醇,m = 1,。 。 。 ,20被擬合到數(shù)據(jù),并且圖1.2示出了由Akaike的信息標(biāo)準(zhǔn)(AIC)選擇的最佳擬合。在范圍的兩端的擬合曲線中存在波浪。即使考慮到高達(dá)20階的多項(xiàng)式,擬合仍然不能完全令人滿意。與線性回歸模型(1.2)不同,除了小m,模型(1.3)中的系數(shù)不再有很好的解釋。
一般來說,參數(shù)回歸模型假定f的形式是已知的,除了有限多個(gè)未知參數(shù)。 f的具體形式可以來自科學(xué)理論和/或在一些簡化假設(shè)下的力學(xué)近似。這些假設(shè)可能太限制,并且對(duì)于一些應(yīng)用,近似可能太粗糙。不適當(dāng)?shù)哪P涂赡軐?dǎo)致系統(tǒng)偏差和誤導(dǎo)性結(jié)論。在實(shí)踐中,應(yīng)該總是檢查函數(shù)f的假設(shè)形式。
獲得f的特定功能形式通常是困難的,即使不是不可能的。非參數(shù)回歸模型不采用預(yù)定義形式。相反,它對(duì)f的定性性質(zhì)做出假設(shè)。例如,可以愿意假設(shè)f是“平滑的”,其不會(huì)減少到具有有限數(shù)量的參數(shù)的特定形式。相反,它通常導(dǎo)致一些無限維函數(shù)集合。非參數(shù)回歸的基本思想是讓數(shù)據(jù)自己說話。這就是讓數(shù)據(jù)決定哪個(gè)函數(shù)最適合,而不在f上強(qiáng)加任何特定的形式。因此,非參數(shù)方法通常更靈活。它們可以揭示數(shù)據(jù)中可能被遺漏的結(jié)構(gòu)。
為了說明,我們將三次樣條擬合到間歇數(shù)據(jù)。三次樣條是一個(gè)特殊的非參數(shù)回歸模型,將在1.2節(jié)中介紹。對(duì)來自線性模型(1.2)的殘差的三次樣條擬合顯示出圖1.3(a)中的非零趨勢。這提出了一個(gè)簡單的線性回歸模型是否適合間歇泉數(shù)據(jù)的問題。對(duì)原始數(shù)據(jù)的三次樣條擬合如圖1.3(b)所示。它揭示了在自變量中有兩個(gè)聚類,并且每個(gè)聚類可能需要不同的線性模型。第2.10,3.8和3.9節(jié)包含對(duì)間歇泉數(shù)據(jù)的更多分析。摩托車數(shù)據(jù)的三次樣條擬合如圖1.4所示。它比多項(xiàng)式模型更好地?cái)M合數(shù)據(jù)。第2.10,3.8,5.4.1和6.4節(jié)包含了對(duì)摩托車數(shù)據(jù)的更多分析。
上述簡單的說明表明,非參數(shù)回歸技術(shù)可以應(yīng)用于回歸分析中的不同步驟:數(shù)據(jù)探索,建模,測試參數(shù)模型和診斷。事實(shí)上,如整個(gè)書中所示,樣條平滑是用于建立統(tǒng)計(jì)模型以利用數(shù)據(jù)中的結(jié)構(gòu)的強(qiáng)大且通用的工具。
1.2多項(xiàng)式樣條
多項(xiàng)式(1.3)是一個(gè)全局模型,使其對(duì)局部變化的適應(yīng)性較差。個(gè)人觀察可能對(duì)偏遠(yuǎn)地區(qū)的適應(yīng)有不當(dāng)影響。例如,在摩托車數(shù)據(jù)中,平均函數(shù)的行為從一個(gè)區(qū)域到另一個(gè)區(qū)域急劇變化。
這些局部變化導(dǎo)致在多項(xiàng)式擬合的范圍的兩端的振蕩。克服這種限制的一個(gè)自然方法是使用分段多項(xiàng)式,多項(xiàng)式樣條曲線的基本思想。令a <t1 <... <tk <b是稱為節(jié)點(diǎn)的固定點(diǎn)。令t0 =
a和tk + 1 = b。粗略地說,多項(xiàng)式樣條是在結(jié)處平滑連接在一起的分段多項(xiàng)式。形式上,階數(shù)r的多項(xiàng)式樣條是[a,b],f(t)上的實(shí)值函數(shù),使得
(i)f是階數(shù)r on [ti,ti + 1)的分段多項(xiàng)式,i = 0,1,..., 。 。 ,k;
(ii)f具有r -2個(gè)連續(xù)導(dǎo)數(shù),并且(r -1)st導(dǎo)數(shù)是具有節(jié)點(diǎn)跳躍的階躍函數(shù)
現(xiàn)在考慮甚至表示為r = 2m的訂單。如果除了(i)和(ii)之外,函數(shù)f是2m的自然多項(xiàng)式樣條,其滿足自然邊界條件
(iii)f(j)(a)= f(j)(b)= 0,j = m。 。 。 ,2m-1。
自然邊界條件意味著f是在兩個(gè)外部子間隔[a,t1]和[tk,b]上的階m的多項(xiàng)式。用節(jié)點(diǎn)t1,表示2m的自然多項(xiàng)式樣條函數(shù)空間。 。 。 ,tk作為NS2m(t1,...,tk)。一種被稱為回歸樣條的方法是使用多項(xiàng)式樣條或自然多項(xiàng)式樣條近似f。為了獲得良好的效果,需要決定結(jié)的數(shù)量和位置。本書涵蓋了一種稱為平滑樣條的不同方法。它從f的一個(gè)明確定義的模型空間開始,并引入一個(gè)懲罰,以防止過度擬合。我們現(xiàn)在描述這種多項(xiàng)式樣條的方法??紤]回歸模型(1.1)。假設(shè)f是“平滑的”。具體來說,假設(shè)f∈Wm2[a,b]其中為Sobolev空間。