機(jī)器學(xué)習(xí)入門——線性模型(1)

線性linear,指量與量之間按比例、成直線的關(guān)系,在空間和時(shí)間上代表規(guī)則和光滑的運(yùn)動(dòng),一階導(dǎo)數(shù)為常數(shù);非線性non-linear則指不按比例、不成直線的關(guān)系,代表不規(guī)則的運(yùn)動(dòng)和突變,一階導(dǎo)數(shù)不為常數(shù)。

線性模型試圖學(xué)得一個(gè)通過屬性的線性組合來進(jìn)行預(yù)測(cè)的函數(shù),即

f(x) = ω1 X1 + ω2 X2 +...+ωdXd + b

一般用向量形式寫成 f(x) = ωTx + b,其中ω = (ω1; ω2;...;ωd)可以認(rèn)為是各屬性的權(quán)重,x = (x1; x2;...;xd)

數(shù)據(jù)處理
對(duì)離散屬性,若屬性間存在“序”關(guān)系,可通過連續(xù)化將其轉(zhuǎn)化為連續(xù)值,例如二值屬性身高的“高”和“矮”可以轉(zhuǎn)化為{1.0, 0.0}。若屬性值間不存在序關(guān)系,假定有k 個(gè)屬性值,則通常轉(zhuǎn)化為k 維向量,例如屬性"瓜類"的取值"西瓜" "南瓜" "黃瓜"可轉(zhuǎn)化為(0 , 0 , 1) , (0, 1 ,0), (1 ,0, 0)。
對(duì)于連續(xù)型數(shù)據(jù),我們也可以通過一些方法將其離散化。離散化有很多的好處,比如能夠使我們的模型更加的簡(jiǎn)單,因?yàn)橄鄬?duì)于連續(xù)類型數(shù)據(jù),離散類型數(shù)據(jù)的可能性更少。對(duì)于某些模型比如計(jì)算廣告中常用的邏輯回歸,是非常需要我們輸入離散化的特征的。
屬性離散化方法
屬性離散化方法有很多,基本可以分為三種分類方法。1. 無監(jiān)督離散化和有監(jiān)督離散化。在離散化過程中使用類信息的方法是有監(jiān)督的,而不使用類信息的方法是無監(jiān)督的。- 無監(jiān)督離散化:
等寬分箱法:將數(shù)據(jù)均勻劃分成n等份,每份間距相等。缺點(diǎn)是受異常值影響比較大。
等頻分箱法:把觀察點(diǎn)均勻分成n等份,每份包含的觀察點(diǎn)相同。
聚類劃分:使用聚類算法將數(shù)據(jù)聚成幾類,每一個(gè)類為一個(gè)劃分。- 有監(jiān)督離散化:
基于(信息)熵的離散化方法。
卡方分裂法
2 全局離散化和局部離散化。全局離散化是指使用整個(gè)樣本空間進(jìn)行離散化,而局部離散化指在樣本空間的某一個(gè)區(qū)域進(jìn)行離散化。
3 動(dòng)態(tài)離散化和靜態(tài)離散化。動(dòng)態(tài)離散化方法是在建立分類模型的同時(shí)對(duì)連續(xù)屬性進(jìn)行離散化,而靜態(tài)離散化是在進(jìn)行分類之前進(jìn)行離散化。

線性模型中如何確定ω和b呢?

我們常用均方誤差最小化來計(jì)算,即


式1

均方誤差也是一種誤差性能評(píng)價(jià)方法,具體可參考周志華老師的《機(jī)器學(xué)習(xí)》第45頁。f(xi)表示學(xué)習(xí)器模型的預(yù)測(cè)輸出,yi是真實(shí)值,arg min f(x)表示當(dāng)f(x)取最小值時(shí),x的取值,即右面的式子取最小值時(shí)ω和b的取值是ω*和b*。

均方誤差有非常好的幾何意義,它對(duì)應(yīng)于“歐氏距離”。下面介紹幾種距離:
歐氏距離
n維空間點(diǎn)a(x11,x12,…,x1n)與b(x21,x22,…,x2n)間的歐氏距離(兩個(gè)n維向量):


標(biāo)準(zhǔn)化歐氏距離: 標(biāo)準(zhǔn)化歐氏距離是針對(duì)歐氏距離的缺點(diǎn)而作的一種改進(jìn)。標(biāo)準(zhǔn)歐氏距離的思路:既然數(shù)據(jù)各維分量的分布不一樣,那先將各個(gè)分量都“標(biāo)準(zhǔn)化”到均值、方差相等?!緦?duì)于尺度無關(guān)的解釋】如果向量中第一維元素的數(shù)量級(jí)是100,第二維的數(shù)量級(jí)是10,比如v1=(100,10,30),v2 = (500,40),則計(jì)算歐式距離

可見歐式距離會(huì)給與第一維度100權(quán)重,這會(huì)壓制第二維度的影響力。對(duì)所有維度分別進(jìn)行處理,使得各個(gè)維度分別滿足標(biāo)準(zhǔn)正態(tài)分布。
還有一種對(duì)歐式距離的處理是均值化但沒有歸一化(Normalized),即

其中s2i是第i維度的方差(此處雖然舉例只有X,Y兩個(gè)點(diǎn),但整個(gè)數(shù)據(jù)集中會(huì)有無數(shù)個(gè)點(diǎn),根據(jù)數(shù)據(jù)集得到方差分布)
曼哈頓距離
n維空間點(diǎn)a(x11,x12,…,x1n)與b(x21,x22,…,x2n)的曼哈頓距離:

切比雪夫距離
n維空間點(diǎn)a(x11,x12,…,x1n)與b(x21,x22,…,x2n)的切比雪夫距離:

使均方誤差最小化來進(jìn)行模型求解的方法稱為“最小二乘法”,在線性回歸中,最小二乘法就是找到一條直線,使所有樣本到直線的歐氏距離之和最小。

拿出上述公式右半部分,要求

的最小值,可以考慮求極值,只需要將其分別對(duì)ω和b求偏導(dǎo)數(shù)并令其為0即可。最后求得ω和b最優(yōu)解的閉式解:



其中

數(shù)值解是在特定條件下通過近似計(jì)算得出來的一個(gè)數(shù)值。
解析解,也叫閉式解。就是給出解的具體函數(shù)形式,從解的表達(dá)式中就可以算出任何對(duì)應(yīng)值。

上面所計(jì)算的是針對(duì)d各變量屬性描述的樣本,其中x = (x1; x2;...;xd),稱為線性回歸模型的最小二乘參數(shù)估計(jì)。

如果給定數(shù)據(jù)集D = {(x1, y1),(x2, y2),...,(xm, ym)},其中xi = (xi1; xi2;...;xid),xij代表第i個(gè)樣本的第j個(gè)特征,yi是真實(shí)情況,y = (y1;y2;...;ymT注意并不是我們劃分的類型,(xm, ym)會(huì)是出現(xiàn)在樣本空間中的某個(gè)點(diǎn),我們要找到某個(gè)線將不同類的點(diǎn)區(qū)分開。樣本個(gè)數(shù)是m個(gè),由d個(gè)屬性描述,類似于我之前寫的西瓜的例子。我們?cè)噲D學(xué)得

這稱為“多元線性回歸”。

我們將上面左邊那個(gè)式子表示出來

第一個(gè)式子是 f(x1) = ω1x11 + ω2x12+ ... + ωdx1d + b。其實(shí)可以將b換成ω0,寫為 f(x1) =ω0 + ω1x11 + ω2x12+ ... + ωdx1d,則 方程組為:


寫為矩陣形式

即,f(xi) = xi ω


可以得到



這里的符號(hào)有些變化,但略一思考就可知道是如何對(duì)應(yīng)的,還有因?yàn)檫@里的y是矩陣向量,所以需要有一個(gè)矩陣轉(zhuǎn)置才能得到每一項(xiàng)差的平方和。和前面一樣,接下來只需要讓
對(duì)里面的ω(帶尖角)求導(dǎo)并令其為0,就可解得ω(帶尖角)最優(yōu)解的閉式解。

考慮一下,如果將ω x + b放進(jìn)另外一個(gè)單調(diào)可微函數(shù)g( . )里面有什么效果,即 y = g-1(ωTx + b),我們發(fā)現(xiàn)如果這樣做的話,就可以將線性模型得到的輸出以另外一種變化表達(dá)。比如如果將輸出標(biāo)記的對(duì)數(shù)作為線性模型逼近,即 lny = ωTx + b,實(shí)際上是讓

逼近目標(biāo),看下圖

這種模型被稱為“廣義線性模型”,其中g(shù)( . )稱為聯(lián)系函數(shù)。

參考:《機(jī)器學(xué)習(xí)》 周志華
http://www.cnblogs.com/jiaxin359/p/8574510.html
https://wenku.baidu.com/view/7f24b4b155270722192ef7cd.html
https://blog.csdn.net/qq1028850792/article/details/13024273

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容