[ML] LR 為什么用 sigmoid ?

1. 思路

The point of this quick post is to write out why using the log-odds is infact very well motivated in the first place, and once it is modeled by a linear function, what you get is the logistic function.
Beginning with log-odds would infact be begging the question, so let us try to understand.

2. 結(jié)論

log-odds 是個(gè)很自然的選擇,sigmoid 是對(duì) log-odds 的線性建模。(事實(shí)邏輯回歸可以說(shuō)是the log-odds with a linear function的最簡(jiǎn)單的例子,如果我們有結(jié)構(gòu)化輸出,這種模型的自然擴(kuò)展將是the Conditional Random Field。使用線性函數(shù)的選擇只是在其他一些有利的屬性中凸優(yōu)化)。

3. 理解

假設(shè)我們有一個(gè)線性分類器:

我們要求得合適的W和w_0 ,使 0-1 loss 的期望值最小,即下面這個(gè)期望最小:

其中,一對(duì) x y 的 0-1 loss 為:

那么,

由 鏈?zhǔn)椒▌t 變換如下:

為了最小化 R(h),只需要對(duì)每個(gè) x 最小化它的條件風(fēng)險(xiǎn):

由 0-1 loss 的定義,當(dāng) h(x)不等于 c 時(shí),loss 為 1,否則為 0,所以上式變?yōu)椋?div id="u0z1t8os" class="image-package">

由于,

所以,

為了使 條件風(fēng)險(xiǎn) 最小,就需要 p 最大,也就是需要 h 為:

值得注意的是,到目前為止,我們對(duì)數(shù)據(jù)完全沒(méi)有做出任何假設(shè)。 所以上面的分類器就新樣本點(diǎn)的預(yù)期損失而言,是我們?cè)诜夯矫婵梢該碛械淖罴逊诸惼鳌?這種分類器稱為貝葉斯分類器,有時(shí)也稱為Plug-in 分類器。

上面的問(wèn)題等價(jià)于 找到 c*,使右面的部分成立:

取 log 得:

特殊情況,為二分類時(shí):

我們得到了 log-odds ratio !
請(qǐng)注意,通過(guò)不對(duì)數(shù)據(jù)做出任何假設(shè),只需寫出條件風(fēng)險(xiǎn),log-odds ratio 就會(huì)直接下降。 這不是偶然的,因?yàn)樽罴沿惾~斯分類器具有用于二進(jìn)制分類的這種形式。 但問(wèn)題仍然存在,我們?nèi)绾文M這個(gè)對(duì)數(shù)比值比? 最簡(jiǎn)單的選擇是考慮線性模型(there is no reason to stick to a linear model, but due to some reasons, one being convexity, we stick to a linear model):

接下來(lái)就是對(duì) log-odds ratio 進(jìn)行建模,最簡(jiǎn)單的就是想到線性模型:

重新排列,產(chǎn)生熟悉的邏輯模型(和sigmoid):

由此可見(jiàn),log-odds 是個(gè)很自然的選擇,sigmoid 是對(duì) log-odds 的線性建模。

參考:https://onionesquereality.wordpress.com/2016/05/18/where-does-the-sigmoid-in-logistic-regression-come-from/

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容