假設(shè)有個(gè)樣本為
,其中
為第
個(gè)樣本的特征,
為第
個(gè)樣本的標(biāo)簽。
logistic regression的hypothesis為:
從上式的logistic函數(shù)可知的取值在
之間,對(duì)于二分類任務(wù)而言,
,因此可以假設(shè)
為
取某個(gè)值時(shí)的概率分布,即:
即:
個(gè)樣本的似然函數(shù)為:
對(duì)似然函數(shù)取對(duì)數(shù)可得:
最大化對(duì)數(shù)似然函數(shù),求對(duì)數(shù)似然函數(shù)對(duì)
的導(dǎo)數(shù),即求
。
對(duì)于一般的logistic函數(shù)對(duì)其求導(dǎo)可得:
因此:
對(duì)進(jìn)行梯度更新,可得:
注意:因?yàn)槭亲畲蠡迫缓瘮?shù),所以使用梯度更新的時(shí)候是相加而非相減。為學(xué)習(xí)率。對(duì)比一下最小二乘擬合,可以發(fā)現(xiàn),兩者的梯度更新非常相像,不同點(diǎn)在于logistic regression是要最大化似然函數(shù),所以采用了梯度上升的策略,而最小二乘采用的是最小化均方誤差損失函數(shù),所以采用了梯度下降的策略進(jìn)行梯度更新。
references:
http://cs229.stanford.edu/notes/cs229-notes1.pdf