Logistics回歸

from sklearn.linear_model import LogisticRegression

原理:Logistic Regression雖然名字里帶“回歸”,但是它實際上是一種分類方法,用于兩分類問題(即輸出只有兩種),根據現有數據對分類邊界線建立回歸公式,以此進行分類。這里的“回歸” 一詞源于最佳擬合,表示要找到最佳擬合參數集。運用最大似然估計和梯度下降法求得最佳參數

一、構造預測函數

利用了Logistic函數(或稱為Sigmoid函數),函數形式為:

函數形狀為:

預測函數可以寫為:

二、構造損失函數

Cost函數和J(θ)函數是基于最大似然估計推導得到的。每個樣本屬于其真實標記的概率,即似然函數,可以寫成:

所有樣本都屬于其真實標記的概率為:

對數似然函數為:

最大似然估計就是要求得使l(θ)取最大值時的θ,其實這里可以使用梯度上升法求解,求得的θ就是要求的最佳參數

三、梯度下降法求J(\theta )的最小值

求J(θ)的最小值可以使用梯度下降法,根據梯度下降法可得θ的更新過程:

式中為α學習步長,下面來求偏導:

上式求解過程中用到如下的公式:

因此,θ的更新過程可以寫成:

因為式中α本來為一常量,所以1/m一般將省略,所以最終的θ更新過程為:

solver參數的選擇:

????????“l(fā)iblinear”:小數量級的數據集

????????“l(fā)bfgs”, “sag” or “newton-cg”:大數量級的數據集以及多分類問題

????????“sag”:極大的數據集

?著作權歸作者所有,轉載或內容合作請聯系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容