周志華《機器學習》之四:線性模型

線性回歸

線性模型不僅簡單,而且用途廣泛,是很多復雜模型的基礎。我想這也符合人的認知:線性就是一種趨勢,更高或更低的值往往反映出結果是更好還是更壞。因此,無論是加入更多自變量的多元線性回歸,還是推廣到更一般場景中的廣義線性回歸,內核都是線性。

對數(shù)幾率回歸與線性判別分析

兩者都是二分類的方法,對數(shù)幾率回歸將線性回歸的結果投射到sigmoid函數(shù)上,通過設定的閾值判斷類別;線性判別分析將樣本投影到一條直線,使不同類別樣本在直線上距離盡可能遠,同類別則盡可能近,新樣本根據(jù)投影位置判斷類別。對數(shù)幾率回歸用最大似然估計確定模型參數(shù),線性判別分析通過最大化類間距離與類內距離的比值確定參數(shù)。

書上的公式要推導一遍嗎?

多分類學習

這里主要介紹利用二分類學習器解決多分類問題。其本質就是構造多個二分類學習器,然后綜合各個學習器的結果對新樣本分類。常用的構造策略有三種,“一對一”、“一對其余”、“多對多”,具體用到時再展開。

類別不平衡問題

類別不平衡在很多場景中都存在,如分類模型的訓練,以及ROC分析,都要考慮到這種不平衡?;凇坝柧殬颖臼钦鎸崢颖究傮w的無偏采樣”這個假設是否滿足,有不同的處理方式:滿足假設,則根據(jù)正、反例數(shù)目的比值調整閾值,稱為“再縮放”;不滿足假設,則需要調整訓練集中正、反例樣本的數(shù)目,使其盡可能接近。常用調整方法有欠采樣(去掉一部分較多的類別)、過采樣(通過擬合等手段加入一部分較少的類別)和閾值移動(直接用原始樣本訓練,把閾值調整步驟放到實際應用時)。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容