線性回歸
線性模型不僅簡單,而且用途廣泛,是很多復雜模型的基礎。我想這也符合人的認知:線性就是一種趨勢,更高或更低的值往往反映出結果是更好還是更壞。因此,無論是加入更多自變量的多元線性回歸,還是推廣到更一般場景中的廣義線性回歸,內核都是線性。
對數(shù)幾率回歸與線性判別分析
兩者都是二分類的方法,對數(shù)幾率回歸將線性回歸的結果投射到sigmoid函數(shù)上,通過設定的閾值判斷類別;線性判別分析將樣本投影到一條直線,使不同類別樣本在直線上距離盡可能遠,同類別則盡可能近,新樣本根據(jù)投影位置判斷類別。對數(shù)幾率回歸用最大似然估計確定模型參數(shù),線性判別分析通過最大化類間距離與類內距離的比值確定參數(shù)。
書上的公式要推導一遍嗎?
多分類學習
這里主要介紹利用二分類學習器解決多分類問題。其本質就是構造多個二分類學習器,然后綜合各個學習器的結果對新樣本分類。常用的構造策略有三種,“一對一”、“一對其余”、“多對多”,具體用到時再展開。
類別不平衡問題
類別不平衡在很多場景中都存在,如分類模型的訓練,以及ROC分析,都要考慮到這種不平衡?;凇坝柧殬颖臼钦鎸崢颖究傮w的無偏采樣”這個假設是否滿足,有不同的處理方式:滿足假設,則根據(jù)正、反例數(shù)目的比值調整閾值,稱為“再縮放”;不滿足假設,則需要調整訓練集中正、反例樣本的數(shù)目,使其盡可能接近。常用調整方法有欠采樣(去掉一部分較多的類別)、過采樣(通過擬合等手段加入一部分較少的類別)和閾值移動(直接用原始樣本訓練,把閾值調整步驟放到實際應用時)。