Classification(分類)
- 應用舉例
- Credit Scoring
- input: income, saving, profession, age, past financial history...
- output: accept or refuse
- Medical Diagosis
- input: current symptons, age, gender, past medical history...
- output: which kind of disease
- Handwritting recognition
- Face recognition
- Credit Scoring
1.數學前提
情景:盒1(4藍球,1綠球),盒2(2籃球,3綠球),拿盒1的概率是2/3,拿盒2的概率是1/3
- 先驗概率:知因求果
從盒1中拿,拿出籃球的概率是多少
- 后驗概率:知果求因(此時用到了貝葉斯公式)
已知拿到了籃球,則從盒1中拿的概率是多少
- 貝葉斯公式:
事件的概率為
,事件
已發(fā)生條件下事件
的概率為
,事件
發(fā)生條件下事件Ci的概率為
- generative model(生成模型)
那上訴的這些數值從哪里來呢,就從training data里面,估計出來,這個想法就是生成模型。
例如, - 極大似然估計:知果求最可能的原因
- Naive Bayes(樸素貝葉斯):假設屬性之間都是互相獨立的,則稱這個貝葉斯是樸素的貝葉斯,用此假定,是為了簡化計算。
則樸素貝葉斯公式為:
2 分類步驟
2.1 首先明確現在做的這一步
目的:確認x這個點是否是在類別A里面
方法:所有的類別都有自己的分布,計算x這個點在類別里分布的概率,當概率大于0.5時,就可認為x屬于這個類別
問題:這個(高斯)分布怎么計算呢?
解決:極大似然估計
2.2 Guassian Distribution(高斯分布)
其中 mean:均值;covariance matrix
:協方差矩陣
-
這個公式中,若已知均值和協方差矩陣,將目標點帶入,就可求得此點在該高斯分布中的位置。
接下來就需要用極大似然估計,來找出該高斯分布,最有可能是由那個均值和哪個協方差矩陣組成的。
哪個參數才是最好的呢
2.3 極大似然估計
-
這個是均值和協方差矩陣的可能性 - 若要使得可能性最大,即
均值和協方差矩陣需滿足如下公式
為平均值
- 此時我們已經得到了
,由此可得此高斯分布,現在我們回到貝葉斯公式
2.4 用貝葉斯公式進行分類
2.4.1 第一次嘗試

將得到的高斯分布放進貝葉斯公式中
- 然而由此得出的效果正確率只有47%,即使把七維的參數都放進來,準確率也只有54%,此時需要調整模型
2.4.2 第二次嘗試
調整模型
根據以往經驗得出,其實協方差矩陣用同一個即可,即,均值還是各自的照舊,用同一個協方差矩陣會產生一個線性的邊界。
此時,準確率達到了73%-
Sigmoid function
SigmoidSigmoid funciton 有很多優(yōu)良的特性,值域為(0,1),在0.5周圍敏感,在0,1附近不敏感,非常適合用于二分任務
2.5 Linear Regression 和 Logistic Regression 的區(qū)別和聯系
在貝葉斯公式中,可以寫成
的形式,而
經過一番運算以后,可以得到一個
的形式,即最終
從中,我們能看出 Linear Regression 在經過了 Sigmoid function 處理之后,變成了能夠處理了二分任務的 Logistic Regression

