其他分類(lèi)練習(xí)題

1.考慮一個(gè)二值分類(lèi)問(wèn)題,屬性集和屬性值如下:

空調(diào)={可用,不可用}

引擎={好,差}

行車(chē)?yán)锍?{高,中,低}

生銹={是,否}

假設(shè)一個(gè)基于規(guī)則的分類(lèi)器產(chǎn)生的規(guī)則集如下:

行車(chē)?yán)锍?高\rightarrow 價(jià)值=低

行車(chē)?yán)锍?低\rightarrow價(jià)值=高

空調(diào)=可用,引擎=好\rightarrow價(jià)值=高

可調(diào)=可用,引擎=差\rightarrow價(jià)值=低

空調(diào)=不可用\rightarrow價(jià)值=低

(a)這些規(guī)則是互斥的嗎?

不是

(b)這些規(guī)則是完全的嗎?

是。

(c)這些規(guī)則需要排序嗎?

Yes because a test instance may trigger more than one rule.

(d)規(guī)則集需要默認(rèn)類(lèi)嗎?

No because every instance is guaranteed to trigger at least

one rule.

2.RIPPER算法是早期算法IREP的擴(kuò)展,兩個(gè)算法都使用減少誤差剪枝(reduced-error pruning)方法來(lái)確定一個(gè)規(guī)則是否需要剪枝,減少誤差剪枝方法使用一個(gè)確認(rèn)集來(lái)估計(jì)分類(lèi)器的泛化誤差??紤]下面兩個(gè)規(guī)則:

R1:A\rightarrow C

R2:A\land B\rightarrow C

R2是由R1左邊添加合取項(xiàng)B得到的?,F(xiàn)在的問(wèn)題是,從規(guī)則增長(zhǎng)和規(guī)則剪枝的角度來(lái)確定R2是否比R1好。為了確定規(guī)則是否應(yīng)該剪枝,IREP計(jì)算下面的度量:

v_{IREP} \frac{p+(N-n)}{P+N}

其中,P是確認(rèn)集中正例的總數(shù),N是確認(rèn)集中反例的總數(shù),p是確認(rèn)集中被規(guī)則覆蓋的正例數(shù),而n是確認(rèn)集中被規(guī)則覆蓋的反例數(shù)。實(shí)際上,virep類(lèi)似于確認(rèn)集的分類(lèi)準(zhǔn)確率.IREP偏向于virep值較高的規(guī)則。另一方面,RIPPER使用下面的度量來(lái)確定規(guī)則是否應(yīng)該剪枝:v_{RIPPER} \frac{p-n}{p+n}

(1)假設(shè)R1覆蓋350個(gè)正例和150個(gè)反例,而R2覆蓋300個(gè)正例和50個(gè)反例。計(jì)算R2相對(duì)于R1的FOIL信息增益。

Gain=300*{log2(300/350)-log2(350/500)}=87.65

(2)考慮一個(gè)確認(rèn)集,包含500個(gè)正例和500個(gè)反例。假設(shè)R1覆蓋200個(gè)正例和50個(gè)反例,R2覆蓋100個(gè)正例和5個(gè)反例。計(jì)算R1和R2的Virep,IREP 偏向于那個(gè)規(guī)則?

對(duì)R1:v_{IREP} \frac{p+(N-n)}{P+N} ={200+(500-50)}/1000=0.65

對(duì)R2:v_{IREP} \frac{p+(N-n)}{P+N} ={100+(500-5)}/1000=0.595

IREP偏向于R1

(3)計(jì)算(2)中的Vripper,RIPPER偏向于哪個(gè)規(guī)則?

對(duì)R1:v_{RIPPER} \frac{p-n}{p+n} =(200-50)/(200+50)=0.6

對(duì)R2:v_{RIPPER} \frac{p-n}{p+n} =(100-5)/(100+5)=0.9

RIPPER偏向于R2

3.C4.5規(guī)則是從決策樹(shù)生成規(guī)則的間接方法的一個(gè)實(shí)現(xiàn),而RIPPER是從數(shù)據(jù)中生成規(guī)則的直接方法的一個(gè)實(shí)現(xiàn)。

(a)討論兩者的優(yōu)缺點(diǎn)。

C4.5規(guī)則算法從全局角度生成分類(lèi)規(guī)則。這是因?yàn)橐?guī)則是從決策樹(shù)中派生出來(lái)的,決策樹(shù)的目的是將特征空間劃分為同質(zhì)區(qū)域,而不關(guān)注任何類(lèi)。相反,RIPPER一次生成一個(gè)類(lèi)的規(guī)則。因此,它更偏向于首先生成的類(lèi)。

(b)考慮一個(gè)數(shù)據(jù)集,其中類(lèi)的大小差別很大(即有些累比其它類(lèi)大得多)。在為較小的類(lèi)尋找高準(zhǔn)確率規(guī)則方面,哪一種方法(C4.5和RIPPER)更好?

C4.5規(guī)則使用的類(lèi)排序方案比RIPPER使用的方案更容易解釋。

4.考慮一個(gè)訓(xùn)練集,包含100個(gè)正例和400個(gè)反例。對(duì)于下面的候選規(guī)則:

R1:A->+(覆蓋4個(gè)正例和1個(gè)反例)

R2:B->+ (覆蓋30個(gè)正例和10個(gè)反例)

R3:C-> + (覆蓋100個(gè)正例和90個(gè)反例)

根據(jù)下面的度量,確定最好規(guī)則和最差規(guī)則:

(1)規(guī)則準(zhǔn)確率。

準(zhǔn)確率依次為:R1:80%,R2:75%,R3:52.6%。因此最好規(guī)則是R1,最差規(guī)則是R3

(2)FOIL信息增益

假設(shè)初始規(guī)則:\phi \rightarrow +(覆蓋100個(gè)正例和400個(gè)反例)

對(duì)R1:Gain1=4*{log2(4/5)-log2(100/500)}=8

對(duì)R2:Gain2=30*{log2(30/40)-log2(100/500)}=57.2

對(duì)R3:Gain3=100*{log2(100/190)-log2(100/500)}=139.6

因此,R3最好,R1最差。

(3)似然比統(tǒng)計(jì)量

對(duì)于R1,正類(lèi)的期望頻率為5×100/500=1

負(fù)類(lèi)的期望頻率為5×400/500=4。

因此,R1的似然比是2*{4*log2(4/1)+1*log2(1/4)}=12

對(duì)于R2,正類(lèi)的期望頻率為40×100/500=8

負(fù)類(lèi)的期望頻率為40×400/500=32。

因此,R2的似然比是2*{30*log2(30/8)+10*log2(10/32)}=80.85

對(duì)于R3,正類(lèi)的期望頻率為190×100/500=38

負(fù)類(lèi)的期望頻率為190×400/500=152。

因此,R3的似然比是2*{100*log2(100/38)+90*log2(90/152)}=143

R3是最好的規(guī)則,R1是最差的。

(4)拉普拉斯度量

(5)m度量(k=2且p+=0.2)

其中n是規(guī)則覆蓋的樣例數(shù),f+是規(guī)則覆蓋的正例數(shù),k是類(lèi)的總數(shù),p+是正類(lèi)的先驗(yàn)概率。注意,當(dāng)=1/k時(shí),m估計(jì)等價(jià)于Laplace度量。

拉普拉斯度量依次為:R1:(4+1)/(5+2)=71.43%,R2:(30+1)/(40+2)=73.81%,R3:(100+1)/(190+2)=52.6%.因此R2是最好的,R3是最差的。

m度量:R1:(4+2*0.2)/(5+2)=62.86%,R2:(30+2*0.2)/(40+2)=73.38%,R3:(100+2*0.2)/(190+2)=52.3%

R2最好,R3最差。

5.下圖給出了分類(lèi)規(guī)則R1、R2、R3的覆蓋率。根據(jù)以下度量確定最好規(guī)則和最差規(guī)則:

(1)似然比統(tǒng)計(jì)量

(2)拉普拉斯統(tǒng)計(jì)量

(3)m度量(k=2且p+=0.58)

(4)發(fā)現(xiàn)規(guī)則R1后的準(zhǔn)確率,這里不刪除R1覆蓋的任何樣例

(5)發(fā)現(xiàn)規(guī)則R1后的準(zhǔn)確率,這里僅刪除R1覆蓋的正例

(6)發(fā)現(xiàn)R1后的準(zhǔn)確率,這里刪除R1覆蓋的任何樣例

Elimination of training records by the sequential covering algorithm. R1, R2, and R3represent regions covered by three different rules.

(1)數(shù)據(jù)集中有29個(gè)正例21個(gè)反例。R1覆蓋了12個(gè)正例和3個(gè)反例,正例期望樣例數(shù)為15*29/50=8.7,反例期望數(shù)為15*21/50=6.3.因此R1的似然比統(tǒng)計(jì)量為:

2*{12*log2(12/8.7)+3*log2(3/6.3)}=4.71

R2 covers 7 positive examples and 3 negative examples. The expected frequency for the negative class is 10 × 21/50 = 4.2 and the expected frequency for the positive class is 10 × 29/50 = 5.8. Therefore, the likelihood ratio for R2 is

2*{7*log2(7/5.8)+3*log2(3/4.2)}=0.89

R3 covers 8 positive examples and 4 negative examples. The expectedfrequency for the positive class is 12 × 29/50 = 6.96 and the expected frequency for the negative class is 12 × 21/50 = 5.04. Therefore, the likelihood ratio for R3 is

2*{8*log2(8/6.96)+4*log2(4/5.04)}=0.5472

因此根據(jù)似然比統(tǒng)計(jì)量,R1是最好的規(guī)則,R3最差。

(2)The Laplace measure for the rules are 76.47% ((12+1)/(15+2)for R1), 66.67% (for R2), and 64.29% (for R3), respectively. Therefore R1 is the best rule and R3 is the worst rule according to the Laplace measure.

(3)The m-estimate measure for the rules are 77.41% (for R1), 68.0% ((7+2*29/50)/(10+2)for R2), and 65.43% (for R3), respectively. Therefore R1 is the best rule and R3 is the worst rule according to the m-estimate measure.

(4)If the examples for R1 are not discarded, then R2 will be chosen because it has a higher accuracy (7/10=70%) than R3 (8/12=66.7%).

(5)If the positive examples covered by R1 are discarded, the new accuracies for R2 and R3 are 70% and 60%, respectively. Therefore R2 is preferred over R3.

(6)If the positive and negative examples covered by R1 are discarded, the new accuracies for R2 and R3 are 70% and 75%, respectively. In this case, R3 is preferred over R2.

6.(a)假設(shè)本科生抽煙的比例為15%,研究生抽煙的比例為23%。如果大學(xué)生中研究生占比1/5,其余是本科生,那么抽煙的學(xué)生是研究生的概率是多少?

設(shè)X={0,1},表示抽煙與否。Y={本科生,研究生}

P{X=1|Y=本科生}=15%,P{X=1|Y=研究生}=23%,P{Y=研究生}=1/5

P{X=1}=P{X=1,Y=本科生}+P{X=1,Y=研究生}=P{X=1|Y=本科生}*P{Y=本科生}+P{X=1|Y=研究生}*P{Y=研究生}=15%*4/5+23%*1/5=16.6%

故P{Y=研究生|X=1}=P{X=1|Y=研究生}*P{Y=研究生}/P{X=1}=(23%*1/5)/16.6%=27.7%

(b)根據(jù)(a)中信息,隨機(jī)選擇一個(gè)大學(xué)生,該生是研究生和本科生的可能性哪個(gè)大?

本科生大。P(UG)>P(G)

(c)同(b),假設(shè)學(xué)生是個(gè)抽煙者。

P{Y=本科生|X=1}=1-P{Y=研究生|X=1}=72.3%。本科生的可能性大。

(d)假設(shè)30%的研究生住學(xué)生宿舍,只有10%的本科生住學(xué)生宿舍。如果一個(gè)學(xué)生抽煙又住宿舍,那么他(她)是研究生或本科生的可能性哪個(gè)大?可以假設(shè)學(xué)生抽煙和住宿舍獨(dú)立。

設(shè)Z={住宿舍,不住宿舍}={1,0}.P{Z=1|Y=研究生}=0.3 P{Z=1|Y=本科生}=0.1

P(D) = P(UG).P (D|UG)+P(G).P (D|G) = 0.8?0.1+0.2?0.3 = 0.14.

P(S) = P(S|UG)P(UG)+P(S|G)P(G) = 0.15?0.8+0.23?0.2 = 0.166.

P(DS|G) = P(D|G) × P(S|G) = 0.3 × 0.23 = 0.069 (using conditional independent assumption)

P(DS|UG) = P(D|UG) × P(S|UG) = 0.1 × 0.15 = 0.015.

P{Y=研究生|X=1,Z=1}=P(DS|G)*P(G)/P(DS)=0.069*0.2/P(DS)=0.0138/P(DS)

P{Y=本科|X=1,Z=1}=P(DS|UG)*P(UG)/P(DS)=0.015*0.8/P(DS)=0.012/P(DS)

P{Y=研究生|X=1,Z=1}>P{Y=本科|X=1,Z=1}.

7.考慮下表中數(shù)據(jù)集。

(1)估計(jì)條件概率P(A|+),P(B|+),P(C|+),P(A|-),P(B|-),P(C|-)。

P(A=1|+)=P(A=1,+)/P(+)=0.3/0.5=0.6

P(A = 1|?) = 2/5 = 0.4, P(B = 1|?) = 2/5 = 0.4,

P(C = 1|?) = 1, P(A = 0|?) = 3/5 = 0.6,

P(B = 0|?) = 3/5 = 0.6, P(C = 0|?) = 0;

P(B = 1|+) = 1/5 = 0.2, P(C = 1|+) = 2/5 = 0.4,

P(A = 0|+) = 2/5 = 0.4, P(B = 0|+) = 4/5 = 0.8,

P(C = 0|+) = 3/5 = 0.6.

(2)根據(jù)(1)中條件概率,使用樸素貝葉斯方法預(yù)測(cè)測(cè)試樣本(A=0,B=1,C=0)的類(lèi)標(biāo)號(hào)。

設(shè)P(A=0,B=1,C=0)=K

P(+|A=0,B=1,C=0)=P(A=0,B=1,C=0,+)/P(A=0,B=1,C=0)

=P(A=0,B=1,C=0|+)P(+)/K

=P(A=0|+)P(B=1|+)P(C=0|+)P(+)/K

=0.4*0.2*0.6*0.5/K=0.024/K

P(-|A=0,B=1,C=0|)=P(A=0,B=1,C=0|-)P(-)/K

=0

由于P(-|A=0,B=1,C=0)<P(+|A=0,B=1,C=0),故類(lèi)標(biāo)號(hào)為+

(3)使用m估計(jì)方法(p=1/2且m=4)估計(jì)條件概率。

P(x_{i} |y_{j})=\frac{n_{c} +mp}{n+m}

P(A=1|+)=(3+4*1/2)/(5+4)=5/9

P(A = 0|+) = (2 + 2)/(5 + 4) = 4/9,

P(A = 0|?) = (3+2)/(5 + 4) = 5/9,

P(B = 1|+) = (1 + 2)/(5 + 4) = 3/9,

P(B = 1|?) = (2+2)/(5 + 4) = 4/9,

P(C = 0|+) = (3 + 2)/(5 + 4) = 5/9,

P(C = 0|?) = (0+2)/(5 + 4) = 2/9.

(4)同(b),使用(c)中條件概率。

Let P(A = 0,B = 1, C = 0) = K

P(+|A = 0,B = 1, C = 0)

= P(A = 0,B = 1, C = 0|+) × P(+)/P(A = 0,B = 1, C = 0)

=P(A = 0|+)P(B = 1|+)P(C = 0|+) × P(+)/K

=(4/9) × (3/9) × (5/9) × 0.5/K

= 0.0412/K

P(?|A = 0,B = 1, C = 0)= 0.0274/K

類(lèi)標(biāo)號(hào)是+

(5)比較兩種方法,哪種好?

當(dāng)其中一個(gè)條件概率為零時(shí),使用m-估計(jì)概率方法對(duì)條件概率的估計(jì)更好,因?yàn)槲覀儾幌M麄€(gè)表達(dá)式變成零。

8.考慮下標(biāo)數(shù)據(jù)集。


(1)估計(jì)條件概率P(A=1|+),P(B=1|+),P(C=1|+),P(A=1|-),P(B=1|-),P(C=1|-).

P(A=1|+)=3/5=0.6,P(A=1|-)=2/5=0.4

P(B=1|+)=2/5=0.4,P(B=1|-)=2/5=0.4

P(C=1|+)=4/5=0.8,P(C=1|-)=1/5=0.2

(2)根據(jù)(1)中條件概率,使用樸素貝葉斯方法預(yù)測(cè)測(cè)試樣本(A=1,B=1,C=1)的類(lèi)標(biāo)號(hào)。

P(+|A=1,B=1,C=1)=P(A=1,B=1,C=1|+)P(+)/P(A=1,B=1,C=1)=P(A=1|+)P(B=1|+)P(C=1|+)P(+)/P(A=1,B=1,C=1)=0.6*0.4*0.8*0.5/0.1=0.96

P(-|A=1,B=1,C=1)=P(A=1,B=1,C=1|-)P(-)/P(A=1,B=1,C=1)=P(A=1|-)P(B=1|-)P(C=1|-)P(-)/P(A=1,B=1,C=1)=0.4*0.4*0.2*0.5/0.1=0.16

類(lèi)標(biāo)號(hào)為+

(3)比較P(A=1),P(B=1)和P(A=1,B=1).陳述A,B之間的關(guān)系。

P(A=1)=0.5,P(B=1)=0.4,P(A=1,B=1)=0.2.

P(A=1,B=1)=P(A=1)*P(B=1),因此A,B之間獨(dú)立。

(4)對(duì)P(A=1),P(B=0)和P(A=1,B=0)重復(fù)(3)的分析。

P(A=1)=0.5,P(B=0)=0.6,P(A=1,B=0)=0.3,A,B獨(dú)立。

(5)比較P(A=1,B=1|類(lèi)=+)與P(A=1|類(lèi)=+)和P(B=1|類(lèi)=+)。給定+,變量A,B獨(dú)立嗎?

P(A=1,B=1|類(lèi)=+)=0.2???? P(A=1|類(lèi)=+)=3/5=0.6? P(B=1|類(lèi)=+)=0.4

P(A=1,B=1|類(lèi)=+)=0.2≠P(A=1|類(lèi)=+)*P(B=1|類(lèi)=+)A,B不條件獨(dú)立

9.(a)解釋樸素貝葉斯分類(lèi)器在下圖數(shù)據(jù)集上的工作過(guò)程。

下圖? 數(shù)據(jù)集

樸素貝葉斯分類(lèi)器在這個(gè)數(shù)據(jù)集上做得不好,因?yàn)榻o定類(lèi)的每個(gè)區(qū)別屬性的條件概率對(duì)于類(lèi)A和類(lèi)B都是相同的。

(b)如果每個(gè)類(lèi)進(jìn)一步分割,得到四個(gè)類(lèi)(A1,A2,B1,B2),樸素貝葉斯分類(lèi)器會(huì)工作得更好嗎?

樸素貝葉斯分類(lèi)器的性能在子類(lèi)上會(huì)有所提高,因?yàn)槊總€(gè)子類(lèi)的區(qū)分屬性的條件概率乘積是不同的。

(c)決策樹(shù)在該數(shù)據(jù)集上怎樣工作(兩類(lèi)問(wèn)題)?四個(gè)類(lèi)呢?

對(duì)于兩類(lèi)問(wèn)題,決策樹(shù)的性能不好,因?yàn)樵谑褂脜^(qū)分屬性對(duì)數(shù)據(jù)進(jìn)行分割后,熵不會(huì)得到改善。如果有四個(gè)類(lèi),那么決策樹(shù)將會(huì)有很大的改進(jìn)。

10.使用下面的信息,重復(fù)例子的分析,尋找決策邊界位置:

(a)先驗(yàn)概率P(鱷魚(yú))=2*P(美洲鱷)

P(X|鱷魚(yú))=\frac{P(鱷魚(yú)|X)\times P(X)}{P(鱷魚(yú))}

P(X|美洲鱷)=\frac{P(美洲鱷|X)\times P(X)}{P(美洲鱷)}

理想決策邊界滿足:?x = 13.0379.

(b)先驗(yàn)概率P(美洲鱷)=2*P(??)

?x = 13.9621.

(c)先驗(yàn)概率相同,但標(biāo)準(zhǔn)差不同,例如,σ(鱷魚(yú))=4,σ(美洲鱷)=2.

?x = 22.1668.

11.下圖給出了下表數(shù)據(jù)集對(duì)應(yīng)的貝葉斯信念網(wǎng)絡(luò)(假設(shè)所有屬性都是二元的)。

(a)畫(huà)出網(wǎng)絡(luò)中每個(gè)結(jié)點(diǎn)對(duì)應(yīng)的概率表。

(b)使用貝葉斯信念網(wǎng)絡(luò)計(jì)算P(引擎=差,空調(diào)=不可用)。

(a)P(行車(chē)?yán)锍?高)=0.5

P(引擎=好|行車(chē)?yán)锍?高)=0.5

P(引擎=好|行車(chē)?yán)锍?低)=0.5

P(空調(diào)=可用)=0.5

P(車(chē)的價(jià)值=高|引擎=好,空調(diào)=可用)=12/16

P(車(chē)的價(jià)值=高|引擎=好,空調(diào)=不可用)=6/9

P(車(chē)的價(jià)值=高|引擎=差,空調(diào)=可用)=2/9

P(車(chē)的價(jià)值=高|引擎=差,空調(diào)=不可用)=0

(b)P(引擎=差,空調(diào)=不可用)=\sum\nolimits_{\alpha \beta }P(引擎=差,空調(diào)=不可用,行車(chē)?yán)锍?\alpha ,車(chē)的價(jià)值=\beta )

=\sum\nolimits_{\alpha \beta }P(車(chē)的價(jià)值=\beta|引擎=差,空調(diào)=不可用 )\times P(引擎 = 差|行車(chē)?yán)锍? α)P(行車(chē)?yán)锍?= α)P(空調(diào)=不可用)

(上式中,用到全概率公式,空調(diào)和引擎獨(dú)立條件)

=0.1453

12.給定下圖所示貝葉斯信念網(wǎng)絡(luò),計(jì)算下面概率:


(a)P(B=好,F=空,G=空,S=是)

(b)P(B=差,F(xiàn)=空,G=非空,S=否)

(c)如果電池是差的,計(jì)算車(chē)發(fā)動(dòng)起來(lái)的概率。

(a)P(B = good, F = empty,G = empty, S = yes)

= P(B = good) × P(F = empty) × P(G = empty|B = good, F = empty)×P(S = yes|B = good, F = empty)= 0.9 × 0.2 × 0.8 × 0.2 = 0.0288.

(b)P(B = bad, F = empty,G = not empty, S = no)= P(B = bad) × P(F = empty) × P(G = not empty|B = bad, F = empty)×P(S = no|B = bad, F = empty)= 0.1 × 0.2 × 0.1 × 1.0 = 0.002.

(c)P(S = yes|B = bad)

=\sum_{\alpha }P(S = yes|B = bad, F = α)P(B = bad)P(F = α)

= 0.1 × 0.1 × 0.8

= 0.008

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容