BAT 機器學(xué)習(xí)筆試題目

1以下幾種模型方法屬于判別式模型(Discriminative Model)的有( )

1)混合高斯模型

2)條件隨機場模型

3)區(qū)分度訓(xùn)練

4)隱馬爾科夫模型

A 2,3??B 3,4?C1,4?D1,2

2、Nave Bayes是一種特殊的Bayes分類器,特征變量是X,類別標簽是C,它的一個假定是:()

A各類別的先驗概率P(C)是相等的

B以0為均值,sqr(2)/2為標準差的正態(tài)分布

C特征變量X的各個維度是類別條件獨立隨機變量

D P(X|C)是高斯分布

3、關(guān)于支持向量機SVM,下列說法錯誤的是()

A L2正則項,作用是最大化分類間隔,使得分類器擁有更強的泛化能力

B Hinge損失函數(shù),作用是最小化經(jīng)驗分類錯誤

C分類間隔為1/||w||,||w||代表向量的模

D當參數(shù)C越小時,分類間隔越大,分類錯誤越多,趨于欠學(xué)習(xí)

4、在HMM中,如果已知觀察序列和產(chǎn)生觀察序列的狀態(tài)序列,那么可用以下哪種方法直接進行參數(shù)估計() ?

A EM算法

B維特比算法

C前向后向算法

D極大似然估計

5、在Logistic Regression 中,如果同時加入L1和L2范數(shù),不會產(chǎn)生什么效果()

A以做特征選擇,并在一定程度上防止過擬合

B能解決維度災(zāi)難問題

C能加快計算速度

D可以獲得更準確的結(jié)果

6、機器學(xué)習(xí)中L1正則化和L2正則化的區(qū)別是?

A使用L1可以得到稀疏的權(quán)值

B使用L1可以得到平滑的權(quán)值

C使用L2可以得到稀疏的權(quán)值

7、位勢函數(shù)法的積累勢函數(shù)K(x)的作用相當于Bayes判決中的()

A后驗概率

B先驗概率

C類概率密度

D類概率密度與先驗概率的和

8、隱馬爾可夫模型三個基本問題以及相應(yīng)的算法說法錯誤的是( )

A評估—前向后向算法

B解碼—維特比算法

C學(xué)習(xí)—Baum-Welch算法

D學(xué)習(xí)—前向后向算法

9、在其他條件不變的前提下,以下哪種做法容易引起機器學(xué)習(xí)中的過擬合問題?

A增加訓(xùn)練集量

B減少神經(jīng)網(wǎng)絡(luò)隱藏層節(jié)點數(shù)

C刪除稀疏的特征

DSVM算法中使用高斯核/RBF核代替線性核

10、下列時間序列模型中,哪一個模型可以較好地擬合波動性的分析和預(yù)測。

A AR模型

B MA模型

C ARMA模型??D GARCH模型

1正確答案是:A,您的選擇是: B

解析:

常見的判別式模型有:

Logistic regression(logistical 回歸)

Linear discriminant analysis(線性判別分析)

Supportvector machines(支持向量機)

Boosting(集成學(xué)習(xí))

Conditional random fields(條件隨機場)

Linear regression(線性回歸)

Neural networks(神經(jīng)網(wǎng)絡(luò))

常見的生成式模型有:

Gaussian mixture model and othertypes of mixture model(高斯混合及其他類型混合模型)

Hidden Markov model(隱馬爾可夫)

NaiveBayes(樸素貝葉斯)

AODE(平均單依賴估計)

Latent Dirichlet allocation(LDA主題模型)

Restricted Boltzmann Machine(限制波茲曼機)

生成式模型是根據(jù)概率乘出結(jié)果,而判別式模型是給出輸入,計算出結(jié)果。

2正確答案是:C,解析:

樸素貝葉斯的條件就是每個變量相互獨立。

3正確答案是:C,解析:

A正確。考慮加入正則化項的原因:想象一個完美的數(shù)據(jù)集,y>1是正類,y<-1是負類,決策面y=0,加入一個y=-30的正類噪聲樣本,那么決策面將會變“歪”很多,分類間隔變小,泛化能力減小。加入正則項之后,對噪聲樣本的容錯能力增強,前面提到的例子里面,決策面就會沒那么“歪”了,使得分類間隔變大,提高了泛化能力。

B正確。

C錯誤。間隔應(yīng)該是2/||w||才對,后半句應(yīng)該沒錯,向量的模通常指的就是其二范數(shù)。

D正確??紤]軟間隔的時候,C對優(yōu)化問題的影響就在于把a的范圍從[0,+inf]限制到了[0,C]。C越小,那么a就會越小,目標函數(shù)拉格朗日函數(shù)導(dǎo)數(shù)為0可以求出w=求和ai?yi?xi,a變小使得w變小,因此間隔2/||w||變大

4正確答案是:D,解析:

EM算法: 只有觀測序列,無狀態(tài)序列時來學(xué)習(xí)模型參數(shù),即Baum-Welch算法

維特比算法:用動態(tài)規(guī)劃解決HMM的預(yù)測問題,不是參數(shù)估計

前向后向算法:用來算概率

極大似然估計:即觀測序列和相應(yīng)的狀態(tài)序列都存在時的監(jiān)督學(xué)習(xí)算法,用來估計參數(shù)

注意的是在給定觀測序列和對應(yīng)的狀態(tài)序列估計模型參數(shù),可以利用極大似然發(fā)估計。如果給定觀測序列,沒有對應(yīng)的狀態(tài)序列,才用EM,將狀態(tài)序列看不不可測的隱數(shù)據(jù)。

5 正確答案是:D,解析:

之前的解析有些問題,特完善如下。

L1范數(shù)是向量中各個元素的絕對值之和,又叫稀疏規(guī)則算子。L1正則化通過向代價函數(shù)中添加權(quán)重向量的L1范數(shù)(即正則化項),使得優(yōu)化后的模型中無用特征對應(yīng)的權(quán)值變?yōu)?,相當于減少了特征維數(shù),實現(xiàn)了特征的自動選擇,所以LR中加入L1范數(shù)可以進行特征選擇、解決維度災(zāi)難問題、加快計算速度;

L2范數(shù)是向量中各個元素平方和的1/2次方。L2正則化通過向代價函數(shù)中添加權(quán)重向量的L2范數(shù),使得優(yōu)化后的模型中所有的權(quán)值w盡可能趨于0但不為0,通過L2范數(shù),可以實現(xiàn)對模型空間的限制,從而在一定程度上避免了過擬合;

過擬合的時候,擬合函數(shù)需要顧忌每一個點,最終形成的擬合函數(shù)波動很大,在某些小區(qū)間里,函數(shù)值的變化很大,也就是w非常大。所以LR中加入L2范數(shù)可以在一定程度上防止過擬合;

在LR中同時加入L1和L2范數(shù)不會產(chǎn)生結(jié)果更準確的效果。

6正確答案是:A,解析:

L1正則化偏向于稀疏,它會自動進行特征選擇,去掉一些沒用的特征,也就是將這些特征對應(yīng)的權(quán)重置為0.

L2主要功能是為了防止過擬合,當要求參數(shù)越小時,說明模型越簡單,而模型越簡單則,越趨向于平滑,從而防止過擬合。

L1正則化/Lasso

L1正則化將系數(shù)w的l1范數(shù)作為懲罰項加到損失函數(shù)上,由于正則項非零,這就迫使那些弱的特征所對應(yīng)的系數(shù)變成0。因此L1正則化往往會使學(xué)到的模型很稀疏(系數(shù)w經(jīng)常為0),這個特性使得L1正則化成為一種很好的特征選擇方法。

L2正則化/Ridge regression

L2正則化將系數(shù)向量的L2范數(shù)添加到了損失函數(shù)中。由于L2懲罰項中系數(shù)是二次方的,這使得L2和L1有著諸多差異,最明顯的一點就是,L2正則化會讓系數(shù)的取值變得平均。

對于關(guān)聯(lián)特征,這意味著他們能夠獲得更相近的對應(yīng)系數(shù)。還是以Y=X1+X2為例,假設(shè)X1和X2具有很強的關(guān)聯(lián),如果用L1正則化,不論學(xué)到的模型是Y=X1+X2還是Y=2X1,懲罰都是一樣的,都是2alpha。但是對于L2來說,第一個模型的懲罰項是2alpha,但第二個模型的是4*alpha??梢钥闯?,系數(shù)之和為常數(shù)時,各系數(shù)相等時懲罰是最小的,所以才有了L2會讓各個系數(shù)趨于相同的特點。

可以看出,L2正則化對于特征選擇來說一種穩(wěn)定的模型,不像L1正則化那樣,系數(shù)會因為細微的數(shù)據(jù)變化而波動。所以L2正則化和L1正則化提供的價值是不同的,L2正則化對于特征理解來說更加有用:表示能力強的特征對應(yīng)的系數(shù)是非零。

因此,一句話總結(jié)就是:L1會趨向于產(chǎn)生少量的特征,而其他的特征都是0,而L2會選擇更多的特征,這些特征都會接近于0。Lasso在特征選擇時候非常有用,而Ridge就只是一種規(guī)則化而已。

7 A

8 正確答案是:D,解析:

之前的解析不夠完善,特完善如下。

隱馬爾科夫模型有三個基本問題:

1概率計算問題:給定模型和觀測序列,計算在模型下觀測序列出現(xiàn)的概率。

2學(xué)習(xí)問題:已知觀測序列,估計模型中的參數(shù),使得在該模型下觀測序列概率最大,即用極大似然估計的方法估計參數(shù)。

3預(yù)測問題:也稱解碼問題,已知模型和觀測序列,給定觀測序列,求最可能的對應(yīng)的狀態(tài)序列。

解決隱馬爾科夫模型三個基本問題的算法:

概率計算算法:前向算法、后向算法

學(xué)習(xí)算法:Baum-Welch算法

預(yù)測算法:近似算法、維特比算法

評估問題就是概率計算問題,相應(yīng)的算法是前向算法和后向算法,A正確;解碼問題就是預(yù)測問題,相應(yīng)的算法是維特比算法,B正確。學(xué)習(xí)問題相應(yīng)的算法是Baum-Welch算法,C正確;前向算法和后向算法對應(yīng)評估問題,D錯誤。

9 正確答案是:D,解析:

一般情況下,越復(fù)雜的系統(tǒng),過擬合的可能性就越高,一般模型相對簡單的話泛化能力會更好一點。

B.一般認為,增加隱層數(shù)可以降低網(wǎng)絡(luò)誤差(也有文獻認為不一定能有效降低),提高精度,但也使網(wǎng)絡(luò)復(fù)雜化,從而增加了網(wǎng)絡(luò)的訓(xùn)練時間和出現(xiàn)“過擬合”的傾向, svm高斯核函數(shù)比線性核函數(shù)模型更復(fù)雜,容易過擬合

D.徑向基(RBF)核函數(shù)/高斯核函數(shù)的說明,這個核函數(shù)可以將原始空間映射到無窮維空間。對于參數(shù) ,如果選的很大,高次特征上的權(quán)重實際上衰減得非???,實際上(數(shù)值上近似一下)相當于一個低維的子空間;反過來,如果選得很小,則可以將任意的數(shù)據(jù)映射為線性可分——當然,這并不一定是好事,因為隨之而來的可能是非常嚴重的過擬合問題。不過,總的來說,通過調(diào)整參數(shù) ,高斯核實際上具有相當高的靈活性,也是 使用最廣泛的核函數(shù) 之一。

10 正確答案是:D,您的選擇是:C

解析:

AR模型是一種線性預(yù)測,即已知N個數(shù)據(jù),可由模型推出第N點前面或后面的數(shù)據(jù)(設(shè)推出P點),所以其本質(zhì)類似于插值。

MA模型(moving average model)滑動平均模型,其中使用趨勢移動平均法建立直線趨勢的預(yù)測模型。

ARMA模型(auto regressive moving average model)自回歸滑動平均模型,模型參量法高分辨率譜分析方法之一。這種方法是研究平穩(wěn)隨機過程有理譜的典型方法。它比AR模型法與MA模型法有較精確的譜估計及較優(yōu)良的譜分辨率性能,但其參數(shù)估算比較繁瑣。

GARCH模型稱為廣義ARCH模型,是ARCH模型的拓展,由Bollerslev(1986)發(fā)展起來的。它是ARCH模型的推廣。GARCH(p,0)模型,相當于ARCH(p)模型。GARCH模型是一個專門針對金融數(shù)據(jù)所量體訂做的回歸模型,除去和普通回歸模型相同的之處,GARCH對誤差的方差進行了進一步的建模。特別適用于波動性的分析和預(yù)測,這樣的分析對投資者的決策能起到非常重要的指導(dǎo)性作用,其意義很多時候超過了對數(shù)值本身的分析和預(yù)測。





最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容