1. SVM、LR、決策樹的對(duì)比？

LR實(shí)現(xiàn)簡(jiǎn)單，訓(xùn)練速度非?？?，但是模型較為簡(jiǎn)單。
決策樹容易過擬合，需要進(jìn)行剪枝等。
SVM既可以用于分類問題，也可以用于回歸問題，并且可以通過核函數(shù)快速的計(jì)算，

常見的損失函數(shù)

常見的損失誤差有五種：
1. 鉸鏈損失（Hinge Loss）：主要用于支持向量機(jī)（SVM）中；
1. 互熵?fù)p失（Cross Entropy Loss，Softmax Loss ）：用于Logistic 回歸與Softmax 分類中；
- 邏輯回歸的損失函數(shù):假設(shè)樣本服從伯努利分布（0-1分布），然后求得滿足該分布的似然函數(shù)，接著取對(duì)數(shù)求極值等
1. 平方損失（Square Loss）：主要是最小二乘法（OLS）中；
- 平方損失函數(shù)：假設(shè)樣本的誤差項(xiàng)是白噪聲，在正態(tài)分布的條件下推導(dǎo)得到。
1. 指數(shù)損失（Exponential Loss）：主要用于Adaboost 集成學(xué)習(xí)算法中；
1. 其他損失（如0-1損失，絕對(duì)值損失）

優(yōu)化函數(shù)角度

soft margin（軟間隔）的SVM用的是hinge loss,
- 軟間隔：現(xiàn)實(shí)中很容易出現(xiàn)一個(gè)沒辦法把點(diǎn)嚴(yán)格區(qū)分的情況。那么如果我們想用svm處理這個(gè)問題，就想辦法讓svm能容忍這種錯(cuò)誤，具體做法就是在目標(biāo)函數(shù)添加錯(cuò)誤累加項(xiàng)，然后加一個(gè)系數(shù)C，控制對(duì)錯(cuò)誤的容忍度，并且在約束中添加錯(cuò)誤容忍度的約束。如果對(duì)偶化處理得到的軟svm問題和之前的svm問題相比，各個(gè)α多了上界C（之前只要大于等于0就行了）。
- hing loss：鉸鏈損失，用來(lái)解決間距最大化的問題，如果被正確分類，損失是0，否則損失就是 1?Mi(w)。

帶L2正則化的LR對(duì)應(yīng)的是cross entropy loss，另外adaboost對(duì)應(yīng)的是exponential loss。
- LR的訓(xùn)練速度要高于SVM。
- LR對(duì)異常點(diǎn)敏感，SVM和決策樹對(duì)異常點(diǎn)不太敏感，因?yàn)橹魂P(guān)心support vector；
- LR和SVM對(duì)缺失值都很敏感，決策樹對(duì)缺失值不敏感（葉子節(jié)點(diǎn)投票解決）。
- LR可以預(yù)測(cè)概率，而SVM不可以，SVM依賴于數(shù)據(jù)測(cè)度，需要先做歸一化，LR一般不需要。
- SVM可以將特征映射到無(wú)窮維空間，但是LR不可以，一般小數(shù)據(jù)中SVM比LR更優(yōu)一點(diǎn)。

2. GBDT 和隨機(jī)森林的區(qū)別？

Bagging + 決策樹（CART） = 隨機(jī)森林
Boostin + 決策樹(CART回歸樹) = GBDT
隨機(jī)森林采用的是bagging的思想，bagging又稱為bootstrap aggreagation，通過在訓(xùn)練樣本集中進(jìn)行有放回的采樣得到多個(gè)采樣集，基于每個(gè)采樣集訓(xùn)練出一個(gè)基學(xué)習(xí)器，再將基學(xué)習(xí)器結(jié)合。
Bagging + 決策樹 = 隨機(jī)森林
隨機(jī)森林（Random Forest，簡(jiǎn)稱RF）是Bagging的一個(gè)擴(kuò)展變體。 RF在以決策樹為基學(xué)習(xí)器構(gòu)建Bagging集成的基礎(chǔ)上，進(jìn)一步在決策樹的訓(xùn)練過程中引入了隨機(jī)屬性選擇。具體來(lái)說(shuō)，傳統(tǒng)決策樹在選擇劃分屬性時(shí)是在當(dāng)前結(jié)點(diǎn)的屬性集合（假定有d個(gè)屬性）中選擇一個(gè)最優(yōu)屬性；而在RF中，對(duì)基決策樹的每個(gè)結(jié)點(diǎn)，先從該結(jié)點(diǎn)的屬性集合中隨機(jī)選擇一個(gè)包含k個(gè)屬性的子集，然后再?gòu)倪@個(gè)子集中選擇一個(gè)最優(yōu)屬性用于劃分。隨機(jī)選擇一個(gè)屬性用于劃分。這樣進(jìn)一步增強(qiáng)了模型的泛化能力.
GBDT通過多輪迭代,每輪迭代產(chǎn)生一個(gè)弱分類器，每輪的分類器是在上一輪分類器的殘差基礎(chǔ)上進(jìn)行訓(xùn)練，每一迭代中根據(jù)錯(cuò)誤更新樣本權(quán)重。
GBDT的思想可以用一個(gè)通俗的例子解釋，假如有個(gè)人30歲，我們首先用20歲去擬合，發(fā)現(xiàn)損失有10歲，這時(shí)我們用6歲去擬合剩下的損失，發(fā)現(xiàn)差距還有4歲，第三輪我們用3歲擬合剩下的差距，差距就只有一歲了。如果我們的迭代輪數(shù)還沒有完，可以繼續(xù)迭代下面，每一輪迭代，擬合的歲數(shù)誤差都會(huì)減小。
隨機(jī)森林是并行方法，GBDT是串行方法。
隨機(jī)森林和GBDT李的弱分類器通常使用的決策樹，從而對(duì)異常值，連續(xù)值，缺失值不敏感。
相對(duì)于決策樹的泛化能力更好，隨機(jī)深林引入隨機(jī)性，而GBDT學(xué)習(xí)上一輪的殘差。

隨機(jī)森林的變種

extra trees

extra trees是RF的一個(gè)變種, 原理幾乎和RF一模一樣，僅有區(qū)別有：
- 1）對(duì)于每個(gè)決策樹的訓(xùn)練集，RF采用的是隨機(jī)采樣bootstrap來(lái)選擇采樣集作為每個(gè)決策樹的訓(xùn)練集，而extra
  trees一般不采用隨機(jī)采樣，即每個(gè)決策樹采用原始訓(xùn)練集。
- 2）在選定了劃分特征后，RF的決策樹會(huì)基于信息增益，基尼系數(shù)，均方差之類的原則，選擇一個(gè)最優(yōu)的特征值劃分
  點(diǎn)，這和傳統(tǒng)的決策樹相同。但是extra trees比較的激進(jìn)，他會(huì)隨機(jī)的選擇一個(gè)特征值來(lái)劃分決策樹。
- 從第二點(diǎn)可以看出，由于隨機(jī)選擇了特征值的劃分點(diǎn)位，而不是最優(yōu)點(diǎn)位，這樣會(huì)導(dǎo)致生成的決策樹的規(guī)模一般會(huì)大
  于RF所生成的決策樹。也就是說(shuō)，模型的方差相對(duì)于RF進(jìn)一步減少，但是偏倚相對(duì)于RF進(jìn)一步增大。在某些時(shí)候，extratrees的泛化能力比RF更好。

Totally Random Trees Embedding

Totally Random Trees Embedding(以下簡(jiǎn)稱 TRTE)是一種非監(jiān)督學(xué)習(xí)的數(shù)據(jù)轉(zhuǎn)化方法。它將低維的數(shù)據(jù)集映射到高維，從而讓映射到高維的數(shù)據(jù)更好的運(yùn)用于分類回歸模型。
我們知道，在支持向量機(jī)中運(yùn)用了核方法來(lái)將低維的數(shù)據(jù)集映射到高維，此處TRTE提供了另外一種方法。
- (1)TRTE在數(shù)據(jù)轉(zhuǎn)化的過程也使用了類似于RF的方法，建立T個(gè)決策樹來(lái)擬合數(shù)據(jù)。
- (2)當(dāng)決策樹建立完畢以后，數(shù)據(jù)集里的每個(gè)數(shù)據(jù)在T個(gè)決策樹中葉子節(jié)點(diǎn)的位置也定下來(lái)了。
- 比如我們有3顆決策樹，每個(gè)決策樹有5個(gè)葉子節(jié)點(diǎn)，某個(gè)數(shù)據(jù)特征劃分到第一個(gè)決策樹的第2個(gè)葉子節(jié)點(diǎn)，第二個(gè)決策樹的第3個(gè)葉子節(jié)點(diǎn)，第三個(gè)決策樹的第5個(gè)葉子節(jié)點(diǎn)。則x映射后的特征編碼為(0,1,0,0,0, 0,0,1,0,0, 0,0,0,0,1), 有15維的高維特征。這里特征維度之間加上空格是為了強(qiáng)調(diào)三顆決策樹各自的子編碼。

3. 如何判斷函數(shù)凸或非凸？什么是凸優(yōu)化？

定義
幾何角度。二階導(dǎo)數(shù)在區(qū)間上非負(fù)，就稱為凸函數(shù)。

4. 如何解決類別不平衡問題？

有些情況下訓(xùn)練集中的樣本分布很不平衡，例如在腫瘤檢測(cè)等問題中，正樣本的個(gè)數(shù)往往非常的少。從線性分類器的角度，在用對(duì)新樣本進(jìn)行分類的時(shí)候，事實(shí)上在用預(yù)測(cè)出的y值和一個(gè)y值進(jìn)行比較。幾率反映了正例可能性和反例可能性的比值，閾值0.5恰好表明分類器認(rèn)為正反的可能性相同。
在樣本不均衡的情況下，應(yīng)該是分類器的預(yù)測(cè)幾率高于觀測(cè)幾率就判斷為正例，因此應(yīng)該是時(shí)預(yù)測(cè)為正例，這種策略稱為rebalancing。

但是訓(xùn)練集并不一定是真實(shí)樣本總體的無(wú)偏采樣，通常有三種做法，

* 權(quán)重法。我們可以對(duì)訓(xùn)練集里的每個(gè)類別加一個(gè)權(quán)重class weight。如果該類別的樣本數(shù)多，那么它的權(quán)重就低，反之則權(quán)重就高。sklearn中，絕大多數(shù)分類算法都有class weight和 sample weight可以使用
* 采樣法常用的也有兩種思路，
    * 一種是對(duì)類別樣本數(shù)多的樣本做欠采樣，直到類別中的樣本數(shù)一致為止。
    * 一種是對(duì)類別樣本數(shù)少的樣本做過采樣, 直到類別中的樣本數(shù)一致為止，最后再去擬合模型。
* SMOTE算法。上述兩種常用的采樣法很簡(jiǎn)單，但是都有個(gè)問題，就是采樣后 改變了訓(xùn)練集的分布，可能導(dǎo)致泛化能力差 。
    * 基本思想是對(duì)少數(shù)類樣本進(jìn)行分析并根據(jù)少數(shù)類樣本人工合成新樣本添加到數(shù)據(jù)集中。比如，該類別的候選合成集合有兩個(gè)樣本（X1,Y1）,(X2,Y2) ,那么SMOTE采樣后，可以得到一個(gè)新的訓(xùn)練樣本((X1+X2)/2,Y1 ).

5. 解釋對(duì)偶的概念。

一個(gè)優(yōu)化問題可以從兩個(gè)角度進(jìn)行考察，一個(gè)是原問題，一個(gè)是對(duì)偶問題。一般情況下對(duì)偶問題給出主問題最優(yōu)值的下界，在強(qiáng)對(duì)偶性成立的情況下由對(duì)偶問題可以得到主問題的最優(yōu)下界，對(duì)偶問題是凸優(yōu)化問題，可以進(jìn)行較好的求解，SVM中就是將primal問題轉(zhuǎn)換為dual問題進(jìn)行求解，從而進(jìn)一步引入核函數(shù)的思想。

6. 如何進(jìn)行特征選擇？

為什么要進(jìn)行特征的選擇

* 首先在現(xiàn)實(shí)任務(wù)中我們會(huì)遇到維數(shù)災(zāi)難的問題(樣本密度非常稀疏)，若能從中選擇一部分特征，那么這個(gè)問題能大大緩解。
    * 維數(shù)災(zāi)難：隨著維數(shù)的增加，算法的效果并沒有更好。
    * （1）維數(shù)增多會(huì)導(dǎo)致樣本密度降低(n個(gè)樣本在邊長(zhǎng)為w的p維空間中，樣本的密度為:n/pow(w,p))，導(dǎo)致結(jié)果容易過擬合。
    * （2）維數(shù)增多會(huì)帶來(lái)高維空間數(shù)據(jù)稀疏化問題(在p維空間中，為了保持k的擬合覆蓋率，需要pow(1/p,x)=k樣本數(shù))，導(dǎo)致結(jié)果容易過擬合。
    * （3）維數(shù)增多樣本遠(yuǎn)離中心點(diǎn)，導(dǎo)致邊緣樣本密集過高，無(wú)法擬合
* 另外就是去除不相關(guān)特征會(huì)降低學(xué)習(xí)任務(wù)的難度，增加模型的泛化能力。

常見的特征選擇方式有過濾式，包裹式和嵌入式，filter,wrapper和embedding。

* Filter。 先對(duì)數(shù)據(jù)集進(jìn)行特征選擇，再訓(xùn)練學(xué)習(xí)器。
    * 特征的方差
    * 相關(guān)系數(shù)。主要用于輸出連續(xù)值的監(jiān)督學(xué)習(xí)算法中
    * 假設(shè)檢驗(yàn)。檢驗(yàn)?zāi)硞€(gè)特征分布和輸出值分布之間的相關(guān)性。有卡方，F(xiàn),T檢驗(yàn)
    * 信息熵。利用決策樹的的思想。
    * 在沒有什么思路的 時(shí)候，可以優(yōu)先使用卡方檢驗(yàn)和互信息來(lái)做特征選擇。
    
* Wrapper。使用一個(gè)機(jī)器學(xué)習(xí)模型來(lái)進(jìn)行多輪訓(xùn)練，每輪訓(xùn)練后，消除若干權(quán)值系數(shù)的對(duì)應(yīng)的特征，再基于新的特征集進(jìn)行下一輪訓(xùn)練。在sklearn中，可以使用RFE函數(shù)來(lái)選擇特征，通常計(jì)算量比較大。
    *  SVM-RFE算法來(lái)討論這個(gè)特征選擇的思路。這個(gè)算法以支持向量機(jī)來(lái)做RFE的機(jī)器學(xué)習(xí)模型選擇特征。它在第一輪           訓(xùn)練的時(shí)候，會(huì)選擇所有的特征來(lái)訓(xùn)練，得到了分類的超平面 后，如果有n個(gè)特征，那么RFE?SVM會(huì)選擇出 中分           量的平方值 最小的那個(gè)序號(hào)i對(duì)應(yīng)的特征，將其排除，在第二類的時(shí)候，特征數(shù)就剩下n-1個(gè)了，我們繼續(xù)用這           n-1個(gè)特征和輸出值來(lái)訓(xùn)練SVM，同樣的，去掉 最小的那個(gè)序號(hào)i對(duì)應(yīng)的特征。以此類推，直到剩下的特征數(shù)滿足           我們的需求為止。
* 嵌入式。它和RFE的區(qū)別是它不是通過不停的篩掉特征來(lái)進(jìn)行訓(xùn)練，而是使用的都是特征全集。在sklearn中，使用SelectFromModel函數(shù)來(lái)選擇特征。例如L1正則化更易于獲得稀疏解，而L2正則化更不容易過擬合。
    *  最常用的是使用L1正則化和L2正則化來(lái)選擇特征。我們講到正則化懲罰項(xiàng)越大，那么模型的系數(shù)就會(huì)越小。當(dāng)正           則化懲罰項(xiàng)大到一定的程度的時(shí)候，部分特征系數(shù)會(huì)變成0，當(dāng)正則化懲罰項(xiàng)繼續(xù)增大到一定程度時(shí)，所有的特           征系數(shù)都會(huì)趨于0. 但是我們會(huì)發(fā)現(xiàn)一部分特征系數(shù)會(huì)更容易先變成0，這部分系數(shù)就是可以篩掉的。也就是說(shuō)，           我們選擇特征系數(shù)較大的特征。常用的L1正則化和L2正則化來(lái)選擇特征的基學(xué)習(xí)器是邏輯回歸
* 尋找高級(jí)特征
    * 若干項(xiàng)特征加和： 我們假設(shè)你希望根據(jù)每日銷售額得到一周銷售額的特征。將最近的7天的銷售額相加得到。
    * 若干項(xiàng)特征之差： 假設(shè)你已經(jīng)擁有每周銷售額以及每月銷售額兩項(xiàng)特征，可以求一周前一月內(nèi)的銷售額。
    * 若干項(xiàng)特征乘積： 假設(shè)你有商品價(jià)格和商品銷量的特征，那么就可以得到銷售額的特征。
    * 若干項(xiàng)特征除商： 假設(shè)你有每個(gè)用戶的銷售額和購(gòu)買的商品件數(shù)，那么就是得到該用戶平均每件商品的銷售額

7. 為什么會(huì)產(chǎn)生過擬合，有哪些方法可以預(yù)防或克服過擬合？

一般在機(jī)器學(xué)習(xí)中，將學(xué)習(xí)器在訓(xùn)練集上的誤差稱為訓(xùn)練誤差，在測(cè)試集上的誤差稱為測(cè)試誤差，在新樣本上的誤差稱為泛化誤差。
顯然我們希望得到泛化誤差小的學(xué)習(xí)器，但是我們事先并不知道新樣本，因此實(shí)際上往往努力使測(cè)試誤差最小化。然而，當(dāng)學(xué)習(xí)器將訓(xùn)練樣本學(xué)的太好的時(shí)候，往往可能把訓(xùn)練樣本自身的特點(diǎn)當(dāng)做了潛在樣本具有的一般性質(zhì)。這樣就會(huì)導(dǎo)致泛化性能下降，稱之為過擬合，相反，欠擬合一般指對(duì)訓(xùn)練樣本的一般性質(zhì)尚未學(xué)習(xí)好，在訓(xùn)練集上仍然有較大的誤差。
欠擬合：一般來(lái)說(shuō)欠擬合更容易解決一些，例如增加模型的復(fù)雜度，增加決策樹中的分支，增加神經(jīng)網(wǎng)絡(luò)中的訓(xùn)練次數(shù)等等。
過擬合：一般認(rèn)為過擬合是無(wú)法徹底避免的，因?yàn)闄C(jī)器學(xué)習(xí)面臨的問題一般是np-hard,所以會(huì)犧牲一些泛化能力。過擬合的解決方案一般有增加樣本數(shù)量，對(duì)樣本進(jìn)行降維，降低模型復(fù)雜度，利用先驗(yàn)知識(shí)(L1,L2正則化)，利用cross-validation，early stopping等等。

8. 什么是偏差與方差？

泛化誤差可以分解成偏差的平方+方差+噪聲。
偏差度量了學(xué)習(xí)算法的期望預(yù)測(cè)和真實(shí)結(jié)果的偏離程度，刻畫了算法的擬合能力。
方差度量了同樣大小的訓(xùn)練集的變動(dòng)所導(dǎo)致的學(xué)習(xí)性能的變化，刻畫了算法的抗干擾能力。
噪聲表達(dá)了當(dāng)前任務(wù)上任何學(xué)習(xí)算法所能達(dá)到的期望泛化誤差下界，刻畫了問題本身的難度。
一般訓(xùn)練程度越強(qiáng)，偏差越小，方差越大，泛化誤差一般在中間有一個(gè)最小值。
如果偏差較大，方差較小，此時(shí)一般稱為欠擬合，而偏差較小，方差較大稱為過擬合。

9. 神經(jīng)網(wǎng)絡(luò)的原理，如何進(jìn)行訓(xùn)練？

一般而言認(rèn)為神經(jīng)網(wǎng)絡(luò)是由單個(gè)的神經(jīng)元和不同神經(jīng)元之間的連接構(gòu)成，不夠的結(jié)構(gòu)組成不同的神經(jīng)網(wǎng)絡(luò)。最常見的神經(jīng)網(wǎng)絡(luò)一般稱為多層前饋神經(jīng)網(wǎng)絡(luò)，除了輸入和輸出層，中間隱藏層的個(gè)數(shù)被稱為神經(jīng)網(wǎng)絡(luò)的層數(shù)。BP算法是訓(xùn)練神經(jīng)網(wǎng)絡(luò)中最著名的算法，其本質(zhì)是梯度下降和鏈?zhǔn)椒▌t。

10. 介紹卷積神經(jīng)網(wǎng)絡(luò)，和 DBN 有什么區(qū)別？

卷積神經(jīng)網(wǎng)絡(luò)的特點(diǎn)是卷積核，CNN中使用了權(quán)共享，通過不斷的上采用和卷積得到不同的特征表示，采樣層又稱為pooling層，基于局部相關(guān)性原理進(jìn)行亞采樣，在減少數(shù)據(jù)量的同時(shí)保持有用的信息。DBN是深度信念網(wǎng)絡(luò)，每一層是一個(gè)RBM，整個(gè)網(wǎng)絡(luò)可以視為RBM堆疊得到，通常使用無(wú)監(jiān)督逐層訓(xùn)練，從第一層開始，每一層利用上一層的輸入進(jìn)行訓(xùn)練，等各層訓(xùn)練結(jié)束之后再利用BP算法對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。

11. 采用 EM 算法求解的模型有哪些，為什么不用牛頓法或梯度下降法？

在一些情況下，我們得到的觀察數(shù)據(jù)有未知的隱含數(shù)據(jù)，此時(shí)我們未知的有隱含數(shù)據(jù)和模型參數(shù)，因而無(wú)法直接用最大似然估計(jì)得到模型分布的參數(shù)。由于求和的項(xiàng)數(shù)將隨著隱變量的數(shù)目指數(shù)上升，會(huì)給梯度計(jì)算帶來(lái)麻煩。
用EM算法求解的模型一般有GMM或者協(xié)同過濾，k-means其實(shí)也屬于EM。
基本思想。既然我們無(wú)法直接求出模型分布參數(shù)，那么我們可以先猜想隱含數(shù)據(jù)（EM算法的E步），接著基于觀察數(shù)據(jù)和猜測(cè)的隱含數(shù)據(jù)一起來(lái)極大化對(duì)數(shù)似然，求解我們的模型參數(shù)（EM算法的M步)。由于我們之前的隱藏?cái)?shù)據(jù)是猜測(cè)的。此時(shí)得到的模型參數(shù)一般還不是我們想要的結(jié)果。不過沒關(guān)系，我們基于當(dāng)前得到的模型參數(shù)，繼續(xù)猜測(cè)隱含數(shù)據(jù)（EM算法的E步），然后繼續(xù)極大化對(duì)數(shù)似然，求解我們的模型參數(shù)（EM算法的M步)。以此類推，不斷的迭代下去，直到模型分布參數(shù)基本無(wú)變化，算法收斂，找到合適的模型參數(shù)。
EM算法可以保證收斂到一個(gè)穩(wěn)定點(diǎn)，但是卻不能保證收斂到全局的極大值點(diǎn)，因此它是局部最優(yōu)的算法，當(dāng)然，如果我們的優(yōu)化目標(biāo)是凸的，則EM算法可以保證收斂到全局最大值，這點(diǎn)和梯度下降法這樣的迭代算法相同。

12. 用 EM 算法推導(dǎo)解釋 Kmeans。

k-means在運(yùn)行之前需要進(jìn)行歸一化處理，不然可能會(huì)因?yàn)闃颖驹谀承┚S度上，數(shù)據(jù)過大導(dǎo)致距離計(jì)算失效。
k-means中每個(gè)樣本所屬的類就可以看成是一個(gè)隱變量，在E步中，我們固定每個(gè)類的中心，通過對(duì)每一個(gè)樣本選擇最近的類來(lái)優(yōu)化目標(biāo)函數(shù)，
在M步，重新更新每個(gè)類的中心點(diǎn)，該步驟可以通過對(duì)目標(biāo)函數(shù)求導(dǎo)實(shí)現(xiàn)，最終可得新的類中心就是類中樣本的均值。

13. 用過哪些聚類算法，解釋密度聚類算法。

K-Means算法.算法思想,對(duì)于給定的樣本集，按照樣本之間的距離大小，將樣本集劃分為K個(gè)簇。讓簇內(nèi)的點(diǎn)盡量緊密的連在一起，而讓簇間的距離盡量的大.
- 初始隨機(jī)給定K個(gè)簇中心，按照最鄰近原則把待分類樣本點(diǎn)分到各個(gè)簇。
- 然后按平均法重新計(jì)算各個(gè)簇的質(zhì)心，從而確定新的簇心。
- 一直迭代，直到簇心的移動(dòng)距離小于某個(gè)給定的值。

初始化優(yōu)化K-Means++。

k個(gè)初始化的質(zhì)心的位置選擇對(duì)最后的聚類結(jié)果和運(yùn)行時(shí)間都有很大的影響，因此需要選擇合適的k個(gè)質(zhì)心。
- a) 從輸入的數(shù)據(jù)點(diǎn)集合中隨機(jī)選擇一個(gè)點(diǎn)作為第一個(gè)聚類中心.
- b) 對(duì)于數(shù)據(jù)集中的每一個(gè)點(diǎn) ，計(jì)算它與聚類中心中最近聚類中心的距離.
- c) 選擇一個(gè)新的數(shù)據(jù)點(diǎn)作為新的聚類中心，選擇的原則是：較大的點(diǎn)，被選取作為聚類中心的概率較大.
- d) 重復(fù)b和c直到選擇出k個(gè)聚類質(zhì)心.
- e) 利用這k個(gè)質(zhì)心來(lái)作為初始化質(zhì)心去運(yùn)行標(biāo)準(zhǔn)的K-Means算法.

距離計(jì)算優(yōu)化elkan K-Means

大樣本優(yōu)化Mini Batch K-Means。

一般是通過隨機(jī)無(wú)放回采樣得到的，為了增加算法的準(zhǔn)確性，一般用不同的隨機(jī)采樣集來(lái)得到聚類簇，選擇其中最優(yōu)的聚類簇。
密度聚類算法的基本思想通過樣本分布的緊密程度決定其類別。同一類別的樣本，他們之間的緊密相連的。將所有各組緊密相連的樣本劃為各個(gè)不同的類別，則我們就得到了最終的所有聚類類別結(jié)果。
密度聚類算法的流程
- (1)任意選擇一個(gè)沒有類別的核心對(duì)象作為種子，然后找到所有這個(gè)核心對(duì)象能夠密度可達(dá)的樣本集合，即為一個(gè)聚類簇。
- (2)繼續(xù)選擇另一個(gè)沒有類別的核心對(duì)象去尋找密度可達(dá)的樣本集合，這樣就得到另一個(gè)聚類簇。
- (3)一直運(yùn)行到所有核心對(duì)象都有類別為止。
DBSCAN最大的不同就是不需要輸入類別數(shù)，可以對(duì)任意形狀的稠密數(shù)據(jù)集進(jìn)行聚類（K-Means之類的聚類算法一般只適用于凸數(shù)據(jù)集）。
對(duì)數(shù)據(jù)集中的異常點(diǎn)不敏感，可以同來(lái)檢測(cè)異常點(diǎn)。如果樣本集的密度不均勻、聚類間距差相差很大時(shí)，聚類質(zhì)量較差，這時(shí)用DBSCAN聚類一般不適合。

14. 解釋貝葉斯公式和樸素貝葉斯分類。

一所學(xué)校里面有 60% 的男生，40% 的女生。男生總是穿長(zhǎng)褲，女生則一半穿長(zhǎng)褲一半穿裙子。然而，假設(shè)你走在校園中，迎面走來(lái)一個(gè)穿長(zhǎng)褲的學(xué)生，你能夠推斷出他（她）是男生的概率是多大嗎？
樸素貝葉斯分類算法利用貝葉斯定理來(lái)預(yù)測(cè)一個(gè)未知類別的樣本屬于各個(gè)類別的可能性，選擇其中可能性最大的一個(gè)類別作為該樣本的最終類別。
特征之間的條件獨(dú)立性假設(shè)，顯然這種假設(shè)不符合實(shí)際，這也是名稱中“樸素”的由來(lái).
容易實(shí)現(xiàn),沒有復(fù)雜的求導(dǎo)和矩陣運(yùn)算，因此效率很高。對(duì)缺失數(shù)據(jù)不太敏感，算法也比較簡(jiǎn)單，常用于文本分類。

15. L1和L2正則化的作用，解釋。

兩者都起到防止過擬合作用。L1偏向于參數(shù)稀疏性，L2偏向于參數(shù)分布較為稠密。
擬合過程中通常都傾向于讓權(quán)值盡可能小，最后構(gòu)造一個(gè)所有參數(shù)都比較小的模型。因?yàn)橐话阏J(rèn)為參數(shù)值小的模型比較簡(jiǎn)單，能適應(yīng)不同的數(shù)據(jù)集，也在一定程度上避免了過擬合現(xiàn)象。
L1正則化可以產(chǎn)生稀疏權(quán)值矩陣，即產(chǎn)生一個(gè)稀疏模型，可以用于特征選擇。
- 稀疏矩陣指的是很多元素為0，只有少數(shù)元素是非零值的矩陣，即得到的線性回歸模型的大部分系數(shù)都是0
L2正則化可以防止模型過擬合（overfitting）；一定程度上，L1也可以防止過擬合。
- 梯度下降法中，求解梯度下降的距離。與L2正則化的迭代公式相比，每一次迭代，θj都要先乘以一個(gè)小于1的因子，從而使得θj不斷減小，因此總得來(lái)看，θ是不斷減小的。

16. KNN和k-means聚類由什么不同？

KNN是一種監(jiān)督學(xué)習(xí)算法，而k-means 是非監(jiān)督的。這兩種算法看起來(lái)很相似，都需要計(jì)算樣本之間的距離。knn算法需要事先已有標(biāo)注好的數(shù)據(jù)，當(dāng)你需要對(duì)未標(biāo)注的數(shù)據(jù)進(jìn)行分類時(shí)，統(tǒng)計(jì)它附近最近的k個(gè)樣本，將其劃分為樣本數(shù)最多的類別中。k-means聚類只需要一些未分類的數(shù)據(jù)點(diǎn)和閥值，算法會(huì)逐漸將樣本點(diǎn)進(jìn)行分成族類。

17. 解釋一下ROC曲線的原理

ROC曲線是真正率（y）和假正率（x）在不同的閥值下之間的圖形表示關(guān)系。通常用作權(quán)衡模型的敏感度與模型對(duì)一個(gè)錯(cuò)誤分類報(bào)警的概率。
真正率表示：（實(shí)際為正例，預(yù)測(cè)為正例）/（實(shí)際為正例）
假正率表示：（實(shí)際為反例，預(yù)測(cè)為正例）/（實(shí)際為反例）
（0，0）點(diǎn)表示所有樣本都被預(yù)測(cè)為負(fù)，此時(shí)閥值很大。
（1，1）點(diǎn)表示所有樣本都被預(yù)測(cè)為正，此時(shí)閥值很小。

18. P-R曲線

P-R曲線就是精確率precision作為縱坐標(biāo)軸,召回率recall作為橫坐標(biāo)軸的曲線。
p表示（實(shí)際為正例，預(yù)測(cè)為正例）/（預(yù)測(cè)為正例）
R表示（實(shí)際為正例，預(yù)測(cè)為正例）/（實(shí)際為正例）

19. 解釋SVM

SVM關(guān)心是那些離超平面很近的點(diǎn)，這些點(diǎn)很容易被誤分類。如果我們可以讓離超平面比較近的點(diǎn)盡可能的遠(yuǎn)離超平面，那么我們的分類效果會(huì)好有一些.
SVM的模型是讓所有點(diǎn)到超平面的距離大于一定的距離，也就是所有的分類點(diǎn)要在各自類別的支持向量?jī)蛇?。用?shù)學(xué)表達(dá)式表示出來(lái)。
然后轉(zhuǎn)化為最優(yōu)化問題，在通過拉格朗日函數(shù)將我優(yōu)化目標(biāo)轉(zhuǎn)化為無(wú)約束的優(yōu)化函數(shù)。在運(yùn)用SMO算法求解參數(shù)。
非線性可分情況，軟間隔，進(jìn)行坐標(biāo)變化。引入核函數(shù)。常見的：多項(xiàng)式核函數(shù)、指數(shù)核函數(shù)、高斯核函數(shù)。

20. 第一類誤差和第二類誤差有什么區(qū)別？

第一類誤差：假設(shè)為真的情況下，作出了拒絕原假設(shè)的一種錯(cuò)誤推斷。
第二類誤差：假設(shè)為假的情況下，做出了接受原假設(shè)的一種錯(cuò)誤判斷。

21. 概率和似然有什么區(qū)別？

概率和似然都是指隨機(jī)事件的可能性，但在統(tǒng)計(jì)學(xué)中，概率和似然有截然不同的用法。
概率描述了已知參數(shù)時(shí)的隨機(jī)變量的輸出結(jié)果；
似然描述了已知隨機(jī)變量輸出結(jié)果時(shí)，未知參數(shù)的可能取值。
我們總是對(duì)隨機(jī)變量的取值談概率，而在非貝葉斯統(tǒng)計(jì)的角度下，參數(shù)是一個(gè)實(shí)數(shù)而非隨機(jī)變量，所以我們一般不談一個(gè)參數(shù)的概率，而說(shuō)似然。

22. 什么是深度學(xué)習(xí)，它與機(jī)器學(xué)習(xí)算法之間有什么聯(lián)系？

深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)子領(lǐng)域，它關(guān)心的是參照神經(jīng)學(xué)科的理論構(gòu)建神經(jīng)網(wǎng)絡(luò)，使用反向傳播對(duì)大量未標(biāo)注或半結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行建模。從這個(gè)角度看，深度學(xué)習(xí)可以看成一種非監(jiān)督學(xué)習(xí)算法，通過使用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)數(shù)據(jù)的表示。

23. 生成模型與判別模型有什么區(qū)別？

生成模型會(huì)學(xué)習(xí)數(shù)據(jù)的分布；判別模型學(xué)習(xí)的是不同類型數(shù)據(jù)之間的區(qū)別，不學(xué)習(xí)數(shù)據(jù)內(nèi)部特點(diǎn)。在分類問題上，判別模型會(huì)優(yōu)于生成模型。
判別模型求解的思路是：條件分布——>模型參數(shù)后驗(yàn)概率最大——->（似然函數(shù)\cdot 參數(shù)先驗(yàn)）最大——->最大似然
生成模型的求解思路是：聯(lián)合分布——->求解類別先驗(yàn)概率和類別條件概率
常見的生成方法有混合高斯模型、樸素貝葉斯法和隱形馬爾科夫模型等，常見的判別方法有SVM、LR等

24 交叉檢驗(yàn)如何用在時(shí)間序列數(shù)據(jù)上？

與標(biāo)準(zhǔn)的k-folds 交叉檢驗(yàn)不同，數(shù)據(jù)不是隨機(jī)分布的，而是具有時(shí)序性的。如果模式出現(xiàn)在后期，模型仍然需要選擇先前時(shí)間的數(shù)據(jù)，盡管前期對(duì)模式無(wú)影響。我們可以如下這么做：
fold1：training[1], test[2]
fold2：training[1 2], test[3]
fold3：training[1 2 3], test[4]
fold4：training[1 2 3 4], test[5]
fold5：training[1 2 3 4 5], test[6]

25. 如何對(duì)決策樹進(jìn)行剪枝（預(yù)剪枝，后剪枝）？

剪枝是決策樹發(fā)生過擬合后，為了降低模型復(fù)雜度，提高模型準(zhǔn)確率的一種做法?？梢苑譃樽陨隙潞妥韵露蟽煞N。
常見的方法有：誤差降低剪枝（REP），悲觀剪枝（PEP）和代價(jià)復(fù)雜度剪枝（CCP）。

REP

* 既然完全的決策樹會(huì)對(duì)訓(xùn)練集產(chǎn)生過度擬合，那么就再找一個(gè)測(cè)試數(shù)據(jù)集來(lái)糾正它。 
* （1）對(duì)于完全決策樹中的每一個(gè)非葉子節(jié)點(diǎn)的子樹，嘗試著把它替換成一個(gè)葉子節(jié)點(diǎn)，該葉子節(jié)點(diǎn)的類別我們用子樹中存在最多的那個(gè)類來(lái)代替，這樣就產(chǎn)生了一個(gè)簡(jiǎn)化決策樹。
* （2）然后比較這兩個(gè)決策樹在測(cè)試數(shù)據(jù)集中的表現(xiàn)，如果簡(jiǎn)化決策樹在測(cè)試數(shù)據(jù)集中的錯(cuò)誤比較少，并且該子樹里面沒有包含另外一個(gè)具有類似特性的子樹，那么該子樹就可以替換成葉子節(jié)點(diǎn)。
* （3）該算法自底而上的方式遍歷所有的子樹，直至沒有任何子樹可以替換時(shí)，算法就可以終止。
* REP方法很直接，但是需要一個(gè)額外的測(cè)試數(shù)據(jù)集，為了解決這個(gè)問題，于是就提出了悲觀剪枝（PEP）。
* 簡(jiǎn)單的來(lái)說(shuō)就是對(duì)樹的每一個(gè)結(jié)點(diǎn)進(jìn)行剪枝，如果剪掉某個(gè)結(jié)點(diǎn)會(huì)提高模型準(zhǔn)確率，那么將其剪掉。

REP方法是一種比較簡(jiǎn)單的后剪枝的方法，在該方法中，可用的數(shù)據(jù)被分成兩個(gè)樣例集合：一個(gè)訓(xùn)練集用來(lái)形成學(xué)習(xí)到的決策樹，一個(gè)分離的驗(yàn)證集用來(lái)評(píng)估這個(gè)決策樹在后續(xù)數(shù)據(jù)上的精度，確切地說(shuō)是用來(lái)評(píng)估修剪這個(gè)決策樹的影響。

* 這個(gè)方法的動(dòng)機(jī)是：即使學(xué)習(xí)器可能會(huì)被訓(xùn)練集中的隨機(jī)錯(cuò)誤和巧合規(guī)律所誤導(dǎo)，但驗(yàn)證集合不大可能表現(xiàn)出同樣的隨機(jī)波動(dòng)。所以驗(yàn)證集可以用來(lái)對(duì)過度擬合訓(xùn)練集中的虛假特征提供防護(hù)檢驗(yàn)。
* 因?yàn)橛?xùn)練集合的過擬合，使得驗(yàn)證集合數(shù)據(jù)能夠?qū)ζ溥M(jìn)行修正，反復(fù)進(jìn)行上面的操作，從底向上的處理結(jié)點(diǎn)，刪除那些能夠最大限度的提高驗(yàn)證集合的精度的結(jié)點(diǎn)，直到進(jìn)一步修剪有害為止(有害是指修剪會(huì)減低驗(yàn)證集合的精度)。
* REP是最簡(jiǎn)單的后剪枝方法之一，不過由于使用獨(dú)立的測(cè)試集，原始決策樹相比，修改后的決策樹可能偏向于過度修剪。這是因?yàn)橐恍┎粫?huì)再測(cè)試集中出現(xiàn)的很稀少的訓(xùn)練集實(shí)例所對(duì)應(yīng)的分枝在剪枝過如果訓(xùn)練集較小，通常不考慮采用REP算法。
* 盡管REP有這個(gè)缺點(diǎn)，不過REP仍然作為一種基準(zhǔn)來(lái)評(píng)價(jià)其它剪枝算法的性能。它對(duì)于兩階段決策樹學(xué)習(xí)方法的優(yōu)點(diǎn)和缺點(diǎn)提供了了一個(gè)很好的學(xué)習(xí)思路。由于驗(yàn)證集合沒有參與決策樹的創(chuàng)建，所以用REP剪枝后的決策樹對(duì)于測(cè)試樣例的偏差要好很多，能夠解決一定程度的過擬合問題。

PEP

ccp

代價(jià)復(fù)雜度選擇節(jié)點(diǎn)表面誤差率增益值最小的非葉子節(jié)點(diǎn)，刪除該非葉子節(jié)點(diǎn)的左右子節(jié)點(diǎn)，若有多個(gè)非葉子節(jié)點(diǎn)的表面誤差率增益值相同小，則選擇非葉子節(jié)點(diǎn)中子節(jié)點(diǎn)數(shù)最多的非葉子節(jié)點(diǎn)進(jìn)行剪枝。

26. 什么是F1數(shù)，怎么使用它？

F1數(shù)是衡量模型性能的一個(gè)指標(biāo)。它是模型精準(zhǔn)率和召回率的加權(quán)平均，1表示最好，0表示最差。在分類問題中有時(shí)精準(zhǔn)率和召回率不會(huì)同時(shí)都高，那么我們可以使用F1數(shù)。

27. 什么時(shí)候你應(yīng)該使用分類而不是回歸？

分類會(huì)產(chǎn)生離散的數(shù)值，使得數(shù)據(jù)嚴(yán)格的分為不同類?；貧w會(huì)得到連續(xù)的值。當(dāng)你需要知道你的數(shù)據(jù)明確的屬于那些類時(shí)你可以用分類。

28. 如何確保你的模型沒有過擬合？

過度擬合的訓(xùn)練數(shù)據(jù)以及數(shù)據(jù)攜帶的噪音，對(duì)于測(cè)試數(shù)據(jù)會(huì)帶來(lái)不確定的推測(cè)。有如下三種方法避免過擬合：
保持模型盡可能地簡(jiǎn)單：通過考量較少的變量和參數(shù)來(lái)減少方差，達(dá)到數(shù)據(jù)中消除部分噪音的效果。
使用交叉檢驗(yàn)的手段如：k-folds cross-validation。
使用正則化的技術(shù)如：LASSO方法來(lái)懲罰模型中可能導(dǎo)致過擬合的參數(shù)。

RF與GBDT之間的區(qū)別

（1）相同點(diǎn)

* 都是由多棵樹組成
* 最終的結(jié)果都是由多棵樹一起決定

（2）不同點(diǎn)

* 組成隨機(jī)森林的樹可以分類樹也可以是回歸樹，而GBDT只由回歸樹組成
* 組成隨機(jī)森林的樹可以并行生成，而GBDT是串行生成
* 隨機(jī)森林的結(jié)果是多數(shù)表決表決的，而GBDT則是多棵樹累加之和
* 隨機(jī)森林對(duì)異常值不敏感，而GBDT對(duì)異常值比較敏感
* 隨機(jī)森林是通過減少模型的方差來(lái)提高性能，而GBDT是減少模型的偏差來(lái)提高性能的
* 隨機(jī)森林不需要進(jìn)行數(shù)據(jù)預(yù)處理，即特征歸一化。而GBDT則需要進(jìn)行特征歸一化

29. GBDT與xgboost的對(duì)比

* xgboost能自動(dòng)利用cpu的多線程，而且適當(dāng)改進(jìn)了gradient boosting，加了剪枝，控制了模型的復(fù)雜程度.
* 傳統(tǒng)GBDT以CART作為基分類器，xgboost還支持線性分類器，這時(shí)xgboost相當(dāng)于帶L1和L2正則化項(xiàng)。
* 傳統(tǒng)GBDT在優(yōu)化時(shí)只用到一階導(dǎo)數(shù)信息，xgboost則對(duì)代價(jià)函數(shù)進(jìn)行了二階泰勒展開，同時(shí)用到了一階和二階導(dǎo)數(shù)。
* xgboost在代價(jià)函數(shù)里加入了正則項(xiàng)，用于控制模型的復(fù)雜度。使學(xué)習(xí)出來(lái)的模型更加簡(jiǎn)單，防止過擬合，這也是xgboost優(yōu)于傳統(tǒng)GBDT的一個(gè)特性。正則項(xiàng)里包含了樹的葉子節(jié)點(diǎn)個(gè)數(shù)。
* 列抽樣（column subsampling）。xgboost借鑒了隨機(jī)森林的做法，支持列抽樣，不僅能降低過擬合，還能減少計(jì)算，這也是xgboost異于傳統(tǒng)gbdt的一個(gè)特性。
*  xgboost工具支持并行。注意xgboost的并行不是tree粒度的并行，xgboost也是一次迭代完才能進(jìn)行下一次迭代的。xgboost的并行是在特征粒度上的。我們知道，決策樹的學(xué)習(xí)最耗時(shí)的一個(gè)步驟就是對(duì)特征的值進(jìn)行排序（因?yàn)橐_定最佳分割點(diǎn)），xgboost在訓(xùn)練之前，預(yù)先對(duì)數(shù)據(jù)進(jìn)行了排序，然后保存為block結(jié)構(gòu)，后面的迭代中重復(fù)地使用這個(gè)結(jié)構(gòu)，大大減小計(jì)算量。這個(gè)block結(jié)構(gòu)也使得并行成為了可能，在進(jìn)行節(jié)點(diǎn)的分裂時(shí)，需要計(jì)算每個(gè)特征的增益，最終選增益最大的那個(gè)特征去做分裂，那么各個(gè)特征的增益計(jì)算就可以開多線程進(jìn)行。
* 可并行的近似直方圖算法。樹節(jié)點(diǎn)在進(jìn)行分裂時(shí)，我們需要計(jì)算每個(gè)特征的每個(gè)分割點(diǎn)對(duì)應(yīng)的增益，即用貪心法枚舉所有可能的分割點(diǎn)。當(dāng)數(shù)據(jù)無(wú)法一次載入內(nèi)存或者在分布式情況下，貪心算法效率就會(huì)變得很低，所以xgboost還提出了一種可并行的近似直方圖算法，用于高效地生成候選的分割點(diǎn)。

*隨機(jī)森林優(yōu)點(diǎn)：對(duì)于很多數(shù)據(jù)集表現(xiàn)良好，精確度較高；不易過擬合；可得到變量的重要性排序；既能處理離散型數(shù)據(jù)，也能處理連續(xù)型數(shù)據(jù)；不需要?dú)w一化；能夠很好的處理缺失數(shù)據(jù)；易并行化。

30. 為什么要?dú)w一化呢？

* 1）歸一化后加快了梯度下降求最優(yōu)解的速度；
* 2）歸一化有可能提高精度。

31. L1范式和L2方式的區(qū)別

（1）L1范式是對(duì)應(yīng)參數(shù)向量絕對(duì)值之和
（2）L1范式具有稀疏性
（3）L1范式可以用來(lái)作為特征選擇，并且可解釋性較強(qiáng)
（4）L2范式是對(duì)應(yīng)參數(shù)向量的平方和，再求平方根
（5）L2范式是為了防止機(jī)器學(xué)習(xí)的過擬合，提升模型的泛化能力

32. 優(yōu)化算法及其優(yōu)缺點(diǎn)

（1）批量梯度下降
- 優(yōu)點(diǎn)：準(zhǔn)確度高
- 缺點(diǎn)：收斂速度較慢
（2）隨機(jī)梯度下降
- 優(yōu)點(diǎn)：收斂速度較快
- 缺點(diǎn)：準(zhǔn)確率低
（3）mini_batch梯度下降
- 綜合隨機(jī)梯度下降和批量梯度下降的優(yōu)缺點(diǎn)，提取的一個(gè)中和的方法。
（4）牛頓法
- 牛頓法在迭代的時(shí)候，需要計(jì)算Hessian矩陣，當(dāng)維度較高的時(shí)候，計(jì)算Hessian矩陣比較困難。
（5）擬牛頓法
- 擬牛頓法是為了改進(jìn)牛頓法在迭代過程中，計(jì)算Hessian矩陣而提取的算法，它采用的方式是通過逼近Hessian的方式來(lái)進(jìn)行求解。
（6）共軛梯度
（7）啟發(fā)式的優(yōu)化算法
- 啟發(fā)式的優(yōu)化算法有遺傳算法，粒子群算法等。這類算法的主要思想就是設(shè)定一個(gè)目標(biāo)函數(shù)，每次迭代根據(jù)相應(yīng)的策略優(yōu)化種群。直到滿足什么樣的條件為止。

33. 坐標(biāo)軸下降法和梯度下降的求極值比較

a) 坐標(biāo)軸下降法在每次迭代中在當(dāng)前點(diǎn)處 沿一個(gè)坐標(biāo)方向進(jìn)行一維搜索，固定其他的坐標(biāo)方向，找到一個(gè)函數(shù)的局部極小值。而梯度下降總是沿著梯度的負(fù)方向求函數(shù)的局部最小值。
b) 坐標(biāo)軸下降優(yōu)化方法是一種非梯度優(yōu)化算法。在整個(gè)過程中依次循環(huán)使用不同的坐標(biāo)方向進(jìn)行迭代，一個(gè)周期的一維搜索迭代過程相當(dāng)于一個(gè)梯度下降的迭代。
c) 梯度下降是利用目標(biāo)函數(shù)的導(dǎo)數(shù)來(lái)確定搜索方向的，該梯度方向可能不與任何坐標(biāo)軸平行。而坐標(biāo)軸下降法法是利用當(dāng)前坐標(biāo)方向進(jìn)行搜索，不需要求目標(biāo)函數(shù)的導(dǎo)數(shù)，只按照某一坐標(biāo)方向進(jìn)行搜索最小值。
d) 兩者都是迭代方法，且每一輪迭代，都需要O(mn)的計(jì)算量(m為樣本數(shù)，n為系數(shù)向量的維度)

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

機(jī)器學(xué)習(xí)面試題

1. SVM、LR、決策樹的對(duì)比？

常見的損失函數(shù)

優(yōu)化函數(shù)角度

2. GBDT 和隨機(jī)森林的區(qū)別？

隨機(jī)森林的變種

extra trees

Totally Random Trees Embedding

3. 如何判斷函數(shù)凸或非凸？什么是凸優(yōu)化？

4. 如何解決類別不平衡問題？

但是訓(xùn)練集并不一定是真實(shí)樣本總體的無(wú)偏采樣，通常有三種做法，

5. 解釋對(duì)偶的概念。

6. 如何進(jìn)行特征選擇？

為什么要進(jìn)行特征的選擇

常見的特征選擇方式有過濾式，包裹式和嵌入式，filter,wrapper和embedding。

7. 為什么會(huì)產(chǎn)生過擬合，有哪些方法可以預(yù)防或克服過擬合？

8. 什么是偏差與方差？

9. 神經(jīng)網(wǎng)絡(luò)的原理，如何進(jìn)行訓(xùn)練？

10. 介紹卷積神經(jīng)網(wǎng)絡(luò)，和 DBN 有什么區(qū)別？

11. 采用 EM 算法求解的模型有哪些，為什么不用牛頓法或梯度下降法？

12. 用 EM 算法推導(dǎo)解釋 Kmeans。

13. 用過哪些聚類算法，解釋密度聚類算法。

初始化優(yōu)化K-Means++。