1. SVM、LR、決策樹的對(duì)比?
- LR實(shí)現(xiàn)簡(jiǎn)單,訓(xùn)練速度非???,但是模型較為簡(jiǎn)單。
- 決策樹容易過擬合,需要進(jìn)行剪枝等。
- SVM既可以用于分類問題,也可以用于回歸問題,并且可以通過核函數(shù)快速的計(jì)算,
常見的損失函數(shù)
- 常見的損失誤差有五種:
- 鉸鏈損失(Hinge Loss):主要用于支持向量機(jī)(SVM) 中;
-
- 互熵?fù)p失 (Cross Entropy Loss,Softmax Loss ):用于Logistic 回歸與Softmax 分類中;
- 邏輯回歸的損失函數(shù):假設(shè)樣本服從伯努利分布(0-1分布),然后求得滿足該分布的似然函數(shù),接著取對(duì)數(shù)求極值等
-
- 平方損失(Square Loss):主要是最小二乘法(OLS)中;
- 平方損失函數(shù):假設(shè)樣本的誤差項(xiàng)是白噪聲,在正態(tài)分布的條件下推導(dǎo)得到。
- 指數(shù)損失(Exponential Loss) :主要用于Adaboost 集成學(xué)習(xí)算法中;
- 其他損失(如0-1損失,絕對(duì)值損失)
優(yōu)化函數(shù)角度
- soft margin(軟間隔)的SVM用的是hinge loss,
- 軟間隔:現(xiàn)實(shí)中很容易出現(xiàn)一個(gè)沒辦法把點(diǎn)嚴(yán)格區(qū)分的情況。那么如果我們想用svm處理這個(gè)問題,就想辦法讓svm能容忍這種錯(cuò)誤,具體做法就是在目標(biāo)函數(shù)添加錯(cuò)誤累加項(xiàng),然后加一個(gè)系數(shù)C,控制對(duì)錯(cuò)誤的容忍度,并且在約束中添加錯(cuò)誤容忍度的約束。如果對(duì)偶化處理得到的軟svm問題和之前的svm問題相比,各個(gè)α多了上界C(之前只要大于等于0就行了)。
- hing loss:鉸鏈損失,用來(lái)解決間距最大化的問題,如果被正確分類,損失是0,否則損失就是 1?Mi(w)。
- 帶L2正則化的LR對(duì)應(yīng)的是cross entropy loss,另外adaboost對(duì)應(yīng)的是exponential loss。
- LR的訓(xùn)練速度要高于SVM。
- LR對(duì)異常點(diǎn)敏感,SVM和決策樹對(duì)異常點(diǎn)不太敏感,因?yàn)橹魂P(guān)心support vector;
- LR和SVM對(duì)缺失值都很敏感,決策樹對(duì)缺失值不敏感(葉子節(jié)點(diǎn)投票解決)。
- LR可以預(yù)測(cè)概率,而SVM不可以,SVM依賴于數(shù)據(jù)測(cè)度,需要先做歸一化,LR一般不需要。
- SVM可以將特征映射到無(wú)窮維空間,但是LR不可以,一般小數(shù)據(jù)中SVM比LR更優(yōu)一點(diǎn)。
2. GBDT 和隨機(jī)森林的區(qū)別?
Bagging + 決策樹(CART) = 隨機(jī)森林
Boostin + 決策樹(CART回歸樹) = GBDT
隨機(jī)森林采用的是bagging的思想,bagging又稱為bootstrap aggreagation,通過在訓(xùn)練樣本集中進(jìn)行有放回的采樣得到多個(gè)采樣集,基于每個(gè)采樣集訓(xùn)練出一個(gè)基學(xué)習(xí)器,再將基學(xué)習(xí)器結(jié)合。
Bagging + 決策樹 = 隨機(jī)森林
隨機(jī)森林(Random Forest,簡(jiǎn)稱RF)是Bagging的一個(gè)擴(kuò)展變體。 RF在以決策樹為基學(xué)習(xí)器構(gòu)建Bagging集成的基礎(chǔ)上,進(jìn)一步在決策樹的訓(xùn)練過程中引入了隨機(jī)屬性選擇。具體來(lái)說(shuō),傳統(tǒng)決策樹在選擇劃分屬性時(shí)是在當(dāng)前結(jié)點(diǎn)的屬性集合(假定有d個(gè)屬性)中選擇一個(gè)最優(yōu)屬性;而在RF中,對(duì)基決策樹的每個(gè)結(jié)點(diǎn),先從該結(jié)點(diǎn)的屬性集合中隨機(jī)選擇一個(gè)包含k個(gè)屬性的子集,然后再?gòu)倪@個(gè)子集中選擇一個(gè)最優(yōu)屬性用于劃分。隨機(jī)選擇一個(gè)屬性用于劃分。這樣進(jìn)一步增強(qiáng)了模型的泛化能力.
GBDT通過多輪迭代,每輪迭代產(chǎn)生一個(gè)弱分類器,每輪的分類器是在上一輪分類器的殘差基礎(chǔ)上進(jìn)行訓(xùn)練,每一迭代中根據(jù)錯(cuò)誤更新樣本權(quán)重。
GBDT的思想可以用一個(gè)通俗的例子解釋,假如有個(gè)人30歲,我們首先用20歲去擬合,發(fā)現(xiàn)損失有10歲,這時(shí)我們用6歲去擬合剩下的損失,發(fā)現(xiàn)差距還有4歲,第三輪我們用3歲擬合剩下的差距,差距就只有一歲了。如果我們的迭代輪數(shù)還沒有完,可以繼續(xù)迭代下面,每一輪迭代,擬合的歲數(shù)誤差都會(huì)減小。
隨機(jī)森林是并行方法,GBDT是串行方法。
隨機(jī)森林和GBDT李的弱分類器通常使用的決策樹,從而對(duì)異常值,連續(xù)值,缺失值不敏感。
相對(duì)于決策樹的泛化能力更好,隨機(jī)深林引入隨機(jī)性,而GBDT學(xué)習(xí)上一輪的殘差。
隨機(jī)森林的變種
extra trees
- extra trees是RF的一個(gè)變種, 原理幾乎和RF一模一樣,僅有區(qū)別有:
- 1) 對(duì)于每個(gè)決策樹的訓(xùn)練集,RF采用的是隨機(jī)采樣bootstrap來(lái)選擇采樣集作為每個(gè)決策樹的訓(xùn)練集,而extra
trees一般不采用隨機(jī)采樣,即每個(gè)決策樹采用原始訓(xùn)練集。 - 2) 在選定了劃分特征后,RF的決策樹會(huì)基于信息增益,基尼系數(shù),均方差之類的原則,選擇一個(gè)最優(yōu)的特征值劃分
點(diǎn),這和傳統(tǒng)的決策樹相同。但是extra trees比較的激進(jìn),他會(huì)隨機(jī)的選擇一個(gè)特征值來(lái)劃分決策樹。 - 從第二點(diǎn)可以看出,由于隨機(jī)選擇了特征值的劃分點(diǎn)位,而不是最優(yōu)點(diǎn)位,這樣會(huì)導(dǎo)致生成的決策樹的規(guī)模一般會(huì)大
于RF所生成的決策樹。也就是說(shuō),模型的方差相對(duì)于RF進(jìn)一步減少,但是偏倚相對(duì)于RF進(jìn)一步增大。在某些時(shí)候,extratrees的泛化能力比RF更好。
- 1) 對(duì)于每個(gè)決策樹的訓(xùn)練集,RF采用的是隨機(jī)采樣bootstrap來(lái)選擇采樣集作為每個(gè)決策樹的訓(xùn)練集,而extra
Totally Random Trees Embedding
- Totally Random Trees Embedding(以下簡(jiǎn)稱 TRTE)是一種非監(jiān)督學(xué)習(xí)的數(shù)據(jù)轉(zhuǎn)化方法。它將低維的數(shù)據(jù)集映射到高維,從而讓映射到高維的數(shù)據(jù)更好的運(yùn)用于分類回歸模型。
- 我們知道,在支持向量機(jī)中運(yùn)用了核方法來(lái)將低維的數(shù)據(jù)集映射到高維,此處TRTE提供了另外一種方法。
- (1)TRTE在數(shù)據(jù)轉(zhuǎn)化的過程也使用了類似于RF的方法,建立T個(gè)決策樹來(lái)擬合數(shù)據(jù)。
- (2)當(dāng)決策樹建立完畢以后,數(shù)據(jù)集里的每個(gè)數(shù)據(jù)在T個(gè)決策樹中葉子節(jié)點(diǎn)的位置也定下來(lái)了。
- 比如我們有3顆決策樹,每個(gè)決策樹有5個(gè)葉子節(jié)點(diǎn),某個(gè)數(shù)據(jù)特征 劃分到第一個(gè)決策樹的第2個(gè)葉子節(jié)點(diǎn),第二個(gè)決策樹的第3個(gè)葉子節(jié)點(diǎn),第三個(gè)決策 樹的第5個(gè)葉子節(jié)點(diǎn)。則x映射后的特征編碼為(0,1,0,0,0, 0,0,1,0,0, 0,0,0,0,1), 有15維的高維特征。這里特征維度之間加上空格是為了強(qiáng)調(diào)三顆決 策樹各自的子編碼。
3. 如何判斷函數(shù)凸或非凸?什么是凸優(yōu)化?
- 定義
- 幾何角度。二階導(dǎo)數(shù)在區(qū)間上非負(fù),就稱為凸函數(shù)。
4. 如何解決類別不平衡問題?
- 有些情況下訓(xùn)練集中的樣本分布很不平衡,例如在腫瘤檢測(cè)等問題中,正樣本的個(gè)數(shù)往往非常的少。從線性分類器的角度,在用對(duì)新樣本進(jìn)行分類的時(shí)候,事實(shí)上在用預(yù)測(cè)出的y值和一個(gè)y值進(jìn)行比較。幾率反映了正例可能性和反例可能性的比值,閾值0.5恰好表明分類器認(rèn)為正反的可能性相同。
- 在樣本不均衡的情況下,應(yīng)該是分類器的預(yù)測(cè)幾率高于觀測(cè)幾率就判斷為正例,因此應(yīng)該是時(shí)預(yù)測(cè)為正例,這種策略稱為rebalancing。
但是訓(xùn)練集并不一定是真實(shí)樣本總體的無(wú)偏采樣,通常有三種做法,
* 權(quán)重法。我們可以對(duì)訓(xùn)練集里的每個(gè)類別加一個(gè)權(quán)重class weight。如果該類別的樣本數(shù)多,那么它的權(quán)重就低,反之則權(quán)重就高。sklearn中,絕大多數(shù)分類算法都有class weight和 sample weight可以使用
* 采樣法常用的也有兩種思路,
* 一種是對(duì)類別樣本數(shù)多的樣本做欠采樣,直到類別中的樣本數(shù)一致為止。
* 一種是對(duì)類別樣本數(shù)少的樣本做過采樣, 直到類別中的樣本數(shù)一致為止,最后再去擬合模型。
* SMOTE算法。上述兩種常用的采樣法很簡(jiǎn)單,但是都有個(gè)問題,就是采樣后 改變了訓(xùn)練集的分布,可能導(dǎo)致泛化能力差 。
* 基本思想是對(duì)少數(shù)類樣本進(jìn)行分析并根據(jù)少數(shù)類樣本人工合成新樣本添加到數(shù)據(jù)集中。比如,該類別的候選合成集合有兩個(gè)樣本(X1,Y1),(X2,Y2) ,那么SMOTE采樣后,可以得到一個(gè)新的訓(xùn)練樣本((X1+X2)/2,Y1 ).
5. 解釋對(duì)偶的概念。
- 一個(gè)優(yōu)化問題可以從兩個(gè)角度進(jìn)行考察,一個(gè)是原問題,一個(gè)是對(duì)偶問題。一般情況下對(duì)偶問題給出主問題最優(yōu)值的下界,在強(qiáng)對(duì)偶性成立的情況下由對(duì)偶問題可以得到主問題的最優(yōu)下界,對(duì)偶問題是凸優(yōu)化問題,可以進(jìn)行較好的求解,SVM中就是將primal問題轉(zhuǎn)換為dual問題進(jìn)行求解,從而進(jìn)一步引入核函數(shù)的思想。
6. 如何進(jìn)行特征選擇?
為什么要進(jìn)行特征的選擇
* 首先在現(xiàn)實(shí)任務(wù)中我們會(huì)遇到維數(shù)災(zāi)難的問題(樣本密度非常稀疏),若能從中選擇一部分特征,那么這個(gè)問題能大大緩解。
* 維數(shù)災(zāi)難:隨著維數(shù)的增加,算法的效果并沒有更好。
* (1)維數(shù)增多會(huì)導(dǎo)致樣本密度降低(n個(gè)樣本在邊長(zhǎng)為w的p維空間中,樣本的密度為:n/pow(w,p)),導(dǎo)致結(jié)果容易過擬合。
* (2)維數(shù)增多會(huì)帶來(lái)高維空間數(shù)據(jù)稀疏化問題(在p維空間中,為了保持k的擬合覆蓋率,需要pow(1/p,x)=k樣本數(shù)),導(dǎo)致結(jié)果容易過擬合。
* (3)維數(shù)增多樣本遠(yuǎn)離中心點(diǎn),導(dǎo)致邊緣樣本密集過高,無(wú)法擬合
* 另外就是去除不相關(guān)特征會(huì)降低學(xué)習(xí)任務(wù)的難度,增加模型的泛化能力。
常見的特征選擇方式有過濾式,包裹式和嵌入式,filter,wrapper和embedding。
* Filter。 先對(duì)數(shù)據(jù)集進(jìn)行特征選擇,再訓(xùn)練學(xué)習(xí)器。
* 特征的方差
* 相關(guān)系數(shù)。主要用于輸出連續(xù)值的監(jiān)督學(xué)習(xí)算法中
* 假設(shè)檢驗(yàn)。檢驗(yàn)?zāi)硞€(gè)特征分布和輸出值分布之間的相關(guān)性。有卡方,F(xiàn),T檢驗(yàn)
* 信息熵。利用決策樹的的思想。
* 在沒有什么思路的 時(shí)候,可以優(yōu)先使用卡方檢驗(yàn)和互信息來(lái)做特征選擇。
* Wrapper。使用一個(gè)機(jī)器學(xué)習(xí)模型來(lái)進(jìn)行多輪訓(xùn)練,每輪訓(xùn)練后,消除若干權(quán)值系數(shù)的對(duì)應(yīng)的特征,再基于新的特征集進(jìn)行下一輪訓(xùn)練。在sklearn中,可以使用RFE函數(shù)來(lái)選擇特征,通常計(jì)算量比較大。
* SVM-RFE算法來(lái)討論這個(gè)特征選擇的思路。這個(gè)算法以支持向量機(jī)來(lái)做RFE的機(jī)器學(xué)習(xí)模型選擇特征。它在第一輪 訓(xùn)練的時(shí)候,會(huì)選擇所有的特征來(lái)訓(xùn)練,得到了分類的超平面 后,如果有n個(gè)特征,那么RFE?SVM會(huì)選擇出 中分 量的平方值 最小的那個(gè)序號(hào)i對(duì)應(yīng)的特征,將其排除,在第二類的時(shí)候,特征數(shù)就剩下n-1個(gè)了,我們繼續(xù)用這 n-1個(gè)特征和輸出值來(lái)訓(xùn)練SVM,同樣的,去掉 最小的那個(gè)序號(hào)i對(duì)應(yīng)的特征。以此類推,直到剩下的特征數(shù)滿足 我們的需求為止。
* 嵌入式。它和RFE的區(qū)別是它不是通過不停的篩掉特征來(lái)進(jìn)行訓(xùn)練,而是使用的都是特征全集。在sklearn中,使用SelectFromModel函數(shù)來(lái)選擇特征。例如L1正則化更易于獲得稀疏解,而L2正則化更不容易過擬合。
* 最常用的是使用L1正則化和L2正則化來(lái)選擇特征。我們講到正則化懲罰項(xiàng)越大,那么模型的系數(shù)就會(huì)越小。當(dāng)正 則化懲罰項(xiàng)大到一定的程度的時(shí)候,部分特征系數(shù)會(huì)變成0,當(dāng)正則化懲罰項(xiàng)繼續(xù)增大到一定程度時(shí),所有的特 征系數(shù)都會(huì)趨于0. 但是我們會(huì)發(fā)現(xiàn)一部分特征系數(shù)會(huì)更容易先變成0,這部分系數(shù)就是可以篩掉的。也就是說(shuō), 我們選擇特征系數(shù)較大的特征。常用的L1正則化和L2正則化來(lái)選擇特征的基學(xué)習(xí)器是邏輯回歸
* 尋找高級(jí)特征
* 若干項(xiàng)特征加和: 我們假設(shè)你希望根據(jù)每日銷售額得到一周銷售額的特征。將最近的7天的銷售額相加得到。
* 若干項(xiàng)特征之差: 假設(shè)你已經(jīng)擁有每周銷售額以及每月銷售額兩項(xiàng)特征,可以求一周前一月內(nèi)的銷售額。
* 若干項(xiàng)特征乘積: 假設(shè)你有商品價(jià)格和商品銷量的特征,那么就可以得到銷售額的特征。
* 若干項(xiàng)特征除商: 假設(shè)你有每個(gè)用戶的銷售額和購(gòu)買的商品件數(shù),那么就是得到該用戶平均每件商品的銷售額
7. 為什么會(huì)產(chǎn)生過擬合,有哪些方法可以預(yù)防或克服過擬合?
一般在機(jī)器學(xué)習(xí)中,將學(xué)習(xí)器在訓(xùn)練集上的誤差稱為訓(xùn)練誤差,在測(cè)試集上的誤差稱為測(cè)試誤差,在新樣本上的誤差稱為泛化誤差。
顯然我們希望得到泛化誤差小的學(xué)習(xí)器,但是我們事先并不知道新樣本,因此實(shí)際上往往努力使測(cè)試誤差最小化。然而,當(dāng)學(xué)習(xí)器將訓(xùn)練樣本學(xué)的太好的時(shí)候,往往可能把訓(xùn)練樣本自身的特點(diǎn)當(dāng)做了潛在樣本具有的一般性質(zhì)。這樣就會(huì)導(dǎo)致泛化性能下降,稱之為過擬合,相反,欠擬合一般指對(duì)訓(xùn)練樣本的一般性質(zhì)尚未學(xué)習(xí)好,在訓(xùn)練集上仍然有較大的誤差。
欠擬合:一般來(lái)說(shuō)欠擬合更容易解決一些,例如增加模型的復(fù)雜度,增加決策樹中的分支,增加神經(jīng)網(wǎng)絡(luò)中的訓(xùn)練次數(shù)等等。
過擬合:一般認(rèn)為過擬合是無(wú)法徹底避免的,因?yàn)闄C(jī)器學(xué)習(xí)面臨的問題一般是np-hard,所以會(huì)犧牲一些泛化能力。過擬合的解決方案一般有增加樣本數(shù)量,對(duì)樣本進(jìn)行降維,降低模型復(fù)雜度,利用先驗(yàn)知識(shí)(L1,L2正則化),利用cross-validation,early stopping等等。
8. 什么是偏差與方差?
- 泛化誤差可以分解成偏差的平方+方差+噪聲。
- 偏差度量了學(xué)習(xí)算法的期望預(yù)測(cè)和真實(shí)結(jié)果的偏離程度,刻畫了算法的擬合能力。
- 方差度量了同樣大小的訓(xùn)練集的變動(dòng)所導(dǎo)致的學(xué)習(xí)性能的變化,刻畫了算法的抗干擾能力。
- 噪聲表達(dá)了當(dāng)前任務(wù)上任何學(xué)習(xí)算法所能達(dá)到的期望泛化誤差下界,刻畫了問題本身的難度。
- 一般訓(xùn)練程度越強(qiáng),偏差越小,方差越大,泛化誤差一般在中間有一個(gè)最小值。
- 如果偏差較大,方差較小,此時(shí)一般稱為欠擬合,而偏差較小,方差較大稱為過擬合。
9. 神經(jīng)網(wǎng)絡(luò)的原理,如何進(jìn)行訓(xùn)練?
- 一般而言認(rèn)為神經(jīng)網(wǎng)絡(luò)是由單個(gè)的神經(jīng)元和不同神經(jīng)元之間的連接構(gòu)成,不夠的結(jié)構(gòu)組成不同的神經(jīng)網(wǎng)絡(luò)。最常見的神經(jīng)網(wǎng)絡(luò)一般稱為多層前饋神經(jīng)網(wǎng)絡(luò),除了輸入和輸出層,中間隱藏層的個(gè)數(shù)被稱為神經(jīng)網(wǎng)絡(luò)的層數(shù)。BP算法是訓(xùn)練神經(jīng)網(wǎng)絡(luò)中最著名的算法,其本質(zhì)是梯度下降和鏈?zhǔn)椒▌t。
10. 介紹卷積神經(jīng)網(wǎng)絡(luò),和 DBN 有什么區(qū)別?
- 卷積神經(jīng)網(wǎng)絡(luò)的特點(diǎn)是卷積核,CNN中使用了權(quán)共享,通過不斷的上采用和卷積得到不同的特征表示,采樣層又稱為pooling層,基于局部相關(guān)性原理進(jìn)行亞采樣,在減少數(shù)據(jù)量的同時(shí)保持有用的信息。DBN是深度信念網(wǎng)絡(luò),每一層是一個(gè)RBM,整個(gè)網(wǎng)絡(luò)可以視為RBM堆疊得到,通常使用無(wú)監(jiān)督逐層訓(xùn)練,從第一層開始,每一層利用上一層的輸入進(jìn)行訓(xùn)練,等各層訓(xùn)練結(jié)束之后再利用BP算法對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
11. 采用 EM 算法求解的模型有哪些,為什么不用牛頓法或梯度下降法?
在一些情況下,我們得到的觀察數(shù)據(jù)有未知的隱含數(shù)據(jù),此時(shí)我們未知的有隱含數(shù)據(jù)和模型參數(shù),因而無(wú)法直接用最大似然估計(jì)得到模型分布的參數(shù)。由于求和的項(xiàng)數(shù)將隨著隱變量的數(shù)目指數(shù)上升,會(huì)給梯度計(jì)算帶來(lái)麻煩。
用EM算法求解的模型一般有GMM或者協(xié)同過濾,k-means其實(shí)也屬于EM。
基本思想。既然我們無(wú)法直接求出模型分布參數(shù),那么我們可以先猜想隱含數(shù)據(jù)(EM算法的E步),接著基于觀察數(shù)據(jù)和猜測(cè)的隱含數(shù)據(jù)一起來(lái)極大化對(duì)數(shù)似然,求解我們的模型參數(shù)(EM算法的M步)。由于我們之前的隱藏?cái)?shù)據(jù)是猜測(cè)的。此時(shí)得到的模型參數(shù)一般還不是我們想要的結(jié)果。不過沒關(guān)系,我們基于當(dāng)前得到的模型參數(shù),繼續(xù)猜測(cè)隱含數(shù)據(jù)(EM算法的E步),然后繼續(xù)極大化對(duì)數(shù)似然,求解我們的模型參數(shù)(EM算法的M步)。以此類推,不斷的迭代下去,直到模型分布參數(shù)基本無(wú)變化,算法收斂,找到合適的模型參數(shù)。
EM算法可以保證收斂到一個(gè)穩(wěn)定點(diǎn),但是卻不能保證收斂到全局的極大值點(diǎn),因此它是局部最優(yōu)的算法,當(dāng)然,如果我們的優(yōu)化目標(biāo)是凸的,則EM算法可以保證收斂到全局最大值,這點(diǎn)和梯度下降法這樣的迭代算法相同。
12. 用 EM 算法推導(dǎo)解釋 Kmeans。
- k-means在運(yùn)行之前需要進(jìn)行歸一化處理,不然可能會(huì)因?yàn)闃颖驹谀承┚S度上,數(shù)據(jù)過大導(dǎo)致距離計(jì)算失效。
- k-means中每個(gè)樣本所屬的類就可以看成是一個(gè)隱變量,在E步中,我們固定每個(gè)類的中心,通過對(duì)每一個(gè)樣本選擇最近的類來(lái)優(yōu)化目標(biāo)函數(shù),
- 在M步,重新更新每個(gè)類的中心點(diǎn),該步驟可以通過對(duì)目標(biāo)函數(shù)求導(dǎo)實(shí)現(xiàn),最終可得新的類中心就是類中樣本的均值。
13. 用過哪些聚類算法,解釋密度聚類算法。
- K-Means算法.算法思想,對(duì)于給定的樣本集,按照樣本之間的距離大小,將樣本集劃分為K個(gè)簇。讓簇內(nèi)的點(diǎn)盡量緊密的連在一起,而讓簇間的距離盡量的大.
- 初始隨機(jī)給定K個(gè)簇中心, 按照最鄰近原則把待分類樣本點(diǎn)分到各個(gè)簇。
- 然后按平均法重新計(jì)算各個(gè)簇的質(zhì)心, 從而確定新的簇心。
- 一直迭代, 直到簇心的移動(dòng)距離小于某個(gè)給定的值。
初始化優(yōu)化K-Means++。
- k個(gè)初始化的質(zhì)心的位置選擇對(duì)最后的聚類結(jié)果和運(yùn)行時(shí)間都有很大的影響,因此需要選擇合適的k個(gè)質(zhì)心。
- a) 從輸入的數(shù)據(jù)點(diǎn)集合中隨機(jī)選擇一個(gè)點(diǎn)作為第一個(gè)聚類中心.
- b) 對(duì)于數(shù)據(jù)集中的每一個(gè)點(diǎn) ,計(jì)算它與聚類中心中最近聚類中心的距離.
- c) 選擇一個(gè)新的數(shù)據(jù)點(diǎn)作為新的聚類中心,選擇的原則是: 較大的點(diǎn),被選取作為聚類中心的概率較大.
- d) 重復(fù)b和c直到選擇出k個(gè)聚類質(zhì)心.
- e) 利用這k個(gè)質(zhì)心來(lái)作為初始化質(zhì)心去運(yùn)行標(biāo)準(zhǔn)的K-Means算法.
距離計(jì)算優(yōu)化elkan K-Means
大樣本優(yōu)化Mini Batch K-Means。
一般是通過隨機(jī)無(wú)放回采樣得到的,為了增加算法的準(zhǔn)確性,一般用不同的隨機(jī)采樣集來(lái)得到聚類簇,選擇其中最優(yōu)的聚類簇。
密度聚類算法的基本思想通過樣本分布的緊密程度決定其類別。同一類別的樣本,他們之間的緊密相連的。將所有各組緊密相連的樣本劃為各個(gè)不同的類別,則我們就得到了最終的所有聚類類別結(jié)果。
-
密度聚類算法的流程
- (1)任意選擇一個(gè)沒有類別的核心對(duì)象作為種子,然后找到所有這個(gè)核心對(duì)象能夠密度可達(dá)的樣本集合,即為一個(gè)聚類簇。
- (2)繼續(xù)選擇另一個(gè)沒有類別的核心對(duì)象去尋找密度可達(dá)的樣本集合,這樣就得到另一個(gè)聚類簇。
- (3)一直運(yùn)行到所有核心對(duì)象都有類別為止。
DBSCAN最大的不同就是不需要輸入類別數(shù),可以對(duì)任意形狀的稠密數(shù)據(jù)集進(jìn)行聚類(K-Means之類的聚類算法一般只適用于凸數(shù)據(jù)集)。
對(duì)數(shù)據(jù)集中的異常點(diǎn)不敏感,可以同來(lái)檢測(cè)異常點(diǎn)。如果樣本集的密度不均勻、聚類間距差相差很大時(shí),聚類質(zhì)量較差,這時(shí)用DBSCAN聚類一般不適合。
14. 解釋貝葉斯公式和樸素貝葉斯分類。
一所學(xué)校里面有 60% 的男生,40% 的女生。男生總是穿長(zhǎng)褲,女生則一半穿長(zhǎng)褲一半穿裙子。然而,假設(shè)你走在校園中,迎面走來(lái)一個(gè)穿長(zhǎng)褲的學(xué)生,你能夠推斷出他(她)是男生的概率是多大嗎?
樸素貝葉斯分類算法利用貝葉斯定理來(lái)預(yù)測(cè)一個(gè)未知類別的樣本屬于各個(gè)類別的可能性,選擇其中可能性最大的一個(gè)類別作為該樣本的最終類別。
特征之間的條件獨(dú)立性假設(shè),顯然這種假設(shè)不符合實(shí)際,這也是名稱中“樸素”的由來(lái).
容易實(shí)現(xiàn),沒有復(fù)雜的求導(dǎo)和矩陣運(yùn)算,因此效率很高。對(duì)缺失數(shù)據(jù)不太敏感,算法也比較簡(jiǎn)單,常用于文本分類。
15. L1和L2正則化的作用,解釋。
兩者都起到防止過擬合作用。L1偏向于參數(shù)稀疏性,L2偏向于參數(shù)分布較為稠密。
擬合過程中通常都傾向于讓權(quán)值盡可能小,最后構(gòu)造一個(gè)所有參數(shù)都比較小的模型。因?yàn)橐话阏J(rèn)為參數(shù)值小的模型比較簡(jiǎn)單,能適應(yīng)不同的數(shù)據(jù)集,也在一定程度上避免了過擬合現(xiàn)象。
-
L1正則化可以產(chǎn)生稀疏權(quán)值矩陣,即產(chǎn)生一個(gè)稀疏模型,可以用于特征選擇。
- 稀疏矩陣指的是很多元素為0,只有少數(shù)元素是非零值的矩陣,即得到的線性回歸模型的大部分系數(shù)都是0
-
L2正則化可以防止模型過擬合(overfitting);一定程度上,L1也可以防止過擬合。
- 梯度下降法中,求解梯度下降的距離。與L2正則化的迭代公式相比,每一次迭代,θj都要先乘以一個(gè)小于1的因子,從而使得θj不斷減小,因此總得來(lái)看,θ是不斷減小的。
16. KNN和k-means聚類由什么不同?
- KNN是一種監(jiān)督學(xué)習(xí)算法,而k-means 是非監(jiān)督的。這兩種算法看起來(lái)很相似,都需要計(jì)算樣本之間的距離。knn算法需要事先已有標(biāo)注好的數(shù)據(jù),當(dāng)你需要對(duì)未標(biāo)注的數(shù)據(jù)進(jìn)行分類時(shí),統(tǒng)計(jì)它附近最近的k個(gè)樣本,將其劃分為樣本數(shù)最多的類別中。k-means聚類只需要一些未分類的數(shù)據(jù)點(diǎn)和閥值,算法會(huì)逐漸將樣本點(diǎn)進(jìn)行分成族類。
17. 解釋一下ROC曲線的原理
- ROC曲線是真正率(y)和假正率(x)在不同的閥值下之間的圖形表示關(guān)系。通常用作權(quán)衡模型的敏感度與模型對(duì)一個(gè)錯(cuò)誤分類報(bào)警的概率。
- 真正率表示:(實(shí)際為正例,預(yù)測(cè)為正例 )/(實(shí)際為正例)
- 假正率表示:(實(shí)際為反例,預(yù)測(cè)為正例 )/(實(shí)際為反例)
- (0,0)點(diǎn)表示所有樣本都被預(yù)測(cè)為負(fù),此時(shí)閥值很大。
- (1,1)點(diǎn)表示所有樣本都被預(yù)測(cè)為正,此時(shí)閥值很小。
18. P-R曲線
- P-R曲線就是精確率precision作為縱坐標(biāo)軸,召回率recall作為橫坐標(biāo)軸的曲線。
- p表示(實(shí)際為正例,預(yù)測(cè)為正例 )/(預(yù)測(cè)為正例)
- R表示(實(shí)際為正例,預(yù)測(cè)為正例 )/(實(shí)際為正例)
19. 解釋SVM
- SVM關(guān)心是那些離超平面很近的點(diǎn),這些點(diǎn)很容易被誤分類。如果我們可以讓離超平面比較近的點(diǎn)盡可能的遠(yuǎn)離超平面,那么我們的分類效果會(huì)好有一些.
- SVM的模型是讓所有點(diǎn)到超平面的距離大于一定的距離,也就是所有的分類點(diǎn)要在各自類別的支持向量?jī)蛇?。用?shù)學(xué)表達(dá)式表示出來(lái)。
- 然后轉(zhuǎn)化為最優(yōu)化問題,在通過拉格朗日函數(shù)將我優(yōu)化目標(biāo)轉(zhuǎn)化為無(wú)約束的優(yōu)化函數(shù)。在運(yùn)用SMO算法求解參數(shù)。
- 非線性可分情況,軟間隔,進(jìn)行坐標(biāo)變化。引入核函數(shù)。常見的:多項(xiàng)式核函數(shù)、指數(shù)核函數(shù)、高斯核函數(shù)。
20. 第一類誤差和第二類誤差有什么區(qū)別?
- 第一類誤差:假設(shè)為真的情況下,作出了拒絕原假設(shè)的一種錯(cuò)誤推斷。
- 第二類誤差:假設(shè)為假的情況下,做出了接受原假設(shè)的一種錯(cuò)誤判斷。
21. 概率和似然有什么區(qū)別?
- 概率和似然都是指隨機(jī)事件的可能性,但在統(tǒng)計(jì)學(xué)中,概率和似然有截然不同的用法。
- 概率描述了已知參數(shù)時(shí)的隨機(jī)變量的輸出結(jié)果;
- 似然描述了已知隨機(jī)變量輸出結(jié)果時(shí),未知參數(shù)的可能取值。
- 我們總是對(duì)隨機(jī)變量的取值談概率,而在非貝葉斯統(tǒng)計(jì)的角度下,參數(shù)是一個(gè)實(shí)數(shù)而非隨機(jī)變量,所以我們一般不談一個(gè)參數(shù)的概率,而說(shuō)似然。
22. 什么是深度學(xué)習(xí),它與機(jī)器學(xué)習(xí)算法之間有什么聯(lián)系?
- 深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)子領(lǐng)域,它關(guān)心的是參照神經(jīng)學(xué)科的理論構(gòu)建神經(jīng)網(wǎng)絡(luò),使用反向傳播對(duì)大量未標(biāo)注或半結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行建模。從這個(gè)角度看,深度學(xué)習(xí)可以看成一種非監(jiān)督學(xué)習(xí)算法,通過使用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)數(shù)據(jù)的表示。
23. 生成模型與判別模型有什么區(qū)別?
- 生成模型會(huì)學(xué)習(xí)數(shù)據(jù)的分布;判別模型學(xué)習(xí)的是不同類型數(shù)據(jù)之間的區(qū)別,不學(xué)習(xí)數(shù)據(jù)內(nèi)部特點(diǎn)。在分類問題上,判別模型會(huì)優(yōu)于生成模型。
- 判別模型求解的思路是:條件分布——>模型參數(shù)后驗(yàn)概率最大——->(似然函數(shù)\cdot 參數(shù)先驗(yàn))最大——->最大似然
- 生成模型的求解思路是:聯(lián)合分布——->求解類別先驗(yàn)概率和類別條件概率
- 常見的生成方法有混合高斯模型、樸素貝葉斯法和隱形馬爾科夫模型等,常見的判別方法有SVM、LR等
24 交叉檢驗(yàn)如何用在時(shí)間序列數(shù)據(jù)上?
- 與標(biāo)準(zhǔn)的k-folds 交叉檢驗(yàn)不同,數(shù)據(jù)不是隨機(jī)分布的,而是具有時(shí)序性的。如果模式出現(xiàn)在后期,模型仍然需要選擇先前時(shí)間的數(shù)據(jù),盡管前期對(duì)模式無(wú)影響。我們可以如下這么做:
- fold1:training[1], test[2]
- fold2:training[1 2], test[3]
- fold3:training[1 2 3], test[4]
- fold4:training[1 2 3 4], test[5]
- fold5:training[1 2 3 4 5], test[6]
25. 如何對(duì)決策樹進(jìn)行剪枝(預(yù)剪枝,后剪枝)?
- 剪枝是決策樹發(fā)生過擬合后,為了降低模型復(fù)雜度,提高模型準(zhǔn)確率的一種做法??梢苑譃樽陨隙潞妥韵露蟽煞N。
- 常見的方法有:誤差降低剪枝(REP),悲觀剪枝(PEP)和代價(jià)復(fù)雜度剪枝(CCP)。
REP
* 既然完全的決策樹會(huì)對(duì)訓(xùn)練集產(chǎn)生過度擬合,那么就再找一個(gè)測(cè)試數(shù)據(jù)集來(lái)糾正它。
* (1)對(duì)于完全決策樹中的每一個(gè)非葉子節(jié)點(diǎn)的子樹,嘗試著把它替換成一個(gè)葉子節(jié)點(diǎn),該葉子節(jié)點(diǎn)的類別我們用子樹中存在最多的那個(gè)類來(lái)代替,這樣就產(chǎn)生了一個(gè)簡(jiǎn)化決策樹。
* (2)然后比較這兩個(gè)決策樹在測(cè)試數(shù)據(jù)集中的表現(xiàn),如果簡(jiǎn)化決策樹在測(cè)試數(shù)據(jù)集中的錯(cuò)誤比較少,并且該子樹里面沒有包含另外一個(gè)具有類似特性的子樹,那么該子樹就可以替換成葉子節(jié)點(diǎn)。
* (3)該算法自底而上的方式遍歷所有的子樹,直至沒有任何子樹可以替換時(shí),算法就可以終止。
* REP方法很直接,但是需要一個(gè)額外的測(cè)試數(shù)據(jù)集,為了解決這個(gè)問題,于是就提出了悲觀剪枝(PEP)。
* 簡(jiǎn)單的來(lái)說(shuō)就是對(duì)樹的每一個(gè)結(jié)點(diǎn)進(jìn)行剪枝,如果剪掉某個(gè)結(jié)點(diǎn)會(huì)提高模型準(zhǔn)確率,那么將其剪掉。
REP方法是一種比較簡(jiǎn)單的后剪枝的方法,在該方法中,可用的數(shù)據(jù)被分成兩個(gè)樣例集合:一個(gè)訓(xùn)練集用來(lái)形成學(xué)習(xí)到的決策樹,一個(gè)分離的驗(yàn)證集用來(lái)評(píng)估這個(gè)決策樹在后續(xù)數(shù)據(jù)上的精度,確切地說(shuō)是用來(lái)評(píng)估修剪這個(gè)決策樹的影響。
* 這個(gè)方法的動(dòng)機(jī)是:即使學(xué)習(xí)器可能會(huì)被訓(xùn)練集中的隨機(jī)錯(cuò)誤和巧合規(guī)律所誤導(dǎo),但驗(yàn)證集合不大可能表現(xiàn)出同樣的隨機(jī)波動(dòng)。所以驗(yàn)證集可以用來(lái)對(duì)過度擬合訓(xùn)練集中的虛假特征提供防護(hù)檢驗(yàn)。
* 因?yàn)橛?xùn)練集合的過擬合,使得驗(yàn)證集合數(shù)據(jù)能夠?qū)ζ溥M(jìn)行修正,反復(fù)進(jìn)行上面的操作,從底向上的處理結(jié)點(diǎn),刪除那些能夠最大限度的提高驗(yàn)證集合的精度的結(jié)點(diǎn),直到進(jìn)一步修剪有害為止(有害是指修剪會(huì)減低驗(yàn)證集合的精度)。
* REP是最簡(jiǎn)單的后剪枝方法之一,不過由于使用獨(dú)立的測(cè)試集,原始決策樹相比,修改后的決策樹可能偏向于過度修剪。這是因?yàn)橐恍┎粫?huì)再測(cè)試集中出現(xiàn)的很稀少的訓(xùn)練集實(shí)例所對(duì)應(yīng)的分枝在剪枝過如果訓(xùn)練集較小,通常不考慮采用REP算法。
* 盡管REP有這個(gè)缺點(diǎn),不過REP仍然作為一種基準(zhǔn)來(lái)評(píng)價(jià)其它剪枝算法的性能。它對(duì)于兩階段決策樹學(xué)習(xí)方法的優(yōu)點(diǎn)和缺點(diǎn)提供了了一個(gè)很好的學(xué)習(xí)思路。由于驗(yàn)證集合沒有參與決策樹的創(chuàng)建,所以用REP剪枝后的決策樹對(duì)于測(cè)試樣例的偏差要好很多,能夠解決一定程度的過擬合問題。
PEP
ccp
- 代價(jià)復(fù)雜度選擇節(jié)點(diǎn)表面誤差率增益值最小的非葉子節(jié)點(diǎn),刪除該非葉子節(jié)點(diǎn)的左右子節(jié)點(diǎn),若有多個(gè)非葉子節(jié)點(diǎn)的表面誤差率增益值相同小,則選擇非葉子節(jié)點(diǎn)中子節(jié)點(diǎn)數(shù)最多的非葉子節(jié)點(diǎn)進(jìn)行剪枝。
26. 什么是F1數(shù),怎么使用它?
- F1數(shù)是衡量模型性能的一個(gè)指標(biāo)。它是模型精準(zhǔn)率和召回率的加權(quán)平均,1表示最好,0表示最差。在分類問題中有時(shí)精準(zhǔn)率和召回率不會(huì)同時(shí)都高,那么我們可以使用F1數(shù)。
27. 什么時(shí)候你應(yīng)該使用分類而不是回歸?
- 分類會(huì)產(chǎn)生離散的數(shù)值,使得數(shù)據(jù)嚴(yán)格的分為不同類?;貧w會(huì)得到連續(xù)的值。當(dāng)你需要知道你的數(shù)據(jù)明確的屬于那些類時(shí)你可以用分類。
28. 如何確保你的模型沒有過擬合?
過度擬合的訓(xùn)練數(shù)據(jù)以及數(shù)據(jù)攜帶的噪音,對(duì)于測(cè)試數(shù)據(jù)會(huì)帶來(lái)不確定的推測(cè)。有如下三種方法避免過擬合:
保持模型盡可能地簡(jiǎn)單:通過考量較少的變量和參數(shù)來(lái)減少方差,達(dá)到數(shù)據(jù)中消除部分噪音的效果。
使用交叉檢驗(yàn)的手段如:k-folds cross-validation。
使用正則化的技術(shù)如:LASSO方法來(lái)懲罰模型中可能導(dǎo)致過擬合的參數(shù)。
RF與GBDT之間的區(qū)別
(1)相同點(diǎn)
* 都是由多棵樹組成
* 最終的結(jié)果都是由多棵樹一起決定
(2)不同點(diǎn)
* 組成隨機(jī)森林的樹可以分類樹也可以是回歸樹,而GBDT只由回歸樹組成
* 組成隨機(jī)森林的樹可以并行生成,而GBDT是串行生成
* 隨機(jī)森林的結(jié)果是多數(shù)表決表決的,而GBDT則是多棵樹累加之和
* 隨機(jī)森林對(duì)異常值不敏感,而GBDT對(duì)異常值比較敏感
* 隨機(jī)森林是通過減少模型的方差來(lái)提高性能,而GBDT是減少模型的偏差來(lái)提高性能的
* 隨機(jī)森林不需要進(jìn)行數(shù)據(jù)預(yù)處理,即特征歸一化。而GBDT則需要進(jìn)行特征歸一化
29. GBDT與xgboost的對(duì)比
* xgboost能自動(dòng)利用cpu的多線程,而且適當(dāng)改進(jìn)了gradient boosting,加了剪枝,控制了模型的復(fù)雜程度.
* 傳統(tǒng)GBDT以CART作為基分類器,xgboost還支持線性分類器,這時(shí)xgboost相當(dāng)于帶L1和L2正則化項(xiàng)。
* 傳統(tǒng)GBDT在優(yōu)化時(shí)只用到一階導(dǎo)數(shù)信息,xgboost則對(duì)代價(jià)函數(shù)進(jìn)行了二階泰勒展開,同時(shí)用到了一階和二階導(dǎo)數(shù)。
* xgboost在代價(jià)函數(shù)里加入了正則項(xiàng),用于控制模型的復(fù)雜度。使學(xué)習(xí)出來(lái)的模型更加簡(jiǎn)單,防止過擬合,這也是xgboost優(yōu)于傳統(tǒng)GBDT的一個(gè)特性。正則項(xiàng)里包含了樹的葉子節(jié)點(diǎn)個(gè)數(shù)。
* 列抽樣(column subsampling)。xgboost借鑒了隨機(jī)森林的做法,支持列抽樣,不僅能降低過擬合,還能減少計(jì)算,這也是xgboost異于傳統(tǒng)gbdt的一個(gè)特性。
* xgboost工具支持并行。注意xgboost的并行不是tree粒度的并行,xgboost也是一次迭代完才能進(jìn)行下一次迭代的。xgboost的并行是在特征粒度上的。我們知道,決策樹的學(xué)習(xí)最耗時(shí)的一個(gè)步驟就是對(duì)特征的值進(jìn)行排序(因?yàn)橐_定最佳分割點(diǎn)),xgboost在訓(xùn)練之前,預(yù)先對(duì)數(shù)據(jù)進(jìn)行了排序,然后保存為block結(jié)構(gòu),后面的迭代中重復(fù)地使用這個(gè)結(jié)構(gòu),大大減小計(jì)算量。這個(gè)block結(jié)構(gòu)也使得并行成為了可能,在進(jìn)行節(jié)點(diǎn)的分裂時(shí),需要計(jì)算每個(gè)特征的增益,最終選增益最大的那個(gè)特征去做分裂,那么各個(gè)特征的增益計(jì)算就可以開多線程進(jìn)行。
* 可并行的近似直方圖算法。樹節(jié)點(diǎn)在進(jìn)行分裂時(shí),我們需要計(jì)算每個(gè)特征的每個(gè)分割點(diǎn)對(duì)應(yīng)的增益,即用貪心法枚舉所有可能的分割點(diǎn)。當(dāng)數(shù)據(jù)無(wú)法一次載入內(nèi)存或者在分布式情況下,貪心算法效率就會(huì)變得很低,所以xgboost還提出了一種可并行的近似直方圖算法,用于高效地生成候選的分割點(diǎn)。
*隨機(jī)森林優(yōu)點(diǎn):對(duì)于很多數(shù)據(jù)集表現(xiàn)良好,精確度較高;不易過擬合;可得到變量的重要性排序;既能處理離散型數(shù)據(jù),也能處理連續(xù)型數(shù)據(jù);不需要?dú)w一化;能夠很好的處理缺失數(shù)據(jù);易并行化。
30. 為什么要?dú)w一化呢?
* 1)歸一化后加快了梯度下降求最優(yōu)解的速度;
* 2)歸一化有可能提高精度。
31. L1范式和L2方式的區(qū)別
- (1)L1范式是對(duì)應(yīng)參數(shù)向量絕對(duì)值之和
- (2)L1范式具有稀疏性
- (3)L1范式可以用來(lái)作為特征選擇,并且可解釋性較強(qiáng)
- (4)L2范式是對(duì)應(yīng)參數(shù)向量的平方和,再求平方根
- (5)L2范式是為了防止機(jī)器學(xué)習(xí)的過擬合,提升模型的泛化能力
32. 優(yōu)化算法及其優(yōu)缺點(diǎn)
- (1)批量梯度下降
- 優(yōu)點(diǎn):準(zhǔn)確度高
- 缺點(diǎn):收斂速度較慢
- (2)隨機(jī)梯度下降
- 優(yōu)點(diǎn):收斂速度較快
- 缺點(diǎn):準(zhǔn)確率低
- (3)mini_batch梯度下降
- 綜合隨機(jī)梯度下降和批量梯度下降的優(yōu)缺點(diǎn),提取的一個(gè)中和的方法。
- (4)牛頓法
- 牛頓法在迭代的時(shí)候,需要計(jì)算Hessian矩陣,當(dāng)維度較高的時(shí)候,計(jì)算Hessian矩陣比較困難。
- (5)擬牛頓法
- 擬牛頓法是為了改進(jìn)牛頓法在迭代過程中,計(jì)算Hessian矩陣而提取的算法,它采用的方式是通過逼近Hessian的方式來(lái)進(jìn)行求解。
- (6)共軛梯度
- (7)啟發(fā)式的優(yōu)化算法
- 啟發(fā)式的優(yōu)化算法有遺傳算法,粒子群算法等。這類算法的主要思想就是設(shè)定一個(gè)目標(biāo)函數(shù),每次迭代根據(jù)相應(yīng)的策略優(yōu)化種群。直到滿足什么樣的條件為止。
33. 坐標(biāo)軸下降法和梯度下降的求極值比較
a) 坐標(biāo)軸下降法在每次迭代中在當(dāng)前點(diǎn)處 沿一個(gè)坐標(biāo)方向進(jìn)行一維搜索 ,固定其他的坐標(biāo)方向,找到一個(gè)函數(shù)的局部極小值。而梯度下降總是沿著梯度的負(fù)方向求函數(shù)的局部最小值。
b) 坐標(biāo)軸下降優(yōu)化方法是一種非梯度優(yōu)化算法。在整個(gè)過程中依次循環(huán)使用不同的坐標(biāo)方向進(jìn)行迭代,一個(gè)周期的一維搜索迭代過程相當(dāng)于一個(gè)梯度下降的迭代。
c) 梯度下降是利用目標(biāo)函數(shù)的導(dǎo)數(shù)來(lái)確定搜索方向的,該梯度方向可能不與任何坐標(biāo)軸平行。而坐標(biāo)軸下降法法是利用當(dāng)前坐標(biāo)方向進(jìn)行搜索,不需要求目標(biāo)函數(shù)的導(dǎo)數(shù),只按照某一坐標(biāo)方向進(jìn)行搜索最小值。
d) 兩者都是迭代方法,且每一輪迭代,都需要O(mn)的計(jì)算量(m為樣本數(shù),n為系數(shù)向量的維度)