- 什么是凸集、凸函數(shù)、凸學(xué)習(xí)問(wèn)題?
凸集:若對(duì)集合C中任意兩點(diǎn)u和v,連接他們的線段仍在集合C中,那么集合C是凸集。
公式表示為:αu+(1-α)v∈C α∈[0, 1]
凸函數(shù):凸集上的函數(shù)是凸函數(shù)。凸函數(shù)的每一個(gè)局部極小值也是全局極小值( f(x) = 0.5x^2 )。
公式表示為:f(αu + (1-α)v) ≤ αf(u)+ (1-α)f(v)
- L0、L1、L2正則化?
L0范數(shù):計(jì)算向量中非0元素的個(gè)數(shù)。
L1范數(shù):計(jì)算向量中各元素絕對(duì)值之和。
L2范數(shù):計(jì)算向量中各元素平方和的開(kāi)方。
L0范數(shù)和L1范數(shù)目的是使參數(shù)稀疏化。L1范數(shù)比L0范數(shù)容易優(yōu)化求解。
L2范數(shù)是防止過(guò)擬合,提高模型的泛化性能。
- 無(wú)監(jiān)督學(xué)習(xí)方法有哪些?
強(qiáng)化學(xué)習(xí)、K-means 聚類(lèi)、自編碼、受限波爾茲曼機(jī)
- 空洞卷積(dilated convolution)的理解?
基于FCN的語(yǔ)義分割問(wèn)題中,需保持輸入圖像與輸出特征圖的size相同。
若使用池化層,則降低了特征圖size,需在高層階段使用上采樣,由于池化會(huì)損失信息,所以此方法會(huì)影響導(dǎo)致精度降低;
若使用較小的卷積核尺寸,雖可以實(shí)現(xiàn)輸入輸出特征圖的size相同,但輸出特征圖的各個(gè)節(jié)點(diǎn)感受野??;
若使用較大的卷積核尺寸,由于需增加特征圖通道數(shù),此方法會(huì)導(dǎo)致計(jì)算量較大;
所以,引入空洞卷積(dilatedconvolution),在卷積后的特征圖上進(jìn)行0填充擴(kuò)大特征圖size,這樣既因?yàn)橛芯矸e核增大感受野,也因?yàn)?填充保持計(jì)算點(diǎn)不變。
- 增大感受野的方法?
空洞卷積、池化操作、較大卷積核尺寸的卷積操作
- 卷積層中感受野大小的計(jì)算?
卷積層的感受野大小與其之前層的卷積核尺寸和步長(zhǎng)有關(guān),與padding無(wú)關(guān)。基于從深層向淺層遞歸計(jì)算的方式。
計(jì)算公式為:Fj-1 = Kj + (Fj - 1)*Sj(最后一層特征圖的感受野大小是其計(jì)算卷積核大小)
- 梯度下降法和牛頓法的優(yōu)缺點(diǎn)?
優(yōu)點(diǎn):梯度下降法:可用于數(shù)據(jù)量較大的情況;
牛頓法:收斂速度更快;
缺點(diǎn):梯度下降法:每一步可能不是向著最優(yōu)解的方向;
牛頓法:每次迭代的時(shí)間長(zhǎng);需要計(jì)算一階和二階導(dǎo)數(shù);
- 解決訓(xùn)練樣本類(lèi)別不平衡問(wèn)題?
現(xiàn)象:訓(xùn)練樣本中,正負(fù)樣本數(shù)量的比例較大。
過(guò)采樣。增加正例樣本數(shù)量,使得正負(fù)樣本數(shù)量接近,然后再進(jìn)行學(xué)習(xí)。
欠采樣。去除反例樣本數(shù)量,使得正負(fù)樣本數(shù)量接近,然后再進(jìn)行學(xué)習(xí)。
設(shè)置閾值?;谠紨?shù)據(jù)集學(xué)習(xí),當(dāng)使用已訓(xùn)練好的分類(lèi)器進(jìn)行預(yù)測(cè)時(shí),將正負(fù)樣本數(shù)量的比例作為閾值嵌入到?jīng)Q策過(guò)程中。
- 各個(gè)激活函數(shù)的優(yōu)缺點(diǎn)?
Sigmoid激活函數(shù) 缺點(diǎn):
不是關(guān)于原點(diǎn)對(duì)稱(chēng);
需要計(jì)算exp
Tanh 激活函數(shù) 優(yōu)點(diǎn):
關(guān)于原點(diǎn)對(duì)稱(chēng)
比sigmoid梯度更新更快
ReLU激活函數(shù) 優(yōu)點(diǎn):
神經(jīng)元輸出為正時(shí),沒(méi)有飽和區(qū)
計(jì)算復(fù)雜度低,效率高
在實(shí)際應(yīng)用中,比sigmoid、tanh更新更快
相比于sigmoid更加符合生物特性
ReLU激活函數(shù) 缺點(diǎn):
神經(jīng)元輸出為負(fù)時(shí),進(jìn)入了飽和區(qū)
神經(jīng)元的輸出在非0中心
使得數(shù)據(jù)存在Active ReLU、Dead ReLU(當(dāng)wx+b<0時(shí),將永遠(yuǎn)無(wú)法進(jìn)行權(quán)值更新,此時(shí)的神經(jīng)元將死掉)的問(wèn)題
Leaky ReLU激活函數(shù) 優(yōu)點(diǎn):
- 解決了ReLU激活函數(shù)Dead ReLU問(wèn)題;
Maxout激活函數(shù)max(w1x+b1,w2x+b2) 缺點(diǎn):
- 參數(shù)較多;
- 神經(jīng)網(wǎng)絡(luò)的正則化方法?/過(guò)擬合的解決方法?
數(shù)據(jù)增強(qiáng)(鏡像對(duì)稱(chēng)、隨機(jī)裁剪、旋轉(zhuǎn)圖像、剪切圖像、局部彎曲圖像、色彩轉(zhuǎn)換)
early stopping(比較訓(xùn)練損失和驗(yàn)證損失曲線,驗(yàn)證損失最小即為最優(yōu)迭代次數(shù))
L2正則化(權(quán)重參數(shù)的平方和)
L1正則化(權(quán)重參數(shù)的絕對(duì)值之和)
dropout 正則化(設(shè)置keep_pro參數(shù)隨機(jī)讓當(dāng)前層神經(jīng)元失活)
- 目標(biāo)檢測(cè)領(lǐng)域的常見(jiàn)算法?
兩階段檢測(cè)器:R-CNN、Fast R-CNN、Faster R-CNN
單階段檢測(cè)器:YOLO、YOLO9000、SSD、DSSD、RetinaNet
- Batch Normalization如何實(shí)現(xiàn)?作用?
實(shí)現(xiàn)過(guò)程
計(jì)算訓(xùn)練階段mini_batch數(shù)量激活函數(shù)前結(jié)果的均值和方差,然后對(duì)其進(jìn)行歸一化,最后對(duì)其進(jìn)行縮放和平移。
作用
限制參數(shù)對(duì)隱層數(shù)據(jù)分布的影響,使其始終保持均值為0,方差為1的分布;
削弱了前層參數(shù)和后層參數(shù)之間的聯(lián)系,使得當(dāng)前層稍稍獨(dú)立于其他層,加快收斂速度;
有輕微的正則化效果。
- Momentum優(yōu)化算法原理?作用?
原理:在梯度下降算法中引入指數(shù)加權(quán)平均數(shù),在更新梯度方向的過(guò)程中,在一定程度上保留了之前梯度更新的方向,同時(shí)利用當(dāng)前mini_batch的梯度方向微調(diào)最終的更新方向。
作用:在一定程度上增加梯度更新方向的穩(wěn)定性,從而使得收斂速度更快。
- 群卷積?
假設(shè)上一層的特征圖通道數(shù)為N,群卷積數(shù)目為M,則每個(gè)群卷積層上的特征圖通道數(shù)為N/M,然后將其分配在不同的GPU上,待卷積完成后將輸出疊加在一起。
- 反卷積?
卷積的逆過(guò)程,GANs基于反卷積操作生成圖片。
- 梯度消失和梯度爆炸?
原因:激活函數(shù)的選擇。
梯度消失:令bias=0,則神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果等于各層權(quán)重參數(shù)的積再與輸入數(shù)據(jù)集相乘,若參數(shù)值較小時(shí),則權(quán)重參數(shù)呈指數(shù)級(jí)減小。
梯度爆炸:令bias=0,則神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果等于各層權(quán)重參數(shù)的積再與輸入數(shù)據(jù)集相乘,若參數(shù)值較大時(shí),則權(quán)重參數(shù)呈指數(shù)級(jí)增長(zhǎng)。
17.質(zhì)數(shù)與互質(zhì)數(shù)
質(zhì)數(shù)是能被1和其本身整除的數(shù);比如2,3,5,7是質(zhì)數(shù);
互質(zhì)數(shù)是兩個(gè)數(shù)的公因數(shù)只有一個(gè)1的數(shù);比如8和9、27和32是互質(zhì)數(shù);
- 生成模型和判別模型
生成方法是首先基于數(shù)據(jù)學(xué)習(xí)聯(lián)合概率分布P(X,Y),然后獲得條件概率分布P(Y|X)作為預(yù)測(cè)模型。
常用模型:隱馬爾可夫模型(HMM)、樸素貝葉斯
判別方法是直接基于數(shù)據(jù)學(xué)習(xí)到?jīng)Q策函數(shù)F或條件概率分布P(Y|X)作為預(yù)測(cè)模型。
常用模型:支持向量機(jī)、K近鄰算法、決策樹(shù)、邏輯回歸、感知機(jī)、最大熵等
- 從貝葉斯的角度來(lái)看,正則化等價(jià)于對(duì)模型參數(shù)引入先驗(yàn)分布,談?wù)勀銓?duì)正則化的理解,并且闡述引入L2和L1分別對(duì)應(yīng)什么分布。
正則化的理解:正則化是在損失函數(shù)中加入對(duì)模型參數(shù)的懲罰項(xiàng),以平衡因子lamda控制懲罰力度,其通過(guò)在訓(xùn)練過(guò)程中降低參數(shù)的數(shù)量級(jí),從而降低模型的過(guò)擬合現(xiàn)象。
從貝葉斯的角度來(lái)看,正則化等價(jià)于對(duì)模型參數(shù)引入先驗(yàn)分布:對(duì)參數(shù)引入高斯先驗(yàn)分布等價(jià)于L2正則化,對(duì)參數(shù)引入拉普拉斯分布等價(jià)于L1正則化。
- 從變換矩陣和變換效果等方面闡述相似變換、仿射變換、投影變換的區(qū)別。
等距變換:圖像旋轉(zhuǎn)+平移
相似變換:圖像旋轉(zhuǎn)+平移+縮放(放大或縮小原圖)
仿射變換:圖像旋轉(zhuǎn)+平移+縮放+切變(雖改變圖像的形狀,但未改變圖像中的平行線)
投影變換:圖像旋轉(zhuǎn)+平移+縮放+切變+射影(不僅改變了圖像的形狀,而且改變了圖像中的平行線)
- HOG特征的計(jì)算流程
直方圖:橫軸:間隔,縱軸為各間隔統(tǒng)計(jì)值的個(gè)數(shù)。特點(diǎn)1:顯示此數(shù)據(jù)的的分布情況;特點(diǎn)2:顯示各組統(tǒng)計(jì)數(shù)據(jù)的差異;
HOG(histogram of oriented gradient)通過(guò)獲得局部區(qū)域像素的梯度直方圖來(lái)構(gòu)成特征。
轉(zhuǎn)化為灰度圖;
圖像的歸一化;
計(jì)算各個(gè)像素的梯度;
將圖像劃分為cell(6*6個(gè)像素是一個(gè)cell)
計(jì)算cell區(qū)域的梯度直方圖(統(tǒng)計(jì)各個(gè)梯度的數(shù)量),構(gòu)成cell的discripter
將cell劃分為block(3*3個(gè)cell是一個(gè)block),串聯(lián)block內(nèi)的cell discripter即可得到此區(qū)域的HOG特征discripter
將一幅圖像中的Hog discripter串聯(lián)就是用于分類(lèi)的特征向量;
- 簡(jiǎn)述回歸,分類(lèi),聚類(lèi)方法的區(qū)別和聯(lián)系并分別舉出一個(gè)例子,簡(jiǎn)要介紹算法思路
回歸:對(duì)連續(xù)隨機(jī)變量建模預(yù)測(cè)的監(jiān)督學(xué)習(xí)算法;經(jīng)典案例:房?jī)r(jià)預(yù)測(cè);算法舉例:線性回歸,建立數(shù)據(jù)的擬合曲線作為預(yù)測(cè)模型(y = wx + b);
分類(lèi):對(duì)離散隨機(jī)變量建模預(yù)測(cè)的監(jiān)督學(xué)習(xí)算法;經(jīng)典案例:垃圾郵件分類(lèi);算法舉例:支持向量機(jī),尋找二類(lèi)支持向量的最大切分超平面;
聚類(lèi):基于數(shù)據(jù)的內(nèi)部規(guī)律,尋找其屬于不同族群的無(wú)監(jiān)督學(xué)習(xí)算法;算法舉例:k-means;
- 列舉至少三種損失函數(shù),寫(xiě)出數(shù)學(xué)表達(dá)式并簡(jiǎn)述各自優(yōu)點(diǎn)
https://blog.csdn.net/heyongluoyao8/article/details/52462400
0-1損失 感知機(jī)損失 絕對(duì)值損失
平方誤差損失(線性回歸)
對(duì)數(shù)損失(邏輯回歸)
指數(shù)損失(Adaboost)
鉸鏈損失(SVM)
- 分類(lèi)問(wèn)題的評(píng)價(jià)標(biāo)準(zhǔn)
準(zhǔn)確率 = (TP+TN)/總樣本數(shù)
精確率 = TP/(TP+FP) = 所有預(yù)測(cè)為正類(lèi)樣本中正類(lèi)的概率
召回率 = TP/(TP+FN) = 所有真正類(lèi)樣本中正類(lèi)的概率
2/調(diào)和平均值 = 1/精確率+1/召回率
P-R曲線:縱軸為精確率,橫軸為召回率,基于平衡點(diǎn)(P=R)度量各個(gè)基分類(lèi)器的優(yōu)劣;
ROC曲線:縱軸為T(mén)PR,橫軸為FPR
TPR = TP/(TP+FN) FPR = FP/(FP+TN)
AUC:ROC曲線下的面積
mAP = 所有類(lèi)別的AP之和/類(lèi)別數(shù)量
P = (一張圖片類(lèi)別C識(shí)別正確數(shù)量)/(一張圖片類(lèi)別C的總數(shù)量)
AP = 每張圖片的P之和/圖片數(shù)量
- 回歸問(wèn)題的評(píng)價(jià)指標(biāo)
平均絕對(duì)值誤差(MAE)
均方差(MSE)
- 邏輯回歸和SVM的區(qū)別和聯(lián)系
1.損失函數(shù)不同,LR損失函數(shù)是對(duì)數(shù)損失;SVM損失函數(shù)時(shí)合頁(yè)損失;
2.LR考慮了所有點(diǎn)的損失,但通過(guò)非線性操作大大減小離超平面較遠(yuǎn)點(diǎn)的權(quán)重;SVM僅考慮支持向量的損失
3.LR受類(lèi)別平衡的影響;SVM則不受類(lèi)別平衡的影響;
4.LR適合較大數(shù)據(jù)集;SVM適合較小數(shù)據(jù)集
- 深度學(xué)習(xí)為什么在計(jì)算機(jī)視覺(jué)領(lǐng)域這么好
以目標(biāo)檢測(cè)為例,傳統(tǒng)的計(jì)算機(jī)視覺(jué)方法需首先基于經(jīng)驗(yàn)手動(dòng)設(shè)計(jì)特征,然后使用分類(lèi)器分類(lèi),這兩個(gè)過(guò)程都是分開(kāi)的。而深度學(xué)習(xí)里的卷積網(wǎng)絡(luò)可實(shí)現(xiàn)對(duì)局部區(qū)域信息的提取,獲得更高級(jí)的特征,當(dāng)神經(jīng)網(wǎng)絡(luò)層數(shù)越多時(shí),提取的特征會(huì)更抽象,將更有助于分類(lèi),同時(shí)神經(jīng)網(wǎng)路將提取特征和分類(lèi)融合在一個(gè)結(jié)構(gòu)中。
- Bagging和Boosting之間的區(qū)別?
1.從樣本選擇角度:
Bagging采用隨機(jī)有放回的采樣方式(Boostraping);Boosting使用所有樣本,但每個(gè)樣本的權(quán)重不同;
2.從決策方式角度:
Bagging分類(lèi)預(yù)測(cè)采用大多數(shù)投票選舉法,回歸預(yù)測(cè)采用各基分類(lèi)器預(yù)測(cè)結(jié)果的平均值;Boosting采用各基分類(lèi)器在不同權(quán)重作用下預(yù)測(cè)結(jié)果的累加和;
3.從方差、偏差角度:
Bagging以減小方差為目的;Boosting以減少偏差為目的;
模型過(guò)擬合,則方差大,Bagging以隨機(jī)采樣樣本的方式減少異常樣本的選擇比例,從而可以降低過(guò)擬合,隨之也就減小了方差;
Boosting的損失函數(shù)就是以減少偏差為目的來(lái)訓(xùn)練下一個(gè)基分類(lèi)器;
4.從權(quán)重角度:
Bagging各個(gè)樣本的權(quán)重相同,各個(gè)基分類(lèi)器權(quán)重相同;Boosting各個(gè)樣本的權(quán)重不同,正確預(yù)測(cè)的樣本權(quán)重減小,錯(cuò)誤預(yù)測(cè)的樣本權(quán)重增大;各個(gè)基分類(lèi)器的權(quán)重不同,預(yù)測(cè)準(zhǔn)確率高的權(quán)重大,預(yù)測(cè)準(zhǔn)確率低的權(quán)重??;
- 常用的池化操作有哪些?
1.Max pooling:選取滑動(dòng)窗口的最大值
2.Average pooling:平均滑動(dòng)串口的所有值
3.Global average pooling:平均每頁(yè)特征圖的所有值
優(yōu)點(diǎn):
1.解決全連接層所造成的過(guò)擬合問(wèn)題
CNN網(wǎng)絡(luò)需要將特征圖reshape成全連接層,然后再連接輸出層,而global average pooling不需要此操作,直接將特征圖pooling成輸出層
2.沒(méi)有權(quán)重參數(shù)
- 樸素貝葉斯的樸素是什么意思?
樸素指的是各個(gè)特征之間相互獨(dú)立。
30.1*1卷積核的作用?
1.跨通道信息的融合;
2.通過(guò)對(duì)通道數(shù)的降維和升維,減少計(jì)算量;
- 隨機(jī)森林的隨機(jī)性指的是?
1.決策樹(shù)訓(xùn)練樣本是有放回隨機(jī)采樣的;
2.決策樹(shù)節(jié)點(diǎn)分裂特征集是有放回隨機(jī)采樣的;
- 隨機(jī)森林和GBDT算法的區(qū)別?
1.并行和串行
隨機(jī)森林是并行算法,GBDT算法是串行算法
2.決策方式
隨機(jī)森林分類(lèi)問(wèn)題采用大多數(shù)投票選舉法,回歸問(wèn)題采用各基分類(lèi)器結(jié)果的平均值;GBDT算法采用各基分類(lèi)器預(yù)測(cè)結(jié)果的累加和;
3.樣本選擇
隨機(jī)森林各基分類(lèi)器采用有放回隨機(jī)采樣的方式;GBDT則使用所有的樣本;
4.偏差、方差
隨機(jī)森林通過(guò)降低方差提高性能;GBDT通過(guò)降低偏差提高性能;
5.異常值
隨機(jī)森林對(duì)異常值不敏感;GBDT對(duì)異常值敏感;
- 為什么ReLU常用于神經(jīng)網(wǎng)絡(luò)的激活函數(shù)?
1.在前向傳播和反向傳播過(guò)程中,ReLU相比于Sigmoid等激活函數(shù)計(jì)算量小;
2.在反向傳播過(guò)程中,Sigmoid函數(shù)存在飽和區(qū),若激活值進(jìn)入飽和區(qū),則其梯度更新值非常小,導(dǎo)致出現(xiàn)梯度消失的現(xiàn)象。而ReLU沒(méi)有飽和區(qū),可避免此問(wèn)題;
3.ReLU可令部分神經(jīng)元輸出為0,造成網(wǎng)絡(luò)的稀疏性,減少前后層參數(shù)對(duì)當(dāng)前層參數(shù)的影響,提升了模型的泛化性能;
- 卷積層和全連接層的區(qū)別?
1.卷積層是局部連接,所以提取的是局部信息;全連接層是全局連接,所以提取的是全局信息;
2.當(dāng)卷積層的局部連接是全局連接時(shí),全連接層是卷積層的特例;
- 偏差和方差的區(qū)別?
偏差是真實(shí)值和預(yù)測(cè)值之間的偏離程度;方差是預(yù)測(cè)值得分散程度,即越分散,方差越大;
- 機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的區(qū)別?
機(jī)器學(xué)習(xí)在訓(xùn)練模型之前,需要手動(dòng)設(shè)置特征,即需要做特征工程;深度學(xué)習(xí)可自動(dòng)提取特征;所以深度學(xué)習(xí)自動(dòng)提取的特征比機(jī)器學(xué)習(xí)手動(dòng)設(shè)置的特征魯棒性更好;
- 神經(jīng)網(wǎng)絡(luò)的優(yōu)缺點(diǎn)?
優(yōu)點(diǎn):
1.擬合復(fù)雜的函數(shù)
隨著神經(jīng)網(wǎng)絡(luò)層數(shù)的加深,網(wǎng)絡(luò)的非線性程度越來(lái)越高,從而可擬合更加復(fù)雜的函數(shù);
2.結(jié)構(gòu)靈活
神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)可根據(jù)具體的任務(wù)進(jìn)行相應(yīng)的調(diào)整,選擇適合的網(wǎng)絡(luò)結(jié)構(gòu);
3.神經(jīng)網(wǎng)絡(luò)可自動(dòng)提取特征,比人工設(shè)置的特征魯棒性更好;
缺點(diǎn):
1.由于神經(jīng)網(wǎng)絡(luò)強(qiáng)大的假設(shè)空間,使得神經(jīng)網(wǎng)絡(luò)極易陷入局部最優(yōu),使得模型的泛化能力較差;
2.當(dāng)網(wǎng)絡(luò)層數(shù)深時(shí),神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過(guò)程中容易產(chǎn)生梯度消失和梯度下降的問(wèn)題;
3.隨著網(wǎng)絡(luò)層數(shù)的加深,神經(jīng)網(wǎng)絡(luò)收斂速度越來(lái)越慢;
4.神經(jīng)網(wǎng)絡(luò)訓(xùn)練參數(shù)多,占用內(nèi)存大;
- 解決過(guò)擬合的方法
1.數(shù)據(jù)增強(qiáng)
2.Ealy stopping
3.Dropout
4.交叉驗(yàn)證
5.L1、L2正則化