目錄 RNN 發(fā)生梯度消失的原因是什么? RNN中使用ReLU可以解決梯度消失問題嗎? LSTM為什么能解決梯度消失/爆炸的問題? LSTM和G...
目錄 簡(jiǎn)述K-Means算法的基本流程 Kmeans對(duì)異常值是否敏感?為什么? 如何評(píng)估聚類的效果 超參數(shù)k如何選擇? Kmeans算法的優(yōu)缺點(diǎn)...
目錄 為什么要對(duì)特征做歸一化 (easy) 什么是組合特征(Categorical Feature的組合)?如何處理高維組合特征 (medium...
上一節(jié)我們介紹了SVM在處理二分類問題時(shí)的經(jīng)典概念,但是現(xiàn)實(shí)場(chǎng)景中的數(shù)據(jù)往往有很多噪音,這個(gè)時(shí)候如何處理才能讓模型更魯棒呢? 松弛變量(Slac...
超平面 定義: 對(duì)于處在超平面兩側(cè)的兩個(gè)點(diǎn) 和 ,分別有: 某樣本到超平面的單位法向量為:某樣本點(diǎn)到超平面的距離可以表示為: 所以可以看到圖中原...
1. 均方差損失 MSE Loss (L2 Loss) 針對(duì)回歸問題 MSE也稱為L(zhǎng)2 loss:隨著預(yù)測(cè)與真實(shí)值的絕對(duì)誤差的增加,均方差損失...
nn.DataParallel DataParallel只能實(shí)現(xiàn)單個(gè)主機(jī)多GPU的訓(xùn)練,下圖是由HuggingFace 制作的DataParal...
Learning Discriminative Feature with Multiple Granularities for Person R...
ResNeSt: Split-Attention NetworksGithub: https://github.com/zhanghang198...