阿里機器學(xué)習(xí)面試的一些題目,
1.說一下KNN的過程(剛開始的時候和k-means搞混了。。。)
KNN是k nearest neighbor 的簡稱,即k最鄰近,就是找k個最近的實例投票決定新實例的類標(biāo)。KNN是一種基于實例的學(xué)習(xí)算法,它不同于貝葉斯、決策樹等算法,KNN不需要訓(xùn)練,當(dāng)有新的實例出現(xiàn)時,直接在訓(xùn)練數(shù)據(jù)集中找k個最近的實例,把這個新的實例分配給這k個訓(xùn)練實例中實例數(shù)最多類。KNN也稱為懶惰學(xué)習(xí),它不需要訓(xùn)練過程,在類標(biāo)邊界比較整齊的情況下分類的準(zhǔn)確率很高。KNN算法需要人為決定K的取值,即找?guī)讉€最近的實例,k值不同,分類結(jié)果的結(jié)果也會不同。
2. ID3 C4.5 CART根據(jù)什么選擇特征
ID3根據(jù)信息增益選擇特征。C4.5根據(jù)信息增益率。CART根據(jù)基尼指數(shù)
參考鏈接:決策樹(ID3、C4.5、CART)
3. 樸素貝葉斯的假設(shè)是什么?
所有樸素貝葉斯分類器都假定樣本每個特征與其他特征都不相關(guān)。
4. 如果某個特征在訓(xùn)練集出現(xiàn),測試集沒出現(xiàn)沒出現(xiàn),概率計算出來是0,怎么解決?
某特征在訓(xùn)練集中未出現(xiàn),避免概率計算為0,引入laplace平滑方法
5. SVM軟間隔目標(biāo)函數(shù),及對偶函數(shù)的形式
當(dāng)數(shù)據(jù)近似線性可分時,通過軟間隔最大化學(xué)習(xí)一個線性分類器,即線性支持向量機;當(dāng)數(shù)據(jù)線性不可分時,通過核技巧及軟間隔最大化學(xué)習(xí)非線性支持向量機。
目標(biāo)函數(shù)變?yōu)椋?/p>

其中C稱為懲罰參數(shù),且C>0。在線性支持向量機中加入了懲罰項。
利用拉格朗日函數(shù)的對偶性,將問題變成一個極大極小優(yōu)化問題:

了解更多:SVM
6. 神經(jīng)網(wǎng)絡(luò)的誤差傳播的原理

7.梯度提升樹