最近關(guān)于機(jī)器學(xué)習(xí)的總結(jié)點(diǎn)

最近在學(xué)習(xí)用python運(yùn)算機(jī)器學(xué)習(xí),順便開始系統(tǒng)的學(xué)習(xí)機(jī)器學(xué)習(xí)。

暫時(shí)通過教學(xué)視頻和阿里音樂比賽的總結(jié)博客得到幾點(diǎn)以前忽略的重點(diǎn)。

1.關(guān)于數(shù)據(jù)分析的目的,要明確業(yè)務(wù)方向,比如銀行信用卡調(diào)查問卷,是要去明確找到會辦理信用卡的潛在客戶的特征,而不是那些不辦信用卡的。往往目標(biāo)人數(shù)是少數(shù)。

2. 關(guān)于數(shù)據(jù)清洗,以前總喜歡選擇刪除一些outliers,或者特征值不全的數(shù)據(jù)。其實(shí)不應(yīng)該刪除,missing value 可以用-999之類的無意義值去填充,數(shù)據(jù)不能少,否則其他特征值就損失了。

3. one hot在建立特征時(shí)還是應(yīng)用挺多的。比如阿里音樂比賽中,先把用戶用kmeans聚類,得到十個(gè)類以后,把類轉(zhuǎn)化成特征one hot。這個(gè)是個(gè)很好的用法,比我們當(dāng)時(shí)分類以后按照每個(gè)類再進(jìn)行預(yù)測的方法好?;咎卣髦底詈髸且粋€(gè)極大的稀疏矩陣。

4. 歸一化和標(biāo)準(zhǔn)化。特征值之間的數(shù)值還是要保持在一個(gè)數(shù)量級上,否則模型會打破每個(gè)特征值是同等重要的原則。比如收入和年齡,收入遠(yuǎn)比年齡數(shù)值大,這時(shí)候就要標(biāo)準(zhǔn)化特征。

5.模型選取上svm, rf, adaboost,xgboost等。得學(xué)習(xí)。

6. 模型評估還是很重要的。 一般通過f1評估。 像阿里音樂比賽,那大神用的就是評估函數(shù)的極值加到每個(gè)播放量上進(jìn)行預(yù)測,分?jǐn)?shù)提高很多。

7. supervised—labled well

unsupervised- cluster well

reinforcement- behavior well

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容