最近在學(xué)習(xí)用python運(yùn)算機(jī)器學(xué)習(xí),順便開始系統(tǒng)的學(xué)習(xí)機(jī)器學(xué)習(xí)。
暫時(shí)通過教學(xué)視頻和阿里音樂比賽的總結(jié)博客得到幾點(diǎn)以前忽略的重點(diǎn)。
1.關(guān)于數(shù)據(jù)分析的目的,要明確業(yè)務(wù)方向,比如銀行信用卡調(diào)查問卷,是要去明確找到會辦理信用卡的潛在客戶的特征,而不是那些不辦信用卡的。往往目標(biāo)人數(shù)是少數(shù)。
2. 關(guān)于數(shù)據(jù)清洗,以前總喜歡選擇刪除一些outliers,或者特征值不全的數(shù)據(jù)。其實(shí)不應(yīng)該刪除,missing value 可以用-999之類的無意義值去填充,數(shù)據(jù)不能少,否則其他特征值就損失了。
3. one hot在建立特征時(shí)還是應(yīng)用挺多的。比如阿里音樂比賽中,先把用戶用kmeans聚類,得到十個(gè)類以后,把類轉(zhuǎn)化成特征one hot。這個(gè)是個(gè)很好的用法,比我們當(dāng)時(shí)分類以后按照每個(gè)類再進(jìn)行預(yù)測的方法好?;咎卣髦底詈髸且粋€(gè)極大的稀疏矩陣。
4. 歸一化和標(biāo)準(zhǔn)化。特征值之間的數(shù)值還是要保持在一個(gè)數(shù)量級上,否則模型會打破每個(gè)特征值是同等重要的原則。比如收入和年齡,收入遠(yuǎn)比年齡數(shù)值大,這時(shí)候就要標(biāo)準(zhǔn)化特征。
5.模型選取上svm, rf, adaboost,xgboost等。得學(xué)習(xí)。
6. 模型評估還是很重要的。 一般通過f1評估。 像阿里音樂比賽,那大神用的就是評估函數(shù)的極值加到每個(gè)播放量上進(jìn)行預(yù)測,分?jǐn)?shù)提高很多。
7. supervised—labled well
unsupervised- cluster well
reinforcement- behavior well