簡介 K均值聚類,也叫做K-Means Clustering,是一種著名的用于分類問題的無監(jiān)督機(jī)器學(xué)習(xí)聚類算法。聚類是針對(duì)給定的樣本, 依靠它們...
簡介 集成學(xué)習(xí),顧名思義就是將多種學(xué)習(xí)器或算法結(jié)合在一起,共同做出決策。這符合人類集思廣益的做法,在業(yè)界也是應(yīng)用最為廣泛的方法之一。注意,集成學(xué)...
簡介 大概是今年6月份參加微信大數(shù)據(jù)挑戰(zhàn)賽的時(shí)候,我才開始認(rèn)識(shí)到特征選擇也是機(jī)器學(xué)習(xí)中非常重要的一環(huán)。在諸如CTR等比賽中,原始特征往往是不足以...
簡介 決策樹模型是最常見的機(jī)器學(xué)習(xí)方法之一,也是入門機(jī)器學(xué)習(xí)必須掌握的知識(shí)。決策樹模型呈現(xiàn)樹形結(jié)構(gòu),在分類問題中,表示基于特征對(duì)實(shí)例進(jìn)行分類的過...
簡介 特征離散化指的是將連續(xù)特征劃分離散的過程:將原始定量特征的一個(gè)區(qū)間一一映射到單一的值。離散化過程也被表述成分箱(Binning)的過程。特...
簡介 本文主要說明特征工程中關(guān)于序數(shù)特征和類別特征的常用處理方法。主要包含LabelEncoder、One-Hot編碼、DummyCoding、...
簡介 樸素貝葉斯(naive Bayes)算法是基于貝葉斯定理與特征條件獨(dú)立假設(shè)的分類方法。對(duì)于給定的訓(xùn)練數(shù)據(jù)集,首先基于特征條件獨(dú)立假設(shè)學(xué)習(xí)輸...
簡介 在介紹比較復(fù)雜的數(shù)據(jù)類型比如圖像和文本數(shù)據(jù)類似之前,我們首先從最簡單的數(shù)據(jù)類似開始,即:數(shù)值類型。我們收集到的數(shù)據(jù)中,數(shù)值類型數(shù)據(jù)占據(jù)了大...
前言 上個(gè)月參加了微信大數(shù)據(jù)挑戰(zhàn)賽,由于是第一次參加類似的比賽,并沒有什么經(jīng)驗(yàn),最終也沒有進(jìn)復(fù)賽。不過在這期間還是學(xué)到了很多知識(shí),尤其是特征處理...