ID3:最大信息增益,只能處理離散特征,只能做分類(lèi),多叉樹(shù),不能處理缺失值。C4.5:最大信息增益率,可以對(duì)連續(xù)型變量劃分分割點(diǎn)變?yōu)檫B續(xù)型變量進(jìn)而進(jìn)行處理,只能做分類(lèi),多叉樹(shù)...
ID3:最大信息增益,只能處理離散特征,只能做分類(lèi),多叉樹(shù),不能處理缺失值。C4.5:最大信息增益率,可以對(duì)連續(xù)型變量劃分分割點(diǎn)變?yōu)檫B續(xù)型變量進(jìn)而進(jìn)行處理,只能做分類(lèi),多叉樹(shù)...
背景: 數(shù)據(jù)量15w, 正負(fù)樣本不均衡 負(fù)樣本是正樣本的4倍。 劃分train :test_total為 1:1 ,各7.5w。 每次采樣過(guò)后正負(fù)樣本比例基本保持不變。1:4...
主要是對(duì)實(shí)習(xí)期間涉及到的知識(shí)進(jìn)行梳理。 背景:視頻推薦(手機(jī)端,TV端等)。場(chǎng)景:feed 流,瀑布流(猜你喜歡),短視頻 Tab 等。 召回涉及到的方法(以短視頻 Tab ...
推薦系統(tǒng)的 fairness bias debias 1 population imbalance用戶(hù)不應(yīng)因?yàn)樽陨淼男詣e 年齡 種族而接受到不同的推薦結(jié)果 僅僅是出于政治...
索引推薦系統(tǒng)為什么需要索引這一概念? 索引即指 物料的ID我們可以根據(jù)這一ID去取到物料的各種屬性字段。(正排索引)以特征為出發(fā)點(diǎn)去找具備這些特征的物料。(倒排索引)基本上都...