推薦算法主要有三種
第一種是基于群體的推薦,比如說(shuō)三歲的小孩往往需要喝奶粉,要尿布,那我們就統(tǒng)計(jì)三歲嬰兒適用的奶粉里哪些最流行,推薦給娃兒是三歲的用戶,這種根據(jù)大眾行為的推薦,往往是給所有人或者一個(gè)群體做推薦,做起來(lái)比較簡(jiǎn)單,也不存在“冷啟動(dòng)”的問(wèn)題,這種推薦算法用的最廣,即便是線下的大超市,也會(huì)告訴你當(dāng)月賣的最火的是啥,效果也還行;
第二種是基于內(nèi)容的推薦,比如一個(gè)用戶老是買最貴的新西蘭奶粉,系統(tǒng)給奶粉標(biāo)記幾個(gè)元數(shù)據(jù),比如進(jìn)口,食品,高價(jià),推薦系統(tǒng)就可以認(rèn)為這人對(duì)國(guó)產(chǎn)食品不放心,而且支付能力尚可,那么就可以給它推薦,其它標(biāo)記有“進(jìn)口”或者"高價(jià)"的商品,這種推薦方式存在一個(gè)冷啟動(dòng)的問(wèn)題,就是偶爾的幾次購(gòu)買,無(wú)法給出足夠的可靠性來(lái)給人做推薦,另外還存在一個(gè)人工訓(xùn)練的問(wèn)題,因?yàn)樯唐返木S度,需要人工錄入,錄入的時(shí)候也可能錄入錯(cuò)誤,類似的比如豆瓣上的書(shū),如果出版日期或者作者錄入的時(shí)候就是錯(cuò)誤的,那么對(duì)推薦就會(huì)有影響;
第三種方式就是協(xié)同推薦了,通俗的說(shuō)法就是尿布和啤酒的故事,大意就是說(shuō)找到item(可以是商品或者顧客)的關(guān)聯(lián)性,再根據(jù)這些item的關(guān)聯(lián)性做推薦,這種算法也有冷啟動(dòng)的問(wèn)題,就是矩陣稀疏的時(shí)候,算出來(lái)的效果和隨機(jī)的沒(méi)啥兩樣,它比第二種方式好的地方是不用人工訓(xùn)練,在電商行業(yè),這種算法應(yīng)用的最廣,效果也是最好。
這三種算法,其實(shí)分別是基于統(tǒng)計(jì)的,監(jiān)督型的,非監(jiān)督型的算法。
在推薦系統(tǒng)起步的階段,往往會(huì)面臨兩個(gè)問(wèn)題,第一是新用戶往往是從來(lái)沒(méi)登陸過(guò)的,也就是冷啟動(dòng)用戶多,第二個(gè)問(wèn)題是沒(méi)有足夠的人手做數(shù)據(jù)清洗,做模型訓(xùn)練,也就是說(shuō)監(jiān)督型的算法,沒(méi)法兒弄。
針對(duì)這兩個(gè)問(wèn)題,我覺(jué)得比較好的做法有以下三點(diǎn):
一是盡量獲取盡可能多的用戶數(shù)據(jù),有了數(shù)據(jù)才好做推薦;
二是做混合型的算法,這樣可以避免冷啟動(dòng)的問(wèn)題;
三是模型建立時(shí)多參考營(yíng)銷專家的意見(jiàn),把他們的經(jīng)驗(yàn)算法化,針對(duì)性更強(qiáng)。