轉(zhuǎn)移
用戶的行為分為顯性行為和硬性行為。前者明確的表現(xiàn)用戶對于物品的喜好,后者則不能明確表現(xiàn)。前者是諸如評分,喜歡不喜歡。很多網(wǎng)站都只有隱性行為。對比來看,前者明確傳達(dá)用戶興趣,通常數(shù)量少,正負(fù)反饋均有,后者不能明確傳達(dá),數(shù)量龐大,只有正反饋。
新用戶熱衷于瀏覽熱門的物品,老用戶熱衷于冷門的物品。
基于用戶的協(xié)同過濾算法,兩個(gè)步驟:找到和目標(biāo)用戶興趣相似的用戶集合,找到集合中用戶喜歡且目標(biāo)用戶沒有聽說過的物品推薦給用戶。首先需要計(jì)算用戶相似度。用戶對冷門物品采取行為更能說明他們興趣的相似度。如幾乎所有人都購買過新華字典,但是購買數(shù)據(jù)挖掘?qū)д摰娜孙@然興趣更加相似。對通用物品權(quán)值可考慮進(jìn)行處理。(相似用戶集合,單個(gè)相似用戶)
基于物品的協(xié)同過濾算法,目前業(yè)界使用最多的算法。物品A和物品B相似度是因?yàn)橄矚g物品A的用戶大都喜歡物品B。兩個(gè)步驟,計(jì)算物品之間的相似度,根據(jù)物品的相似度和用戶的歷史行為為用戶生成推薦列表。同上理論,對于熱門物品的權(quán)重加一定的懲罰因素。同時(shí),活躍用戶對于物品的相似度的貢獻(xiàn)要小于不活躍用戶。
UserCF推薦著重于反映用戶興趣相似的小群體熱點(diǎn)。而ItemCF著重于維系用戶歷史興趣。前者更加社交化,反映用戶所在的小興趣群體中物品的熱門程度,后者更加個(gè)性化,對用戶興趣的延伸。
冷啟動(dòng)問題分三類:
用戶冷啟動(dòng),新用戶如何個(gè)性化推薦。物品冷啟動(dòng),新的物品怎樣傳遞到它感興趣的用戶。系統(tǒng)冷啟動(dòng),新的系統(tǒng)的啟動(dòng)。
熱度分 = 初始熱度分 + 用戶交互產(chǎn)生的熱度分 – 隨時(shí)間衰減的熱度分
Score = S0 + S(Users) – S(Time)
初始熱度不應(yīng)該相同,讓用戶關(guān)注度高的類別獲得更高的初始熱度分,從而獲得更多的曝光。對于重大事件的報(bào)道,如何讓它入庫時(shí)就有更高的熱度,我們采用的是熱詞匹配的方式。
例如對于單條新聞,用戶可以點(diǎn)擊閱讀(click),收藏(favor),分享(share),評論(comment)這四種行為,我們?yōu)椴煌男袨橘x予分?jǐn)?shù),就能得到新聞的實(shí)時(shí)用戶行為分為:
S(Users) = 1*click + 5*favor + 10*comment + 20*share
這里對不同行為賦予的分?jǐn)?shù)為1,5,10,20,但這個(gè)值不能是一成不變的;當(dāng)用戶規(guī)模小的時(shí)候,各項(xiàng)事件都小,此時(shí)需要提高每個(gè)事件的行為分來提升用戶行為的影響力;當(dāng)用戶規(guī)模變大時(shí),行為分也應(yīng)該慢慢降低,因此做內(nèi)容運(yùn)營時(shí),應(yīng)該對行為分不斷調(diào)整。
當(dāng)然也有偷懶的辦法,那就是把用戶規(guī)??紤]進(jìn)去,算固定用戶數(shù)的行為分,即:
S(Users) = (1*click + 5*favor + 10*comment + 20*share)/ DAU * N(固定數(shù))
這樣就保證了在不同用戶規(guī)模下,用戶行為產(chǎn)生的行為分基本穩(wěn)定。
對于冷啟動(dòng)問題,1、可以先提供非個(gè)性化推薦,提供熱門排行榜。2、社交賬號(hào)授權(quán)。3、登錄時(shí)詢問用戶對物品的反饋。4、根據(jù)用戶性別年齡等信息做初步推薦。
對于新加入的物品,利用專家知識(shí),直接賦值,然后數(shù)據(jù)反饋修正。
用戶的注冊信息分為三種,人口統(tǒng)計(jì)學(xué)信息(年齡性別職業(yè)民族學(xué)歷等),用戶興趣描述詢問,其他網(wǎng)站數(shù)據(jù)。
利用人口統(tǒng)計(jì)學(xué)特征再進(jìn)一步結(jié)合熱門排行榜進(jìn)行推薦。推薦數(shù)據(jù)可離線。如性別-關(guān)聯(lián)電視劇表,年齡-關(guān)聯(lián)電視劇表,職業(yè)-關(guān)聯(lián)電視劇表。根據(jù)相關(guān)表查詢時(shí)又可根據(jù)權(quán)重相互疊加給出推薦列表。利用用戶的人口統(tǒng)計(jì)學(xué)特征越多,越能準(zhǔn)確的預(yù)測用戶興趣。
詢問用戶興趣的方式,即用戶第一個(gè)訪問推薦系統(tǒng)的時(shí)候,給用戶提供典型物品,讓用戶反饋是否喜歡,根據(jù)用戶的初期反饋?zhàn)鳛橥扑]冷啟動(dòng)數(shù)據(jù)。一般而言推薦的物品1需要比較熱門,太冷門用戶不知道內(nèi)容無法做出準(zhǔn)確反饋;2具有代表性和區(qū)分性,不能是大眾化的;3具有多樣性,涵蓋主流的元素。
一種內(nèi)容過濾(另一種是協(xié)同過濾)算法:利用物品的內(nèi)容建立空間向量模型,如一個(gè)電影,內(nèi)容有導(dǎo)演演員等將實(shí)體作為標(biāo)簽,如果是文本內(nèi)容就需要引入理解自然語言的技術(shù)抽取關(guān)鍵詞。對于中文,將文本進(jìn)行分詞,將字流轉(zhuǎn)換為詞流,然后從詞流中檢測出實(shí)體(如人名地名),然后對關(guān)鍵詞進(jìn)行排名計(jì)算權(quán)重,生成關(guān)鍵詞向量。物品如果是電影,根據(jù)演員在劇中的重要程度賦予權(quán)重。雖然丟失了一些信息,如關(guān)鍵詞之間的關(guān)聯(lián),但是對于絕大部分已經(jīng)足夠提供滿意的結(jié)果。給定向量以后可以計(jì)算兩個(gè)物品的余弦夾角。
內(nèi)容過濾算法,在覆蓋率上優(yōu)秀,但是忽略了用戶行為,從而忽略了用戶行為所包含的規(guī)律,因此精度較低,但是新穎度高。當(dāng)然有時(shí)候用戶的行為強(qiáng)烈的受某一個(gè)屬性影響,使用內(nèi)容過濾優(yōu)于協(xié)同過濾。
物品冷啟動(dòng),發(fā)揮專家的作用。潘多拉,國外的個(gè)性化音樂電臺(tái)產(chǎn)品,歌最多有400個(gè)特征,潘多拉稱特征為基因,建立400維的坐標(biāo),通過向量相似度計(jì)算歌曲相似度。
推薦系統(tǒng)的目的是聯(lián)系用戶的興趣和物品,這種聯(lián)系需要不同的媒介。
標(biāo)簽是一種無層次結(jié)構(gòu),用來描述信息的關(guān)鍵詞。根據(jù)給物品打標(biāo)簽的人,標(biāo)簽應(yīng)用分為兩種,作者和專家打,再就是用戶自己打UGC。讓用戶去描述定義標(biāo)簽顯然是比較重的方式,只對特殊的產(chǎn)品有用。有一種有意思的做法,專家打標(biāo)簽,分發(fā)給用戶的時(shí)候讓用戶點(diǎn)擊是否某標(biāo)簽符合物品。
基于標(biāo)簽的推薦是具有多樣性的,同時(shí)提供了推薦理由。推薦理由首先讓用戶覺得標(biāo)簽云是有意義的,然后覺得從某個(gè)標(biāo)簽推薦某種物品是有意義的。就推薦理由而言,客觀類標(biāo)簽優(yōu)于主觀類標(biāo)簽。