推薦系統(tǒng)技術(shù)文檔

目錄

第一章????????? 綜述......................................................................................... 1

1.1???????? 項(xiàng)目背景............................................................................... 1

1.2???????? 應(yīng)用場景............................................................................... 1

第二章????????? 總體架構(gòu)............................................................................... 3

2.1???????? 算法概述............................................................................... 3

2.2???????? 主要問題............................................................................... 6

第三章????????? 推薦算法............................................................................... 8

3.1???????? 相似新聞推薦...................................................................... 8

3.2???????? 用戶畫像推薦.................................................................... 10

3.3???????? 協(xié)同過濾推薦.................................................................... 12

第四章????????? 總結(jié)回顧............................................................................. 15

第五章????????? 附錄:.................................................................................. 17

?

第一章?????? 綜述

1.1?????? 項(xiàng)目背景

在過去傳統(tǒng)的門戶網(wǎng)站、互聯(lián)網(wǎng)產(chǎn)品等領(lǐng)域,存在基于編輯或者運(yùn)營人員手動(dòng)進(jìn)行配置推送的信息推送,但這樣的方式效率低下,推薦效果有待商榷。隨著互聯(lián)網(wǎng)對大數(shù)據(jù)、算法模型的進(jìn)一步應(yīng)用,逐漸有算法機(jī)器替代人工進(jìn)行推薦,并且達(dá)到諸如“千人千面”、“個(gè)性化”推薦的效果。

基于大數(shù)據(jù)的推薦系統(tǒng),核心是基于基礎(chǔ)數(shù)據(jù)+算法模型+計(jì)算過程的技術(shù)流程,旨在幫助用戶解決在海量信息中、目的不是很明確的情況,快速獲取信息、主動(dòng)篩選信息的痛點(diǎn),以此來提升用戶的進(jìn)一步轉(zhuǎn)化。其中,最核心的問題是要推的準(zhǔn)、推的及時(shí)、推的恰到好處,否則就是反作用(信息冗余,客戶逆反心理)。

1.2?????? 應(yīng)用場景

很多耳熟能詳?shù)耐扑]算法,解決的往往某種特定情況下的推薦機(jī)制問題,一般情況下,一個(gè)完整的推薦系統(tǒng)應(yīng)該是復(fù)合了多種推薦算法,相互補(bǔ)充、相互完善,綜合來說,各種理論邏輯、算法機(jī)制是構(gòu)建推薦系統(tǒng)的核心支撐。

在新聞推薦的時(shí)候,我們不僅要根據(jù)讀者興趣進(jìn)行個(gè)性化推薦,同時(shí)需要考慮到興趣的遷移、興趣的提升,不能完全被興趣羈絆,在算法設(shè)計(jì)上就要打破這樣的桎梏,在興趣的周圍做一些嘗試,更要兼顧熱點(diǎn)新聞,當(dāng)然,熱點(diǎn)新聞可能與興趣關(guān)系不大,綜合考慮多種場景,這樣才可能 是一個(gè)比較完善的新聞推薦系統(tǒng)。

故此,在客戶端我們可以簡單的做這樣的設(shè)計(jì),看過這篇文章的人還看了、猜你喜歡、為你推薦等等這樣的場景。

第二章?????? 總體架構(gòu)


2.1?????? 算法概述


1.?? 推薦算法概述-基于內(nèi)容屬性相似的推薦

從原始數(shù)據(jù)依賴的層面來說,常見的有基于內(nèi)容屬性的推薦機(jī)制,這種推薦邏輯很簡單,只是單純的依賴物品之間的屬性相似來構(gòu)建推薦關(guān)系,容易理解,有些場景中是有一定效果的,但實(shí)際上很多時(shí)候會(huì)存在這幾種情況,導(dǎo)致了這種原始推薦失效。

u? 如果用戶瀏覽當(dāng)前的新聞本身就不是用戶的菜,甚至是一個(gè)非優(yōu)質(zhì)信息(當(dāng)前主體不可控),再基于當(dāng)前物品進(jìn)行推薦就是個(gè)偽命題。

u? 基于上面這條,即使當(dāng)前主體是用戶的目標(biāo),但再推類似主體會(huì)造成信息冗余,即當(dāng)前主體信息已經(jīng)解決了用戶的問題。

所以,由于用戶行為的不可控,基于內(nèi)容屬性相似的推薦,風(fēng)險(xiǎn)還是挺高的,這是導(dǎo)致了這種原始直接的機(jī)制并不會(huì)得到廣泛的推廣。但與亂推薦相比,還是有一定正向作用的,畢竟用戶瀏覽的主體是自身選擇的結(jié)果,本身用戶對于其選擇的信息主體是有一定偏好性的

2. 推薦算法概述-基于用戶畫像的推薦

基于物品本身屬性的推薦,與個(gè)性化是沒有確定關(guān)系,畢竟推薦候選集只跟物品主體有關(guān),與用戶行為軌跡無關(guān),嚴(yán)格來說算不了個(gè)性化。

而基于用戶畫像(基于用戶標(biāo)簽)的推薦,則更大程度上依賴于用戶的畫像屬性來推薦,這就體現(xiàn)了用戶偏好信息,根據(jù)偏好信息來選擇候選集。

這是一種很通用的做法,并且在大規(guī)模數(shù)據(jù)集情況下,很多實(shí)際的產(chǎn)生過程中喜歡使用這種機(jī)制。而用戶的畫像,或者更具體點(diǎn)用戶的興趣標(biāo)簽如何構(gòu)建呢?其實(shí)就是依賴用戶累積的行為數(shù)據(jù)了,通過行為數(shù)據(jù)生成用戶的興趣標(biāo)簽。

這看似是一種相對靠譜的做法,畢竟如果把用戶的愛好都分析清楚了,主動(dòng)給用戶做推薦不就顯得很個(gè)性化了嗎?但在實(shí)際的場景中,還是有很多不足之處:

l? 首先,并不是所有用戶的行為都足夠用來表征其興趣偏好的,即我們會(huì)高估用戶的行為集合,從而產(chǎn)生有偏差的畫像屬性,更甚者,如果用戶完全沒有行為怎么辦呢?

l? 其次,通常來說,用戶的興趣愛好是會(huì)隨時(shí)間遷移而改變的,所以,把我用戶的興趣程度以及其變化并不是一個(gè)容易的事情,更何況用戶實(shí)際的選擇還會(huì)受很多因素影響,比如,我當(dāng)前查找的一個(gè)信息并不是我之前掌握的信息,那意味著這些信息偏好在我的歷史軌跡中都體現(xiàn)不出來,那單純的通過我的興趣去推薦就顯得不靠譜了。

但不管怎么說,根據(jù)用戶的偏好來做推薦,大方向肯定是沒有問題的。

3. 推薦算法概述-基于協(xié)同過濾的推薦

協(xié)同過濾,作為推薦領(lǐng)域典型案例的存在,它不會(huì)去研究物品的本身屬性,甚至也沒有空去構(gòu)建用戶的畫像標(biāo)簽,正如他的名字描述的一樣,他嚴(yán)重依靠于用戶的行為以及其周邊用戶的協(xié)同行為。舉個(gè)例子,為一個(gè)用戶推薦信息,那么我只需要參考其周邊用戶在看什么信息,就給他推薦什么信息就好了。

重點(diǎn)在于,如何限定周邊這個(gè)范圍,比如根據(jù)兩個(gè)用戶的行為,去構(gòu)建相關(guān)關(guān)系,從而判斷用戶之間的相似程度,把相似用戶的行為推薦給當(dāng)前用戶,這就是協(xié)同中典型的基于用戶推薦。

而如果以新聞推薦為維度,以用戶的瀏覽記錄為向量,則可以構(gòu)建新聞的相似度量,針對于每一個(gè)待推薦選項(xiàng),用戶的歷史軌跡就是其向量構(gòu)成,就可以判斷該用戶歷史的軌跡信息與當(dāng)前的待選新聞的向量相關(guān)度了,從而判斷是否要推薦,這就是基于物品的協(xié)同邏輯。

與基于用戶畫像的推薦對比,這種推薦有一定幾率可以發(fā)現(xiàn)新物品,即并不嚴(yán)格依賴用戶的興趣。舉個(gè)例子,假設(shè)幾個(gè)信息的層級(jí)是ABC,并且ABC是層級(jí)遞進(jìn)關(guān)系,并不是同一個(gè)東西,對于一個(gè)用戶來說,他掌握的是A,則意味著他的興趣偏好大多偏向于A,根據(jù)興趣標(biāo)簽,其實(shí)是很難推薦這種遞進(jìn)相關(guān)的信息。

但是,如果其他用戶的學(xué)習(xí)軌跡都是A->B->C這種軌跡,這意味著ABC三者之間本身就有前后潛在邏輯關(guān)系存在的,基于協(xié)同,即可為該用戶在掌握A的基礎(chǔ)上,推薦BC的內(nèi)容,這也是基于興趣所做不到的地方。

當(dāng)前,基于協(xié)同行為的推薦,除了基于物品還有基于用戶,還有其他諸如基于模型的協(xié)同,典型如最近鄰模型、基于矩陣分解、以及基于圖關(guān)系模型的構(gòu)建的推薦機(jī)制。

2.2?????? 主要問題

1. 冷啟動(dòng)問題的解決

所謂冷啟動(dòng),即在推薦系統(tǒng)初期時(shí),沒有任何用戶與物品的交集信息,即無用戶的行為軌跡,無法通過類似協(xié)同或者用戶偏好等方式進(jìn)行推薦,這種時(shí)候,我們就稱推薦系統(tǒng)處于冷啟動(dòng)狀態(tài)。

這種情況,我們需要盡快的累積起第一批用戶行為軌跡。我們可以通過基于內(nèi)容的推薦,或者做一些其他類似的操作,快速有效的進(jìn)行物品推薦。一段時(shí)間后,累積到一定的用戶行為時(shí),整個(gè)系統(tǒng)就能夠正常使用協(xié)同過濾等方式進(jìn)行推薦了。

但是,針對于新加入的用戶,或者新加入的物品,同樣也是出于冷啟動(dòng)狀態(tài)的,這個(gè)時(shí)候,我們通過需要對這種物品或者用戶做特殊的處理。

除了基于內(nèi)容屬性的推薦,我們還有其他的一些策略用于彌補(bǔ)這種行為數(shù)據(jù)不足的情況,比如典型的熱度模型,推薦熱點(diǎn)信息這種行為雖然low,但是從整體的反饋來看,還是有一定效果的,此外,還可以根據(jù)一些統(tǒng)計(jì)學(xué)上的結(jié)論,進(jìn)行基于統(tǒng)計(jì)分析結(jié)論的推薦。

除此之外,我們也可以通過其他渠道收集用戶的數(shù)據(jù),比如用戶注冊的時(shí)候所填寫的個(gè)人資料,這些都是可以作為推薦的原始依賴數(shù)據(jù)。

2. 馬太效應(yīng)

馬太效應(yīng)或者說長尾效應(yīng),即熱者愈熱,實(shí)際舉例來說就是,在實(shí)際的購買場景中,由于你推薦的次數(shù)越多,部分優(yōu)質(zhì)的商品購買或者點(diǎn)擊的次數(shù)就越多,形成的用戶購買軌跡就越多,所以得到的推薦機(jī)會(huì)就越多,進(jìn)而產(chǎn)生的推薦也越多,變得越熱。

隨著不斷迭代,子子孫孫無窮盡也,這樣得到推薦的商品就會(huì)集中在少部分商品中,而大部分長尾商品是沉寂的,一個(gè)推薦系統(tǒng)如果長時(shí)間處于長尾效應(yīng)中,造成推薦疲勞,其推薦效果就會(huì)減弱。

所以,一個(gè)好的推薦系統(tǒng),要考慮到適當(dāng)?shù)耐诰蜷L尾商品,通過真的個(gè)性化,把適當(dāng)?shù)拈L尾商品送到真正需要他們的人手里,在實(shí)際的操作過程中,我們可以適當(dāng)?shù)倪M(jìn)行熱度降權(quán),從而讓一些中下層的商品得到更多的曝光機(jī)會(huì),當(dāng)然前提是保證點(diǎn)擊率的情況下。

另外一個(gè)場景會(huì)形成馬太效應(yīng)的是熱度模型,即我們的熱度榜單,長時(shí)間的高居榜首,一定會(huì)獲得更多的點(diǎn)擊,而點(diǎn)擊越多其熱度越高,但我們的信息是需要保持新鮮度的,不然點(diǎn)擊率遲早會(huì)下架的。

所以,我們使用一些機(jī)制讓處于頭部的商品或者信息降權(quán),時(shí)間衰減是一個(gè)比較通用的做法,即隨著時(shí)間的遷移,其整體熱度會(huì)不斷的下降,至于說下降的方式,速率就看模型的設(shè)計(jì)了。

第三章?????? 推薦算法

3.1?????? 相似新聞推薦


圖 整體技術(shù)架構(gòu)

相似計(jì)算的過程

相似的計(jì)算有很多算法可以選擇,每一種都有各自的特點(diǎn)以及適用的場景。相似計(jì)算中使用最多的有歐式距離、余弦相似等,余弦相似也就是余弦夾角可以有效規(guī)避個(gè)體相同認(rèn)知中不同程度的差異表現(xiàn),更注重維度之間的差異,而不注重?cái)?shù)值上的差異,而歐式距離則是對個(gè)體異常數(shù)值會(huì)比較敏感。

這意味著,在我們需要區(qū)分異常樣本時(shí),使用距離計(jì)算會(huì)更恰當(dāng),聚個(gè)栗子,比如電商領(lǐng)域中高價(jià)值與低價(jià)值用戶的區(qū)分,其實(shí)我們核心是想把他們的差異性拉大的,得以體現(xiàn)出對比,這個(gè)時(shí)候使用余弦就是不合理的。

在回歸到距離上說,市面上除了歐式距離,還有好幾種距離度量,諸如馬氏、曼哈頓距離等等,其實(shí)其度量側(cè)重都是不一樣的,我們需要結(jié)合實(shí)際的場景去使用。還有更偏向于相關(guān)度量的皮爾森相關(guān)系數(shù)等。

計(jì)算矩陣過大的問題

按照標(biāo)準(zhǔn)流程,假設(shè)有1萬條新聞,則對于每條新聞來說,需要與其他新聞?dòng)?jì)算與其的相似度或者相關(guān)度,然后再排個(gè)序,取TopN形成自身的待推薦列表。那么,簡單的數(shù)學(xué)題來了10000*10000=10000萬次計(jì)算,這顯然是不合理的。

所以,優(yōu)化這個(gè)過程是必然的。核心思想其實(shí)就是初篩,把不同層級(jí)把關(guān)系不大的直接刪掉,省掉計(jì)算相似的過程,節(jié)省資源。如何篩選?一個(gè)比較常見的做法是,尋找核心關(guān)鍵影響因素,保證關(guān)鍵因素的相關(guān)性。

比如,在相似新聞推薦過程中,先按照頻道進(jìn)行初篩,已經(jīng)過濾掉很多數(shù)據(jù),然后對目標(biāo)數(shù)據(jù)集進(jìn)行倒排索引,其實(shí)已經(jīng)能把大部分相關(guān)度很低的候選集給過濾掉,對于整體計(jì)算量級(jí)來說,計(jì)算復(fù)雜度直接下降。

多影響因子權(quán)重權(quán)衡(暫時(shí)不予考慮)

基于屬性計(jì)算相似,從整體上來看,其實(shí)一般主體都不止一個(gè)屬性,那么計(jì)算相關(guān)的時(shí)候到底看那個(gè)屬性呢?或者說哪些屬性應(yīng)該占有更高的權(quán)重,哪些因素是次要因素。

比如在電影推薦的過程中,電影標(biāo)簽只是其中的一個(gè)維度,其他的還有定影的類別、年代、導(dǎo)演等其他的因子。

回到常規(guī)問題,如何確定影響權(quán)重是個(gè)操作難題。最簡單并且實(shí)際上還挺有效的一種方式就是專家評(píng)判法,即通過權(quán)威經(jīng)驗(yàn)來劃定影響因子的權(quán)重,還有就是通過標(biāo)注的樣本進(jìn)行反向擬合每種因素的占比權(quán)重。除此之外還有一些其他學(xué)術(shù)上的方法,包括什么主成分分析法,層次分析法,還有什么熵權(quán)法,其實(shí)都是找因子影響能力的主次關(guān)系。

最終確定好了影響因素,在實(shí)際上線回收到數(shù)據(jù)之后,依然是需要逐步的進(jìn)行權(quán)重影響調(diào)整的,我們可以通過結(jié)果的樣本數(shù)據(jù),進(jìn)行LR的回歸擬合,尋找最合適的權(quán)重配比。

3.2?????? 用戶畫像推薦

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 基于用戶畫像的個(gè)性化推薦策略

業(yè)務(wù)處理的邏輯是,先根據(jù)行為數(shù)據(jù),抽取用戶瀏覽的新聞,然后根據(jù)做瀏覽的新聞的標(biāo)簽,映射到用戶,進(jìn)行用戶畫像的構(gòu)建,最后根據(jù)新聞標(biāo)簽結(jié)合用戶畫像為用戶進(jìn)行信息推薦。注意,這里與之前的實(shí)例不同的是,我們是基于用戶進(jìn)行推薦的,而上個(gè)實(shí)例是在瀏覽某個(gè)內(nèi)容的時(shí)候,進(jìn)行相關(guān)內(nèi)容推薦,這里以及進(jìn)化到了根據(jù)人進(jìn)行推薦了。

這里要重點(diǎn)介紹標(biāo)簽及其權(quán)重的提?。?/p>

TF-IDF算法(term frequency–inverse document frequency):TF-IDF是一種統(tǒng)計(jì)方法,用以評(píng)估一字詞對于一個(gè)文件集或一個(gè)語料庫中的其中一份

文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語料庫中出現(xiàn)的頻率成反比下降。

如何理解“字詞的重要性”,以及“正比增加”與“反比下降”?

(1)“字詞的重要性”:因?yàn)椴檎业氖俏谋镜年P(guān)鍵詞,所以要將文本中最“重要”,或者做最能體現(xiàn)文本內(nèi)容獨(dú)特性的那些詞語找出來。

(2)“正比增加”:如果一個(gè)詞在文本中出現(xiàn)的次數(shù)越多,那么我們就越有理由認(rèn)為該詞就屬于文本的關(guān)鍵詞之一。

(3)“反比下降”:但是有些詞如“中國”、“社會(huì)”、“媒體”等詞,可能是在各個(gè)新聞里都容易出現(xiàn)的高頻率詞,針對這樣的詞,我們就需要以一種方式降低它對于單獨(dú)文檔內(nèi)容的獨(dú)特性貢獻(xiàn)。即若一個(gè)詞在整個(gè)語料庫的所有文檔里都有出現(xiàn),那么在計(jì)算單個(gè)文檔的關(guān)鍵詞時(shí),我們就會(huì)相應(yīng)地調(diào)整該詞屬于文檔關(guān)鍵詞的可能性。

用戶畫像注意的問題

基于用戶畫像的推薦機(jī)制在實(shí)際操作中,其實(shí)還有很多需要考慮的地方,并沒有想象中簡單。

首先,用戶的行為并沒有我們想象中靠譜。一方面用戶的行為數(shù)據(jù),有時(shí)候并不是其興趣特點(diǎn)所表現(xiàn),這點(diǎn)很顯然,比如如果系統(tǒng)把一些信息故意放在很顯眼的位置,那么對于一般用戶來說,不點(diǎn)也得點(diǎn)了,所以就會(huì)造成這種用戶數(shù)據(jù)其實(shí)是不那么靠譜的。另一方面是如果用戶產(chǎn)生了行為數(shù)據(jù),但是行為數(shù)據(jù)并不足夠多,那么這個(gè)時(shí)候其實(shí)這些行為數(shù)據(jù)是有置信度的考量的,行為數(shù)據(jù)不夠產(chǎn)生的描述是有可能形成偏差的,再根據(jù)有偏差的數(shù)據(jù)去做推薦,那結(jié)果只能是更離譜了。

其次,用戶興趣時(shí)效性問題,用戶的興趣是有一定時(shí)效性的。舉個(gè)例子,我在一年前瀏覽新聞的記錄,還適合放到現(xiàn)在做我的畫像分析嗎?不一定的,因?yàn)槲业呐d趣可能已經(jīng)隨時(shí)間偏移了,過去我所喜歡的東西,現(xiàn)在我已經(jīng)不喜歡了。

所以,在一般實(shí)際操作的過程中,一定需要分辨用戶的興趣數(shù)據(jù)的有效性,一般情況下,我們會(huì)進(jìn)行長期興趣和短期興趣的區(qū)分,人在一定時(shí)間內(nèi)其興趣是固定的,并且在一些很短暫的時(shí)間段內(nèi),比如一兩天、甚至是一天內(nèi),其關(guān)注點(diǎn)是有一定意義的,這個(gè)時(shí)候其短期興趣就生效了。

所以,我們在實(shí)際操作的時(shí)候,長期興趣、短期興趣的具體的應(yīng)用就需要結(jié)合實(shí)際的場景的區(qū)分了,已經(jīng)我們需要注意原始數(shù)據(jù)是否適合做興趣描述的來源數(shù)據(jù),是否已經(jīng)失效。

最后,冷啟動(dòng)的問題。所有涉及到行為數(shù)據(jù)的推薦算法,都繞不開冷啟動(dòng)的問題,即一個(gè)用戶是個(gè)新手,沒有任何行為記錄留下,這意味著我們就無法分析其畫像了,這個(gè)時(shí)候就稱之為該用戶的冷啟動(dòng)。在前面,我們有提到過一些解決冷啟動(dòng)的機(jī)制,比如基于內(nèi)容推薦,進(jìn)行熱點(diǎn)內(nèi)容推薦(比如把最熱門的一些新聞推給該用戶,還比如根據(jù)整體數(shù)據(jù)做關(guān)聯(lián)推薦這個(gè)后面再講,方式很多,效果不一,需要根據(jù)具體情況來看了,再不行就想辦法在用戶注冊的時(shí)候盡可能的收集用戶的靜態(tài)數(shù)據(jù),再根據(jù)用戶的靜態(tài)畫像數(shù)據(jù)來推薦,總比亂推的好。

3.3?????? 協(xié)同過濾推薦


圖4技術(shù)架構(gòu)模塊流程圖

通過上面的學(xué)習(xí),我們大致認(rèn)識(shí)到了一個(gè)點(diǎn),那就是如果要達(dá)到推薦個(gè)性化的目的,核心還是用戶的行為數(shù)據(jù),只有用戶各自的行為數(shù)據(jù)才能反饋其與其他人所不一樣的特性,從而有針對性的進(jìn)行推薦。按上個(gè)章節(jié)的原話,大致就是這樣的:

實(shí)際上基于用戶畫像的個(gè)性化推薦依然是有缺陷的,比如他不會(huì)做用戶興趣的升級(jí),而實(shí)際上一些知識(shí)本身就是具有一定的階梯性的。

舉個(gè)例子就很容易理解了,比如,你對大數(shù)據(jù)的東西很感興趣,于是系統(tǒng)根據(jù)你的興趣偏好天天給你推Hadoop、大數(shù)據(jù)各種技術(shù)框架等信息,在某個(gè)時(shí)間段可能是合理,比如我對大數(shù)據(jù)領(lǐng)域已經(jīng)熟知了呢?你還給我天天推送大數(shù)據(jù)相關(guān)的信息。

而我實(shí)際上是需要尋求大數(shù)據(jù)關(guān)聯(lián)的信息,甚至是升級(jí)的信息,比如基于大數(shù)據(jù)的機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘相關(guān)的東西,這個(gè)機(jī)制是無法做到這一層的。

換句話說,基于用戶畫像的推薦,無法發(fā)現(xiàn)新知識(shí)(跟你之前的興趣愛好相對比),推薦的候選集永遠(yuǎn)圈定在你的興趣標(biāo)簽維度內(nèi),做不到認(rèn)知的升級(jí),而實(shí)際上認(rèn)知是會(huì)進(jìn)行升級(jí)的,特別是隨著你捕獲的知識(shí)信息越多的情況下,你就越會(huì)對更上層的其他知識(shí)感興趣,不斷的深入下去。

而基于協(xié)同過濾的推薦,或多或少能解決一點(diǎn)這類問題,最起碼能夠結(jié)合本身用戶的行為,讓你觸達(dá)新的知識(shí)信息,并且這種遞進(jìn)是通過協(xié)同關(guān)系得到的,意味著是大部分人的共同選擇,所以還是具有一定合理性的。

協(xié)同過濾又分為基于用戶的協(xié)同(UserCF)、基于物品的協(xié)同(ItemCF),以及基于模型的協(xié)同(ModelCF)。在這里,我們主要用的是基于用戶的協(xié)同過濾推薦(UserCF)。

基于用戶的協(xié)同過濾,即我們希望通過用戶之間的關(guān)系來達(dá)到推薦新聞的目的,于是,給某用戶推薦新聞,即轉(zhuǎn)換為尋找為這個(gè)用戶尋找他的相似用戶,然后相似用戶喜的瀏覽的新聞,也可能是這個(gè)用戶喜歡的新聞。

計(jì)算相似算法,一般來講分為兩種,距離和余弦夾角,有些時(shí)候,也可以添加一個(gè)維度,帶有喜好程度的描述,比如對于某條新聞打多少分的這種表現(xiàn)形式。這樣的話,針對于后一種情況,我們就需要在求在計(jì)算相似度時(shí),加入程度的權(quán)重考量。

第四章?????? 總結(jié)回顧

目前很多主流推薦系統(tǒng)都是基于用戶的畫像、興趣愛好推薦的(這是一種相對靠譜,又容易在大規(guī)模用戶場景中使用的策略),你越是被他推薦的東西牽著走,你后續(xù)就會(huì)越陷入其中,最終導(dǎo)致了你所獲取的信息一直都是圈定在某個(gè)范圍內(nèi)的,這就是所謂的“信息繭房”。

其實(shí)要形成信息繭房一方面是由于推薦機(jī)制導(dǎo)致的,另一方面跟場景也是有很大關(guān)系的,比如如果用戶被你所推薦的東西所推動(dòng),那么就容易陷入這種狀態(tài),如果用戶獲取信息的渠道有多種(比如導(dǎo)航、搜索等等),那么就不那么容易。

典型如今日頭條,如果在前期你不小心點(diǎn)擊了一些比較low的內(nèi)容,然后它就越給你推類似的文章,結(jié)果你越看,它就越推,于是你所看到的東西都是一大坨類似離譜八卦了。從直觀的角度看,今日頭條重度依賴于用戶的閱讀行為,而頭條又是一個(gè)重推薦場景的產(chǎn)品,所以會(huì)相對容易陷入“信息繭房”的這種情況。

從目前看,頭條解決這個(gè)問題的途徑是,給出熱度頻道,這個(gè)邏輯一定程度上降低用戶的興趣偏愛分析,這樣用戶能夠接觸到信息面就會(huì)更廣,進(jìn)而促使用戶能夠調(diào)整其興趣,不斷的更新其興趣。

單純從轉(zhuǎn)化的角度看來,短期內(nèi)可能對于系統(tǒng)側(cè)來說是正向的,因?yàn)樗挪粫?huì)關(guān)注到底是不是“信息繭房”,他只關(guān)注轉(zhuǎn)化有沒有提升,但長期來說,對于用戶就是一種損害。所以,我們在考慮設(shè)計(jì)推薦策略算法的時(shí)候,多多少少都會(huì)考慮推薦的新穎性。

但新穎性這東西就是一個(gè)雙刃劍,新的東西意味著不確定,不確定意味著可能低的轉(zhuǎn)化,所以好的推薦系統(tǒng)一定是在確保你興趣的同時(shí),又會(huì)考慮新穎,并且這是一種順其自然的推薦信息主體的過渡,構(gòu)建起你偏好信息與新信息之間的關(guān)聯(lián)性,讓你同樣有欲望去點(diǎn)擊那些新的東西,不過這就很難是了。

第五章?????? 附錄:

Hbase數(shù)據(jù)庫(實(shí)時(shí)流處理結(jié)果)


Hive數(shù)據(jù)倉庫(歷史數(shù)據(jù))

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容