欧美日韩一本,国产春色另类

第一章????????? 綜述......................................................................................... 1

1.1???????? 項(xiàng)目背景............................................................................... 1

1.2???????? 應(yīng)用場景............................................................................... 1

第二章????????? 總體架構(gòu)............................................................................... 3

2.1???????? 算法概述............................................................................... 3

2.2???????? 主要問題............................................................................... 6

第三章????????? 推薦算法............................................................................... 8

3.1???????? 相似新聞推薦...................................................................... 8

3.2???????? 用戶畫像推薦.................................................................... 10

3.3???????? 協(xié)同過濾推薦.................................................................... 12

第四章????????? 總結(jié)回顧............................................................................. 15

第五章????????? 附錄：.................................................................................. 17

第一章?????? 綜述

1.1?????? 項(xiàng)目背景

在過去傳統(tǒng)的門戶網(wǎng)站、互聯(lián)網(wǎng)產(chǎn)品等領(lǐng)域，存在基于編輯或者運(yùn)營人員手動(dòng)進(jìn)行配置推送的信息推送，但這樣的方式效率低下，推薦效果有待商榷。隨著互聯(lián)網(wǎng)對大數(shù)據(jù)、算法模型的進(jìn)一步應(yīng)用，逐漸有算法機(jī)器替代人工進(jìn)行推薦，并且達(dá)到諸如“千人千面”、“個(gè)性化”推薦的效果。

基于大數(shù)據(jù)的推薦系統(tǒng)，核心是基于基礎(chǔ)數(shù)據(jù)+算法模型+計(jì)算過程的技術(shù)流程，旨在幫助用戶解決在海量信息中、目的不是很明確的情況，快速獲取信息、主動(dòng)篩選信息的痛點(diǎn)，以此來提升用戶的進(jìn)一步轉(zhuǎn)化。其中，最核心的問題是要推的準(zhǔn)、推的及時(shí)、推的恰到好處，否則就是反作用（信息冗余，客戶逆反心理）。

1.2?????? 應(yīng)用場景

很多耳熟能詳?shù)耐扑]算法，解決的往往某種特定情況下的推薦機(jī)制問題，一般情況下，一個(gè)完整的推薦系統(tǒng)應(yīng)該是復(fù)合了多種推薦算法，相互補(bǔ)充、相互完善，綜合來說，各種理論邏輯、算法機(jī)制是構(gòu)建推薦系統(tǒng)的核心支撐。

在新聞推薦的時(shí)候，我們不僅要根據(jù)讀者興趣進(jìn)行個(gè)性化推薦，同時(shí)需要考慮到興趣的遷移、興趣的提升，不能完全被興趣羈絆，在算法設(shè)計(jì)上就要打破這樣的桎梏，在興趣的周圍做一些嘗試，更要兼顧熱點(diǎn)新聞，當(dāng)然，熱點(diǎn)新聞可能與興趣關(guān)系不大，綜合考慮多種場景，這樣才可能　是一個(gè)比較完善的新聞推薦系統(tǒng)。

故此，在客戶端我們可以簡單的做這樣的設(shè)計(jì)，看過這篇文章的人還看了、猜你喜歡、為你推薦等等這樣的場景。

第二章?????? 總體架構(gòu)

2.1?????? 算法概述

1.?? 推薦算法概述-基于內(nèi)容屬性相似的推薦

從原始數(shù)據(jù)依賴的層面來說，常見的有基于內(nèi)容屬性的推薦機(jī)制，這種推薦邏輯很簡單，只是單純的依賴物品之間的屬性相似來構(gòu)建推薦關(guān)系，容易理解，有些場景中是有一定效果的，但實(shí)際上很多時(shí)候會(huì)存在這幾種情況，導(dǎo)致了這種原始推薦失效。

u? 如果用戶瀏覽當(dāng)前的新聞本身就不是用戶的菜，甚至是一個(gè)非優(yōu)質(zhì)信息（當(dāng)前主體不可控），再基于當(dāng)前物品進(jìn)行推薦就是個(gè)偽命題。

u? 基于上面這條，即使當(dāng)前主體是用戶的目標(biāo)，但再推類似主體會(huì)造成信息冗余，即當(dāng)前主體信息已經(jīng)解決了用戶的問題。

所以，由于用戶行為的不可控，基于內(nèi)容屬性相似的推薦，風(fēng)險(xiǎn)還是挺高的，這是導(dǎo)致了這種原始直接的機(jī)制并不會(huì)得到廣泛的推廣。但與亂推薦相比，還是有一定正向作用的，畢竟用戶瀏覽的主體是自身選擇的結(jié)果，本身用戶對于其選擇的信息主體是有一定偏好性的

2. 推薦算法概述-基于用戶畫像的推薦

基于物品本身屬性的推薦，與個(gè)性化是沒有確定關(guān)系，畢竟推薦候選集只跟物品主體有關(guān)，與用戶行為軌跡無關(guān)，嚴(yán)格來說算不了個(gè)性化。

而基于用戶畫像（基于用戶標(biāo)簽）的推薦，則更大程度上依賴于用戶的畫像屬性來推薦，這就體現(xiàn)了用戶偏好信息，根據(jù)偏好信息來選擇候選集。

這是一種很通用的做法，并且在大規(guī)模數(shù)據(jù)集情況下，很多實(shí)際的產(chǎn)生過程中喜歡使用這種機(jī)制。而用戶的畫像，或者更具體點(diǎn)用戶的興趣標(biāo)簽如何構(gòu)建呢？其實(shí)就是依賴用戶累積的行為數(shù)據(jù)了，通過行為數(shù)據(jù)生成用戶的興趣標(biāo)簽。

這看似是一種相對靠譜的做法，畢竟如果把用戶的愛好都分析清楚了，主動(dòng)給用戶做推薦不就顯得很個(gè)性化了嗎？但在實(shí)際的場景中，還是有很多不足之處：

l? 首先，并不是所有用戶的行為都足夠用來表征其興趣偏好的，即我們會(huì)高估用戶的行為集合，從而產(chǎn)生有偏差的畫像屬性，更甚者，如果用戶完全沒有行為怎么辦呢？

l? 其次，通常來說，用戶的興趣愛好是會(huì)隨時(shí)間遷移而改變的，所以，把我用戶的興趣程度以及其變化并不是一個(gè)容易的事情，更何況用戶實(shí)際的選擇還會(huì)受很多因素影響，比如，我當(dāng)前查找的一個(gè)信息并不是我之前掌握的信息，那意味著這些信息偏好在我的歷史軌跡中都體現(xiàn)不出來，那單純的通過我的興趣去推薦就顯得不靠譜了。

但不管怎么說，根據(jù)用戶的偏好來做推薦，大方向肯定是沒有問題的。

3. 推薦算法概述-基于協(xié)同過濾的推薦

協(xié)同過濾，作為推薦領(lǐng)域典型案例的存在，它不會(huì)去研究物品的本身屬性，甚至也沒有空去構(gòu)建用戶的畫像標(biāo)簽，正如他的名字描述的一樣，他嚴(yán)重依靠于用戶的行為以及其周邊用戶的協(xié)同行為。舉個(gè)例子，為一個(gè)用戶推薦信息，那么我只需要參考其周邊用戶在看什么信息，就給他推薦什么信息就好了。

重點(diǎn)在于，如何限定周邊這個(gè)范圍，比如根據(jù)兩個(gè)用戶的行為，去構(gòu)建相關(guān)關(guān)系，從而判斷用戶之間的相似程度，把相似用戶的行為推薦給當(dāng)前用戶，這就是協(xié)同中典型的基于用戶推薦。

而如果以新聞推薦為維度，以用戶的瀏覽記錄為向量，則可以構(gòu)建新聞的相似度量，針對于每一個(gè)待推薦選項(xiàng)，用戶的歷史軌跡就是其向量構(gòu)成，就可以判斷該用戶歷史的軌跡信息與當(dāng)前的待選新聞的向量相關(guān)度了，從而判斷是否要推薦，這就是基于物品的協(xié)同邏輯。

與基于用戶畫像的推薦對比，這種推薦有一定幾率可以發(fā)現(xiàn)新物品，即并不嚴(yán)格依賴用戶的興趣。舉個(gè)例子，假設(shè)幾個(gè)信息的層級(jí)是ABC，并且ABC是層級(jí)遞進(jìn)關(guān)系，并不是同一個(gè)東西，對于一個(gè)用戶來說，他掌握的是A，則意味著他的興趣偏好大多偏向于A，根據(jù)興趣標(biāo)簽，其實(shí)是很難推薦這種遞進(jìn)相關(guān)的信息。

但是，如果其他用戶的學(xué)習(xí)軌跡都是A->B->C這種軌跡，這意味著ABC三者之間本身就有前后潛在邏輯關(guān)系存在的，基于協(xié)同，即可為該用戶在掌握A的基礎(chǔ)上，推薦BC的內(nèi)容，這也是基于興趣所做不到的地方。

當(dāng)前，基于協(xié)同行為的推薦，除了基于物品還有基于用戶，還有其他諸如基于模型的協(xié)同，典型如最近鄰模型、基于矩陣分解、以及基于圖關(guān)系模型的構(gòu)建的推薦機(jī)制。

2.2?????? 主要問題

1. 冷啟動(dòng)問題的解決

所謂冷啟動(dòng)，即在推薦系統(tǒng)初期時(shí)，沒有任何用戶與物品的交集信息，即無用戶的行為軌跡，無法通過類似協(xié)同或者用戶偏好等方式進(jìn)行推薦，這種時(shí)候，我們就稱推薦系統(tǒng)處于冷啟動(dòng)狀態(tài)。

這種情況，我們需要盡快的累積起第一批用戶行為軌跡。我們可以通過基于內(nèi)容的推薦，或者做一些其他類似的操作，快速有效的進(jìn)行物品推薦。一段時(shí)間后，累積到一定的用戶行為時(shí)，整個(gè)系統(tǒng)就能夠正常使用協(xié)同過濾等方式進(jìn)行推薦了。

但是，針對于新加入的用戶，或者新加入的物品，同樣也是出于冷啟動(dòng)狀態(tài)的，這個(gè)時(shí)候，我們通過需要對這種物品或者用戶做特殊的處理。

除了基于內(nèi)容屬性的推薦，我們還有其他的一些策略用于彌補(bǔ)這種行為數(shù)據(jù)不足的情況，比如典型的熱度模型，推薦熱點(diǎn)信息這種行為雖然low，但是從整體的反饋來看，還是有一定效果的，此外，還可以根據(jù)一些統(tǒng)計(jì)學(xué)上的結(jié)論，進(jìn)行基于統(tǒng)計(jì)分析結(jié)論的推薦。

除此之外，我們也可以通過其他渠道收集用戶的數(shù)據(jù)，比如用戶注冊的時(shí)候所填寫的個(gè)人資料，這些都是可以作為推薦的原始依賴數(shù)據(jù)。

2. 馬太效應(yīng)

馬太效應(yīng)或者說長尾效應(yīng)，即熱者愈熱，實(shí)際舉例來說就是，在實(shí)際的購買場景中，由于你推薦的次數(shù)越多，部分優(yōu)質(zhì)的商品購買或者點(diǎn)擊的次數(shù)就越多，形成的用戶購買軌跡就越多，所以得到的推薦機(jī)會(huì)就越多，進(jìn)而產(chǎn)生的推薦也越多，變得越熱。

隨著不斷迭代，子子孫孫無窮盡也，這樣得到推薦的商品就會(huì)集中在少部分商品中，而大部分長尾商品是沉寂的，一個(gè)推薦系統(tǒng)如果長時(shí)間處于長尾效應(yīng)中，造成推薦疲勞，其推薦效果就會(huì)減弱。

所以，一個(gè)好的推薦系統(tǒng)，要考慮到適當(dāng)?shù)耐诰蜷L尾商品，通過真的個(gè)性化，把適當(dāng)?shù)拈L尾商品送到真正需要他們的人手里，在實(shí)際的操作過程中，我們可以適當(dāng)?shù)倪M(jìn)行熱度降權(quán)，從而讓一些中下層的商品得到更多的曝光機(jī)會(huì)，當(dāng)然前提是保證點(diǎn)擊率的情況下。

另外一個(gè)場景會(huì)形成馬太效應(yīng)的是熱度模型，即我們的熱度榜單，長時(shí)間的高居榜首，一定會(huì)獲得更多的點(diǎn)擊，而點(diǎn)擊越多其熱度越高，但我們的信息是需要保持新鮮度的，不然點(diǎn)擊率遲早會(huì)下架的。

所以，我們使用一些機(jī)制讓處于頭部的商品或者信息降權(quán)，時(shí)間衰減是一個(gè)比較通用的做法，即隨著時(shí)間的遷移，其整體熱度會(huì)不斷的下降，至于說下降的方式，速率就看模型的設(shè)計(jì)了。

第三章?????? 推薦算法

3.1?????? 相似新聞推薦

圖整體技術(shù)架構(gòu)

相似計(jì)算的過程

相似的計(jì)算有很多算法可以選擇，每一種都有各自的特點(diǎn)以及適用的場景。相似計(jì)算中使用最多的有歐式距離、余弦相似等，余弦相似也就是余弦夾角可以有效規(guī)避個(gè)體相同認(rèn)知中不同程度的差異表現(xiàn)，更注重維度之間的差異，而不注重?cái)?shù)值上的差異，而歐式距離則是對個(gè)體異常數(shù)值會(huì)比較敏感。

這意味著，在我們需要區(qū)分異常樣本時(shí)，使用距離計(jì)算會(huì)更恰當(dāng)，聚個(gè)栗子，比如電商領(lǐng)域中高價(jià)值與低價(jià)值用戶的區(qū)分，其實(shí)我們核心是想把他們的差異性拉大的，得以體現(xiàn)出對比，這個(gè)時(shí)候使用余弦就是不合理的。

在回歸到距離上說，市面上除了歐式距離，還有好幾種距離度量，諸如馬氏、曼哈頓距離等等，其實(shí)其度量側(cè)重都是不一樣的，我們需要結(jié)合實(shí)際的場景去使用。還有更偏向于相關(guān)度量的皮爾森相關(guān)系數(shù)等。

計(jì)算矩陣過大的問題

按照標(biāo)準(zhǔn)流程，假設(shè)有1萬條新聞，則對于每條新聞來說，需要與其他新聞?dòng)?jì)算與其的相似度或者相關(guān)度，然后再排個(gè)序，取TopN形成自身的待推薦列表。那么，簡單的數(shù)學(xué)題來了10000*10000=10000萬次計(jì)算，這顯然是不合理的。

所以，優(yōu)化這個(gè)過程是必然的。核心思想其實(shí)就是初篩，把不同層級(jí)把關(guān)系不大的直接刪掉，省掉計(jì)算相似的過程，節(jié)省資源。如何篩選？一個(gè)比較常見的做法是，尋找核心關(guān)鍵影響因素，保證關(guān)鍵因素的相關(guān)性。

比如，在相似新聞推薦過程中，先按照頻道進(jìn)行初篩，已經(jīng)過濾掉很多數(shù)據(jù)，然后對目標(biāo)數(shù)據(jù)集進(jìn)行倒排索引，其實(shí)已經(jīng)能把大部分相關(guān)度很低的候選集給過濾掉，對于整體計(jì)算量級(jí)來說，計(jì)算復(fù)雜度直接下降。

多影響因子權(quán)重權(quán)衡（暫時(shí)不予考慮）

基于屬性計(jì)算相似，從整體上來看，其實(shí)一般主體都不止一個(gè)屬性，那么計(jì)算相關(guān)的時(shí)候到底看那個(gè)屬性呢？或者說哪些屬性應(yīng)該占有更高的權(quán)重，哪些因素是次要因素。

比如在電影推薦的過程中，電影標(biāo)簽只是其中的一個(gè)維度，其他的還有定影的類別、年代、導(dǎo)演等其他的因子。

回到常規(guī)問題，如何確定影響權(quán)重是個(gè)操作難題。最簡單并且實(shí)際上還挺有效的一種方式就是專家評(píng)判法，即通過權(quán)威經(jīng)驗(yàn)來劃定影響因子的權(quán)重，還有就是通過標(biāo)注的樣本進(jìn)行反向擬合每種因素的占比權(quán)重。除此之外還有一些其他學(xué)術(shù)上的方法，包括什么主成分分析法，層次分析法，還有什么熵權(quán)法，其實(shí)都是找因子影響能力的主次關(guān)系。

最終確定好了影響因素，在實(shí)際上線回收到數(shù)據(jù)之后，依然是需要逐步的進(jìn)行權(quán)重影響調(diào)整的，我們可以通過結(jié)果的樣本數(shù)據(jù)，進(jìn)行LR的回歸擬合，尋找最合適的權(quán)重配比。

3.2?????? 用戶畫像推薦

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 基于用戶畫像的個(gè)性化推薦策略

業(yè)務(wù)處理的邏輯是，先根據(jù)行為數(shù)據(jù)，抽取用戶瀏覽的新聞，然后根據(jù)做瀏覽的新聞的標(biāo)簽，映射到用戶，進(jìn)行用戶畫像的構(gòu)建，最后根據(jù)新聞標(biāo)簽結(jié)合用戶畫像為用戶進(jìn)行信息推薦。注意，這里與之前的實(shí)例不同的是，我們是基于用戶進(jìn)行推薦的，而上個(gè)實(shí)例是在瀏覽某個(gè)內(nèi)容的時(shí)候，進(jìn)行相關(guān)內(nèi)容推薦，這里以及進(jìn)化到了根據(jù)人進(jìn)行推薦了。

這里要重點(diǎn)介紹標(biāo)簽及其權(quán)重的提?。?/p>

TF-IDF算法(term frequency–inverse document frequency):TF-IDF是一種統(tǒng)計(jì)方法,用以評(píng)估一字詞對于一個(gè)文件集或一個(gè)語料庫中的其中一份

文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語料庫中出現(xiàn)的頻率成反比下降。

如何理解“字詞的重要性”,以及“正比增加”與“反比下降”?

(1)“字詞的重要性”:因?yàn)椴檎业氖俏谋镜年P(guān)鍵詞,所以要將文本中最“重要”,或者做最能體現(xiàn)文本內(nèi)容獨(dú)特性的那些詞語找出來。

(2)“正比增加”:如果一個(gè)詞在文本中出現(xiàn)的次數(shù)越多,那么我們就越有理由認(rèn)為該詞就屬于文本的關(guān)鍵詞之一。

(3)“反比下降”:但是有些詞如“中國”、“社會(huì)”、“媒體”等詞,可能是在各個(gè)新聞里都容易出現(xiàn)的高頻率詞,針對這樣的詞,我們就需要以一種方式降低它對于單獨(dú)文檔內(nèi)容的獨(dú)特性貢獻(xiàn)。即若一個(gè)詞在整個(gè)語料庫的所有文檔里都有出現(xiàn),那么在計(jì)算單個(gè)文檔的關(guān)鍵詞時(shí),我們就會(huì)相應(yīng)地調(diào)整該詞屬于文檔關(guān)鍵詞的可能性。

用戶畫像注意的問題

基于用戶畫像的推薦機(jī)制在實(shí)際操作中，其實(shí)還有很多需要考慮的地方，并沒有想象中簡單。

首先，用戶的行為并沒有我們想象中靠譜。一方面用戶的行為數(shù)據(jù)，有時(shí)候并不是其興趣特點(diǎn)所表現(xiàn)，這點(diǎn)很顯然，比如如果系統(tǒng)把一些信息故意放在很顯眼的位置，那么對于一般用戶來說，不點(diǎn)也得點(diǎn)了，所以就會(huì)造成這種用戶數(shù)據(jù)其實(shí)是不那么靠譜的。另一方面是如果用戶產(chǎn)生了行為數(shù)據(jù)，但是行為數(shù)據(jù)并不足夠多，那么這個(gè)時(shí)候其實(shí)這些行為數(shù)據(jù)是有置信度的考量的，行為數(shù)據(jù)不夠產(chǎn)生的描述是有可能形成偏差的，再根據(jù)有偏差的數(shù)據(jù)去做推薦，那結(jié)果只能是更離譜了。

其次，用戶興趣時(shí)效性問題，用戶的興趣是有一定時(shí)效性的。舉個(gè)例子，我在一年前瀏覽新聞的記錄，還適合放到現(xiàn)在做我的畫像分析嗎？不一定的，因?yàn)槲业呐d趣可能已經(jīng)隨時(shí)間偏移了，過去我所喜歡的東西，現(xiàn)在我已經(jīng)不喜歡了。

所以，在一般實(shí)際操作的過程中，一定需要分辨用戶的興趣數(shù)據(jù)的有效性，一般情況下，我們會(huì)進(jìn)行長期興趣和短期興趣的區(qū)分，人在一定時(shí)間內(nèi)其興趣是固定的，并且在一些很短暫的時(shí)間段內(nèi)，比如一兩天、甚至是一天內(nèi)，其關(guān)注點(diǎn)是有一定意義的，這個(gè)時(shí)候其短期興趣就生效了。

所以，我們在實(shí)際操作的時(shí)候，長期興趣、短期興趣的具體的應(yīng)用就需要結(jié)合實(shí)際的場景的區(qū)分了，已經(jīng)我們需要注意原始數(shù)據(jù)是否適合做興趣描述的來源數(shù)據(jù)，是否已經(jīng)失效。

最后，冷啟動(dòng)的問題。所有涉及到行為數(shù)據(jù)的推薦算法，都繞不開冷啟動(dòng)的問題，即一個(gè)用戶是個(gè)新手，沒有任何行為記錄留下，這意味著我們就無法分析其畫像了，這個(gè)時(shí)候就稱之為該用戶的冷啟動(dòng)。在前面，我們有提到過一些解決冷啟動(dòng)的機(jī)制，比如基于內(nèi)容推薦，進(jìn)行熱點(diǎn)內(nèi)容推薦（比如把最熱門的一些新聞推給該用戶，還比如根據(jù)整體數(shù)據(jù)做關(guān)聯(lián)推薦這個(gè)后面再講，方式很多，效果不一，需要根據(jù)具體情況來看了，再不行就想辦法在用戶注冊的時(shí)候盡可能的收集用戶的靜態(tài)數(shù)據(jù)，再根據(jù)用戶的靜態(tài)畫像數(shù)據(jù)來推薦，總比亂推的好。

3.3?????? 協(xié)同過濾推薦

圖4技術(shù)架構(gòu)模塊流程圖

通過上面的學(xué)習(xí)，我們大致認(rèn)識(shí)到了一個(gè)點(diǎn)，那就是如果要達(dá)到推薦個(gè)性化的目的，核心還是用戶的行為數(shù)據(jù)，只有用戶各自的行為數(shù)據(jù)才能反饋其與其他人所不一樣的特性，從而有針對性的進(jìn)行推薦。按上個(gè)章節(jié)的原話，大致就是這樣的：

實(shí)際上基于用戶畫像的個(gè)性化推薦依然是有缺陷的，比如他不會(huì)做用戶興趣的升級(jí)，而實(shí)際上一些知識(shí)本身就是具有一定的階梯性的。

舉個(gè)例子就很容易理解了，比如，你對大數(shù)據(jù)的東西很感興趣，于是系統(tǒng)根據(jù)你的興趣偏好天天給你推Hadoop、大數(shù)據(jù)各種技術(shù)框架等信息，在某個(gè)時(shí)間段可能是合理，比如我對大數(shù)據(jù)領(lǐng)域已經(jīng)熟知了呢？你還給我天天推送大數(shù)據(jù)相關(guān)的信息。

而我實(shí)際上是需要尋求大數(shù)據(jù)關(guān)聯(lián)的信息，甚至是升級(jí)的信息，比如基于大數(shù)據(jù)的機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘相關(guān)的東西，這個(gè)機(jī)制是無法做到這一層的。

換句話說，基于用戶畫像的推薦，無法發(fā)現(xiàn)新知識(shí)(跟你之前的興趣愛好相對比)，推薦的候選集永遠(yuǎn)圈定在你的興趣標(biāo)簽維度內(nèi)，做不到認(rèn)知的升級(jí)，而實(shí)際上認(rèn)知是會(huì)進(jìn)行升級(jí)的，特別是隨著你捕獲的知識(shí)信息越多的情況下，你就越會(huì)對更上層的其他知識(shí)感興趣，不斷的深入下去。

而基于協(xié)同過濾的推薦，或多或少能解決一點(diǎn)這類問題，最起碼能夠結(jié)合本身用戶的行為，讓你觸達(dá)新的知識(shí)信息，并且這種遞進(jìn)是通過協(xié)同關(guān)系得到的，意味著是大部分人的共同選擇，所以還是具有一定合理性的。

協(xié)同過濾又分為基于用戶的協(xié)同（UserCF）、基于物品的協(xié)同（ItemCF），以及基于模型的協(xié)同（ModelCF）。在這里，我們主要用的是基于用戶的協(xié)同過濾推薦（UserCF）。

基于用戶的協(xié)同過濾，即我們希望通過用戶之間的關(guān)系來達(dá)到推薦新聞的目的，于是，給某用戶推薦新聞，即轉(zhuǎn)換為尋找為這個(gè)用戶尋找他的相似用戶，然后相似用戶喜的瀏覽的新聞，也可能是這個(gè)用戶喜歡的新聞。

計(jì)算相似算法，一般來講分為兩種，距離和余弦夾角，有些時(shí)候，也可以添加一個(gè)維度，帶有喜好程度的描述，比如對于某條新聞打多少分的這種表現(xiàn)形式。這樣的話，針對于后一種情況，我們就需要在求在計(jì)算相似度時(shí)，加入程度的權(quán)重考量。

第四章?????? 總結(jié)回顧

目前很多主流推薦系統(tǒng)都是基于用戶的畫像、興趣愛好推薦的（這是一種相對靠譜，又容易在大規(guī)模用戶場景中使用的策略），你越是被他推薦的東西牽著走，你后續(xù)就會(huì)越陷入其中，最終導(dǎo)致了你所獲取的信息一直都是圈定在某個(gè)范圍內(nèi)的，這就是所謂的“信息繭房”。

其實(shí)要形成信息繭房一方面是由于推薦機(jī)制導(dǎo)致的，另一方面跟場景也是有很大關(guān)系的，比如如果用戶被你所推薦的東西所推動(dòng)，那么就容易陷入這種狀態(tài)，如果用戶獲取信息的渠道有多種（比如導(dǎo)航、搜索等等），那么就不那么容易。

典型如今日頭條，如果在前期你不小心點(diǎn)擊了一些比較low的內(nèi)容，然后它就越給你推類似的文章，結(jié)果你越看，它就越推，于是你所看到的東西都是一大坨類似離譜八卦了。從直觀的角度看，今日頭條重度依賴于用戶的閱讀行為，而頭條又是一個(gè)重推薦場景的產(chǎn)品，所以會(huì)相對容易陷入“信息繭房”的這種情況。

從目前看，頭條解決這個(gè)問題的途徑是，給出熱度頻道，這個(gè)邏輯一定程度上降低用戶的興趣偏愛分析，這樣用戶能夠接觸到信息面就會(huì)更廣，進(jìn)而促使用戶能夠調(diào)整其興趣，不斷的更新其興趣。

單純從轉(zhuǎn)化的角度看來，短期內(nèi)可能對于系統(tǒng)側(cè)來說是正向的，因?yàn)樗挪粫?huì)關(guān)注到底是不是“信息繭房”，他只關(guān)注轉(zhuǎn)化有沒有提升，但長期來說，對于用戶就是一種損害。所以，我們在考慮設(shè)計(jì)推薦策略算法的時(shí)候，多多少少都會(huì)考慮推薦的新穎性。

但新穎性這東西就是一個(gè)雙刃劍，新的東西意味著不確定，不確定意味著可能低的轉(zhuǎn)化，所以好的推薦系統(tǒng)一定是在確保你興趣的同時(shí)，又會(huì)考慮新穎，并且這是一種順其自然的推薦信息主體的過渡，構(gòu)建起你偏好信息與新信息之間的關(guān)聯(lián)性，讓你同樣有欲望去點(diǎn)擊那些新的東西，不過這就很難是了。

第五章?????? 附錄：

Hbase數(shù)據(jù)庫（實(shí)時(shí)流處理結(jié)果）

Hive數(shù)據(jù)倉庫（歷史數(shù)據(jù)）

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

推薦系統(tǒng)技術(shù)文檔

推薦系統(tǒng)技術(shù)文檔

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

推薦系統(tǒng)技術(shù)文檔

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av