在個(gè)性化盛行的時(shí)代,推薦系統(tǒng)成為產(chǎn)品架構(gòu)中重要一環(huán),承擔(dān)引導(dǎo)、匹配信息等需求。本人由項(xiàng)亮老師的<推薦系統(tǒng)實(shí)踐>出發(fā),介紹推薦系統(tǒng)的一些基礎(chǔ)知識(shí)點(diǎn)。
有興趣的朋友強(qiáng)推<推薦系統(tǒng)實(shí)踐>
一.什么是推薦系統(tǒng)在這個(gè)海量信息的時(shí)代,信息過載給人們帶來太多的成本。
人們逛一家超市想買抽紙,在超市里面眾多的商品中找到抽紙是非常困難的,想要快速找到想買的抽紙必須依靠超市的指示牌。
那引申到互聯(lián)網(wǎng),如何短時(shí)間內(nèi)找到用戶所需要的信息?
早期是依靠分類目錄來幫助用戶找尋信息,但隨著互聯(lián)網(wǎng)規(guī)模不斷增大,分類目錄已不能滿足人們的需求。

據(jù)IDC《數(shù)字宇宙》的研究報(bào)告表明,2020 年全球新建和復(fù)制的信息量將超過40ZB,是2012年的12倍;中國的數(shù)據(jù)量在2020年超過8ZB,比2012年增長(zhǎng)22倍。

在龐大數(shù)據(jù)量的推動(dòng)下衍生出了搜索引擎,用戶可以通過搜索引擎來精準(zhǔn)的找到自己需要的內(nèi)容。
搜索引擎的劣勢(shì)是當(dāng)用戶不能精確地描述自己需要的信息的時(shí)候,搜索引擎就不能發(fā)揮作用,這時(shí)候就誕生出了搜索推薦。
從這個(gè)角度出發(fā),推薦系統(tǒng)和搜索系統(tǒng)的本質(zhì)是一樣的,可以快速發(fā)現(xiàn)有價(jià)值的信息。
不一樣的是,推薦系統(tǒng)不需要用戶提供明確的需求,而是通過分析用戶歷史行為給用戶建模,只能推薦滿足用戶興趣和需求的信息。

從物品的角度來講,大部分物品也有被挖掘的需要,Chris Anderson 在2004年發(fā)表了長(zhǎng)尾理論,在互聯(lián)網(wǎng)時(shí)代下,這部分長(zhǎng)尾商品也能帶來巨大的利潤,因?yàn)檫@些商品也許會(huì)滿足一小部分用戶的需求。
所以還是很有必要去挖掘這部分內(nèi)容的,這時(shí)就利用到了推薦系統(tǒng)來對(duì)用戶進(jìn)行個(gè)性化推薦。
二.推薦系統(tǒng)評(píng)測(cè)
優(yōu)秀的推薦系統(tǒng),可以讓多方共贏。
預(yù)測(cè)準(zhǔn)確度是推薦系統(tǒng)領(lǐng)域的重要指標(biāo),準(zhǔn)確的預(yù)測(cè)并不代表好的推薦。
對(duì)于用戶來說,他會(huì)覺得這個(gè)推薦結(jié)果很不新穎。優(yōu)秀的推薦系統(tǒng)不僅僅能夠準(zhǔn)確預(yù)測(cè)用戶的行為,而且能夠擴(kuò)展用戶的視野,幫助用戶發(fā)現(xiàn)那些他們可能會(huì)感興趣的內(nèi)容
那我們?nèi)绾螠y(cè)量推薦系統(tǒng)的質(zhì)量
有三種方法
1.離線實(shí)驗(yàn)
這個(gè)方法比較像我們做模型的時(shí)候在線下建立測(cè)試集給模型進(jìn)行打分預(yù)測(cè)
優(yōu)點(diǎn):應(yīng)用成本低
缺點(diǎn):結(jié)果不準(zhǔn)確缺少關(guān)聯(lián),無法得到真實(shí)的線上效果
2.用戶調(diào)查
更像我們做的調(diào)查問卷
優(yōu)點(diǎn):可以獲得更主觀的指標(biāo)
缺點(diǎn): 無法組織大規(guī)模的測(cè)試用戶
3.ABtest
也是我們經(jīng)常用到的AB測(cè)在線測(cè)試方法
用戶通過流量分配系統(tǒng)進(jìn)入到不同的推薦系統(tǒng)中,生成的數(shù)據(jù)進(jìn)入到評(píng)測(cè)系統(tǒng)產(chǎn)生實(shí)驗(yàn)報(bào)告
優(yōu)點(diǎn):可以公平獲得不同算法實(shí)際在線時(shí)的性能指標(biāo),包括商業(yè)上關(guān)注的指標(biāo);
缺點(diǎn):周期較長(zhǎng),必須進(jìn)行長(zhǎng)期的實(shí)驗(yàn)才能得到可靠的結(jié)果;
三.推薦數(shù)據(jù)來源
1. 來源一 利用用戶信息
用戶行為數(shù)據(jù)一般存于日志中。
用戶行為可以分為:顯性反饋行為和隱性反饋行為。
顯性反饋:用戶明確表示對(duì)物品喜好的行為
隱性反饋:指不能明確反映用戶喜好的行為(更多的是一種瀏覽行為)
2.來源二 利用用戶標(biāo)簽數(shù)據(jù)
推薦系統(tǒng)的目的是聯(lián)系用戶的興趣和物品,這種聯(lián)系需要依賴不同的媒介。目前流行的有3種方式:物品、用戶、特征。
前兩種我們都很熟悉,特征有不同的表現(xiàn)形式,可以是物品的屬性集合,可以是隱語義向量,這里我們用標(biāo)簽表示。
3.來源三 利用上下文信息
1) 時(shí)間上下文信息
時(shí)間對(duì)用戶興趣的影響:用戶興趣是變化的
,物品也是有生命周期的。
用戶興趣是不斷變化的,其變化體現(xiàn)在用戶不斷增加的新行為中。
一個(gè)實(shí)時(shí)的推薦系統(tǒng)需要能夠?qū)崟r(shí)響應(yīng)用戶新的行為,讓推薦列表不斷變化,從而滿足用戶不斷變化的興趣。
2)地點(diǎn)上下文信息
用戶興趣和地點(diǎn)相關(guān)的兩種特征:
興趣本地化,不同地方的用戶興趣存在著很大的差別,不同國家和地區(qū)用戶的興趣存在著一定的差異性。
活動(dòng)本地化,一個(gè)用戶往往在附近的地區(qū)活動(dòng)。
因此,在基于位置的推薦中我們需要考慮推薦地點(diǎn)和用戶當(dāng)前地點(diǎn)的距離,不能給用戶推薦太遠(yuǎn)的地方。
4.來源四 利用社交網(wǎng)絡(luò)數(shù)據(jù)
獲取社交網(wǎng)絡(luò)數(shù)據(jù)的途徑
電子郵件(郵箱后綴)
用戶注冊(cè)信息(用戶生日性別等等)
論壇和討論組(給人進(jìn)行分組,相同興趣)
地理位置信息(需要手授權(quán))
社交網(wǎng)站(社交信息,點(diǎn)贊,好友列表)
相信,讀完全文的你,對(duì)推薦系統(tǒng)已經(jīng)有一個(gè)初步了解了。預(yù)知更多,強(qiáng)推<推薦系統(tǒng)實(shí)踐>