2019-04-04

本周任務(wù):

1.了解產(chǎn)品

2.構(gòu)建用戶畫像(個(gè)人偏好中的類別和標(biāo)簽還有國家、場景等自己想)

2.1用到的數(shù)據(jù)有:用戶數(shù)據(jù)和行為數(shù)據(jù)

3.社會畫像(即物品畫像、類別、標(biāo)簽等、網(wǎng)易根據(jù)協(xié)同過濾,即物品之間的相似性通過機(jī)器學(xué)習(xí)來貼標(biāo)簽)。然后數(shù)據(jù)找碧波要。

在推薦系統(tǒng)中利用情境信息有多種方法,大致可以分為兩類:1.通過情境驅(qū)動的查詢和搜索產(chǎn)生的推薦,使用這種方法的系統(tǒng)通常使用的情境信息(可能式直接詢問并獲得用戶當(dāng)前的情緒或興趣,或從環(huán)境中獲得當(dāng)?shù)氐臅r(shí)間、天氣或地理位置)去查詢或搜索某些資料庫(如餐廳),同時(shí)給用戶提供匹配度最好的資源(如附近哪些餐館在營業(yè))。2.通過情境偏好提取和估計(jì)的推薦,使用這種方法的技術(shù)試圖通過學(xué)習(xí)來對用戶的偏好建模。這可以通過觀察系統(tǒng)中用戶和其他用戶的交互行為,或通過獲取用戶對以前推薦的物品的偏好反饋。為了對用戶的情境敏感屬性建模并產(chǎn)生推薦,這些技術(shù)會采用基于內(nèi)容的協(xié)同過濾,或者綜合各種情境感知的推薦方法,或者引入數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)領(lǐng)域的各種智能數(shù)據(jù)分析技術(shù)(如貝葉斯分類器和支持向量機(jī))。

一般來說,傳統(tǒng)的二維(用戶——物品)推薦系統(tǒng)可以描述為一個(gè)函數(shù),它把用戶部分偏好數(shù)據(jù)作為其輸入,產(chǎn)生的每個(gè)用戶的推薦列表作為輸出。

8.推薦系統(tǒng)的評估

起初,大多數(shù)推薦系統(tǒng)基于準(zhǔn)確率(準(zhǔn)確預(yù)測用戶行為的能力)進(jìn)行評估和排名。然而現(xiàn)在人們普遍認(rèn)為準(zhǔn)確率固然重要,但還不足夠部署一個(gè)好的推薦系統(tǒng)。在許多應(yīng)用中人們使用推薦系統(tǒng)不僅式為了預(yù)測用戶品味的準(zhǔn)確率。同時(shí)用戶可能對發(fā)現(xiàn)新物品、迅速發(fā)掘多樣性物品、隱私保護(hù)、系統(tǒng)響應(yīng)速度以及其他更多的推薦引擎的屬性感興趣。所以我們必須識別出在具體應(yīng)用上下文中哪些屬性會影響推薦系統(tǒng),然后才能評估系統(tǒng)在相關(guān)屬性上的運(yùn)行性能。

下面為推薦系統(tǒng)的評估過程,討論了三種不同類型的實(shí)驗(yàn):離線實(shí)驗(yàn)、用戶調(diào)查、在線實(shí)驗(yàn)

離線實(shí)驗(yàn)最簡單,它是使用現(xiàn)有的數(shù)據(jù)和通過對用戶行為建模來評估推薦系統(tǒng)的性能,如預(yù)測準(zhǔn)確性。最后在已經(jīng)部署的系統(tǒng)上做大量的實(shí)驗(yàn),稱為在線實(shí)驗(yàn)。

離線實(shí)驗(yàn)的目的是過濾不恰當(dāng)?shù)姆椒?,為成本比較大的用戶調(diào)查和在線實(shí)驗(yàn)提供相對較小的算法候選集進(jìn)行測試。

8.1得出可靠結(jié)論

8.1.2置信度和p值-因幸運(yùn)而獲得結(jié)果的概率。當(dāng)了解估算的可靠性時(shí)就用到了置信區(qū)間。

8.2推薦系統(tǒng)的屬性

在決定選擇哪種方法進(jìn)行推薦時(shí)這些屬性需要考慮。由于不同的應(yīng)用程序有不同的需要,系統(tǒng)設(shè)計(jì)者必須決定對手頭的具體應(yīng)用的哪些重要屬性進(jìn)行評測。一些屬性可能會被折衷。

1.構(gòu)建用戶畫像的步驟(以用戶的觀影為實(shí)例進(jìn)行分析):

1.1收集用戶畫像的數(shù)據(jù),看用戶畫像的數(shù)據(jù)來源。

1.1.1看用戶屬性(用戶屬性用來描述一個(gè)用戶的“個(gè)性”從而與其他用戶加以區(qū)分)。

1.1.2看用戶觀影的行為

1.2用戶畫像特性

1.2.1動態(tài)性:從用戶畫像的數(shù)據(jù)來源分析,顯然用戶畫像具有較強(qiáng)的動態(tài)性,其中,用戶屬性涉及人口統(tǒng)計(jì)特征,相對比較穩(wěn)定,然而用戶的觀影行為則是隨時(shí)間持續(xù)增加的,用戶在系統(tǒng)內(nèi)的每次觀影行為都使得現(xiàn)有的用戶畫像喪失時(shí)效性。此外,用戶會受到周圍環(huán)境、其他用戶等的影響,從而改變其觀影偏好。所有這些都將決定了用戶畫像不可能一塵不變,而是實(shí)時(shí)動態(tài)變化的。這就要求我們設(shè)計(jì)合理有效的動態(tài)更新機(jī)制,從而精準(zhǔn)的刻畫用戶。

1.2.2時(shí)空局限性:首先在時(shí)間上,用戶畫像的目標(biāo)是通過精準(zhǔn)的刻畫用戶,從而提供個(gè)性化的服務(wù),因此,用戶畫像對于時(shí)效性非常敏感,某一時(shí)刻的用戶畫像對該時(shí)刻的推薦結(jié)果最為有效,距離時(shí)間越遠(yuǎn),推薦結(jié)果的精確性越低,參考價(jià)值越差。

其次,在空間上,不同的應(yīng)用領(lǐng)域有不同的側(cè)重點(diǎn),例如營銷領(lǐng)域的用戶畫像主要側(cè)重用戶的消費(fèi)習(xí)慣,而在視頻推薦領(lǐng)域,用戶畫像則主要側(cè)重用戶的觀影喜好,因此,需要針對各自的特點(diǎn)設(shè)計(jì)相應(yīng)的用戶畫像,沒有哪個(gè)用戶畫像一經(jīng)構(gòu)建就可以適用于所有的應(yīng)用領(lǐng)域。

2.用戶畫像建模:

2.1用戶定量畫像

2.2用戶定性畫像

2.2.1標(biāo)簽和用戶定性畫像

(1)如何定義和表示標(biāo)簽?包括標(biāo)簽名稱、標(biāo)簽類別、標(biāo)簽值的取值范圍等。

(2)如何解釋標(biāo)簽?主要是對標(biāo)簽的語義信息進(jìn)行描述,從語義上給出標(biāo)簽的解釋。

(3)如何推理標(biāo)簽?主要是定義相應(yīng)的推理規(guī)則,從而實(shí)現(xiàn)標(biāo)簽之間的推理。

(4)如何驗(yàn)證標(biāo)簽?包括標(biāo)簽的定義是否合理,標(biāo)簽關(guān)系是否一致、正確等。

然后將這些標(biāo)簽用一個(gè)表格來表示。

2.2.2基于知識的用戶定性畫像分析

基于知識的用戶定性畫像主要以觀眾和視頻的相關(guān)知識作為畫像建模的核心。從用戶維度來看,相關(guān)知識包括用戶特征、用戶行為、興趣偏好等;從視頻維度來看,相關(guān)知識包括視頻特征等。視頻特征是對視頻屬性的描述,包括視頻的名稱、類別、導(dǎo)演、主要演員、所屬國家地區(qū)、語言、上映年份、時(shí)長等。視頻特征也與用戶興趣偏好有很大程度的關(guān)系。

從知識類型來看,在視頻推薦應(yīng)用中,相關(guān)知識的類型主要有以下三種

(1)與用戶和視頻特征有關(guān)的屬性知識。

(2)反映用戶興趣偏好的規(guī)則知識。

(3)用于推理和確保關(guān)系完整性、正確性的約束知識。

2.2.3用戶定性畫像的構(gòu)建

構(gòu)建用戶畫像的關(guān)鍵是利用本體對用戶畫像領(lǐng)域中的標(biāo)簽進(jìn)行表示、驗(yàn)證、推理和解釋。本體的結(jié)構(gòu)一般包括類、屬性、實(shí)例、公理和推理規(guī)則。

本體構(gòu)建的關(guān)鍵步驟:

1.構(gòu)建領(lǐng)域詞匯表:詞條名稱如電影,類型為類,詞義描述為所有電影的父類,所屬類別為視頻。

2.確定類與類之間的結(jié)構(gòu),最終形成一種樹狀結(jié)構(gòu)。

3.定義屬性(包括對象屬性和數(shù)據(jù)屬性兩種)

如詞條名稱為主題,類型為屬性,定義域?yàn)橐曨l,值域?yàn)橹黝},,語義描述為影視作品有主題,所屬類別為對象屬性。

如詞條名稱為劇情介紹,類型為屬性,定義域?yàn)橐曨l,值域?yàn)樽址?,語義描述為對影視作品內(nèi)容的簡單介紹,所屬類型為數(shù)據(jù)屬性。

4.定義實(shí)例

例如實(shí)例名稱為張藝謀,所屬類別為導(dǎo)演,說明為中國導(dǎo)演,導(dǎo)演了“紅高粱”等作品。

5.定義約束公理和推理規(guī)則

2.2.4定性畫像知識的存儲

對于本體的存儲,主要有三種方法:

(1)將本體按照某種結(jié)構(gòu)全部存儲在內(nèi)存中,在內(nèi)存結(jié)構(gòu)上執(zhí)行查詢操作,其特點(diǎn)是處理速度快,但是由于物理內(nèi)存的限制,該方法存儲大規(guī)模的本體信息。

(2)將本體存儲為文本文件,該方法簡單實(shí)用,易于實(shí)現(xiàn)。

(3)存在關(guān)系型數(shù)據(jù)庫中。

h.a.5畫像知識的推理

本體中蘊(yùn)含了豐富的語義知識,可以對本體知識庫進(jìn)行推理。對于本體使用者來說,推理的作用主要是獲得本體中特定形式的知識集合,以及運(yùn)用本體中的知識來輔助解決涉及語義的應(yīng)用。

3.群體用戶畫像分析

在設(shè)計(jì)推薦系統(tǒng)時(shí),不可能針對所有的用戶畫像來進(jìn)行設(shè)計(jì),因?yàn)椴煌挠脩舢嬒耖g不可避免存在相互沖突的需求,從而會使得推薦系統(tǒng)難以決斷,因此針對系統(tǒng)中存在的大量的用戶畫像,就需要實(shí)施有效的用戶畫像管理。

用戶畫像作為目標(biāo)用戶的標(biāo)簽化,不僅僅用來分析目標(biāo)用戶,還應(yīng)該包含用戶間的關(guān)聯(lián)分析,即群體用戶畫像。

群體用戶畫像分析的流程主要包括:

(1)用戶畫像獲取??梢酝ㄟ^推薦系統(tǒng)的數(shù)據(jù)統(tǒng)計(jì)模塊獲得。也可以通過用戶訪談和問卷調(diào)研。

(2)用戶畫像相似度計(jì)算。根據(jù)不同的用戶畫像計(jì)算相互間相似程度,是區(qū)分用戶群體的重要指標(biāo),是開展用戶畫像聚類的前提條件。

(3)用戶畫像聚類。根據(jù)用戶畫像間的相似程度,將相似的用戶畫像聚為一類。

(4)群體用戶畫像生成。針對不同類別的用戶分別建立有代表性的典型用戶畫像。

3.1用戶畫像相似度

3.1.1定量相似度計(jì)算

3.1.2定性相似度計(jì)算

3.1.3綜合相似度計(jì)算

3.2用戶畫像聚類

在實(shí)際開發(fā)中,不能為超過三個(gè)的用戶畫像設(shè)計(jì)產(chǎn)品,否則相互沖突的需求會讓系統(tǒng)功能難以取舍。當(dāng)我們有多個(gè)用戶畫像時(shí),我們需要考慮用戶畫像的優(yōu)先級,在產(chǎn)品設(shè)計(jì)時(shí),首先考慮滿足首要用戶畫像的需求,然后在不沖突的情況下盡量滿足次要用戶畫像的需求。

用戶畫像聚類時(shí)根據(jù)用戶畫像本身的特征進(jìn)行分類的一種方法。

4.用戶畫像管理

用戶畫像作為一種刻畫目標(biāo)用戶,連接用戶需求與系統(tǒng)設(shè)計(jì)的有效工具,用戶畫像主要包含定性畫像定量畫像兩部分,其中,定性畫像主要包括用戶的基本特征、行為刻畫、興趣模型和視頻表征等,定量畫像主要包括用戶基礎(chǔ)變量、興趣偏好等可量化的數(shù)據(jù)特征。

用戶畫像的表現(xiàn)形式眾多,常見的有:(1)關(guān)鍵詞法,即一組代表用戶屬性的特征詞。

(2)評分矩陣法,即二維矩陣的行來表示用戶,列表示特征項(xiàng)目,行列的交叉點(diǎn)為某用戶對某特征項(xiàng)目的評分。

(3)向量空間表示法,給出一組關(guān)鍵詞及對應(yīng)的比重。

(4)本體表示法,以本體模型存儲用戶的屬性和關(guān)系。

4.1存儲機(jī)制

4.1.1關(guān)系型數(shù)據(jù)庫

4.1.2NoSQL數(shù)據(jù)庫

目前流行的NoSQL數(shù)據(jù)庫大體可以分為以下幾類:

(1)鍵值存儲數(shù)據(jù)庫。

(2)列存儲數(shù)據(jù)庫

(3)文檔型數(shù)據(jù)庫

(4)圖形數(shù)據(jù)庫

4.1.3數(shù)據(jù)倉庫

4.2查詢機(jī)制

(1)用戶畫像的用途決定了畫像數(shù)據(jù)主要以查詢?yōu)橹鳌?/p>

(2)在涉及用戶畫像的大量查詢中,通常有很多查詢都是重復(fù)的,很少一部分查詢就占了用戶需求的大部分。

4.3定時(shí)更新機(jī)制

有效的用戶畫像需要不斷地進(jìn)行完善和持續(xù)更新。

用戶畫像地更新機(jī)制按工作流程主要涉及以下幾個(gè)問題

(1)如何獲取實(shí)時(shí)變化的用戶畫像數(shù)據(jù)。

(2)如何設(shè)置合適的用戶畫像更新觸發(fā)條件。

(3)高效的更新算法。

4.3.1獲取實(shí)時(shí)用戶信息

1.靜態(tài)信息數(shù)據(jù)

2.動態(tài)信息數(shù)據(jù)

用戶不斷變化的行為信息,如觀看視頻、搜索信息、發(fā)表評分、接觸渠道等,這類信息一般為非結(jié)構(gòu)化或半結(jié)構(gòu)化信息,其收集方式主要為隱式收集。

4.3.2更新觸發(fā)條件

有三種方式:(1)通過設(shè)置一個(gè)閾值,當(dāng)獲取的實(shí)時(shí)畫像數(shù)據(jù)量超過這一閾值時(shí),根據(jù)存儲的畫像數(shù)據(jù)構(gòu)建用戶畫像,(2)設(shè)置一個(gè)時(shí)間周期,每隔該周期時(shí)間根據(jù)存儲的畫像數(shù)據(jù)構(gòu)建用戶畫像,(3)首先從增加的數(shù)據(jù)中挖掘用戶畫像,然后將其與原先得到的用戶畫像進(jìn)行比較,根據(jù)比較的結(jié)果來決定是否更新。

4.3.3更新機(jī)制

用戶數(shù)據(jù)總是處在不斷更新的狀態(tài),當(dāng)用戶畫像數(shù)據(jù)庫發(fā)生變化后,如何對已經(jīng)得到的用戶畫像進(jìn)行更新維護(hù)是需要解決的重要問題,一個(gè)直接的辦法是直接更新,即讀取所有歷史用戶數(shù)據(jù)重新生成用戶畫像。再者增量更新是指在進(jìn)行更新操作時(shí),只更新需要改變的地方,不需要更新或者已經(jīng)更新過的地方則不會重復(fù)更新。

5.視頻推薦概述

5.1主流推薦方法的分類

5.1.1協(xié)同過濾的推薦方法

5.1.2基于內(nèi)容的推薦方法

5.1.3基于知識的推薦方法

5.1.4混合推薦方法

5.2推薦系統(tǒng)的評測方法

5.3視頻推薦與用戶畫像的邏輯關(guān)系

6.協(xié)同過濾的推薦方法

分為以記憶為基礎(chǔ)的協(xié)同過濾和以模型為基礎(chǔ)的協(xié)同過濾。

7.基于內(nèi)容的推薦方法(CB)

7.2CB推薦中的特征向量

在CB推薦系統(tǒng)中,需要為每個(gè)物品創(chuàng)建一個(gè)物品畫像用于記錄該物品的內(nèi)容固有屬性,也需要為每個(gè)用戶創(chuàng)建一個(gè)用戶畫像用于記錄用戶的特定偏好。物品——用戶畫像的本質(zhì)是由一些表示特征的向量組成。

7.3基礎(chǔ)CB推薦算法、基于TF-IDF的CB推薦算法、基于KNN的CB推薦算法、基于Rocchio的CB推薦算法、基于決策樹的CB推薦算法、基于線性分類的CB推薦算法、基于樸素貝葉斯的CB推薦算法。


































?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 作者 | HCY崇遠(yuǎn) 01 前言 本文源自于前陣子連續(xù)更新的推薦系統(tǒng)系列,前段時(shí)間給朋友整理一個(gè)關(guān)于推薦系統(tǒng)相關(guān)的...
    daos閱讀 5,776評論 0 77
  • 茶,是一片樹葉的故事,流轉(zhuǎn)千年,名播四海,更是人的故事。 一杯茶,一個(gè)人。喝下去的是滋味,品出來的是人生。 茶分喬...
    茶人老七閱讀 7,977評論 0 2
  • 其實(shí)已經(jīng)是七夕了。 想著七夕要出去采樣,然后就在周日兩人一起約著出去吃多倫多海鮮自助,順便慶祝我們在一起260天。...
    小河海閱讀 173評論 1 0
  • 年少時(shí),無所顧忌,只是遵從自己的心 慢慢地,我找到了我生命里的那束光 是——我最想要到達(dá)的地方,北大 我羨慕能夠在...
    游子說閱讀 650評論 2 3
  • 【原文】 子張問明。子曰:"浸潤之譖(zèn),膚受之愬(sù),不行焉,可謂明也已矣。浸潤之譖,膚受之愬,不行焉...
    王曉珊_閱讀 562評論 1 0

友情鏈接更多精彩內(nèi)容