導(dǎo)讀:用戶畫像將產(chǎn)品設(shè)計(jì)的焦點(diǎn)放在目標(biāo)用戶的動機(jī)和行為上,從而避免產(chǎn)品設(shè)計(jì)人員草率地代表用戶。產(chǎn)品設(shè)計(jì)人員經(jīng)常不自覺的把自己當(dāng)作用戶代表,根據(jù)自己的需求設(shè)計(jì)產(chǎn)品,導(dǎo)致無法抓住實(shí)際用戶的需求。往往對產(chǎn)品做了很多功能的升級,用戶卻覺得體驗(yàn)變差了。
在大數(shù)據(jù)領(lǐng)域,用戶畫像的作用遠(yuǎn)不止于此。用戶的行為數(shù)據(jù)無法直接用于數(shù)據(jù)分析和模型訓(xùn)練,我們也無法從用戶的行為日志中直接獲取有用的信息。而將用戶的行為數(shù)據(jù)標(biāo)簽化以后,我們對用戶就有了一個直觀的認(rèn)識。
同時計(jì)算機(jī)也能夠理解用戶,將用戶的行為信息用于個性化推薦、個性化搜索、廣告精準(zhǔn)投放和智能營銷等領(lǐng)域。
作者:馬海平 于俊 呂昕 向海
本文摘編自《Spark機(jī)器學(xué)習(xí)進(jìn)階實(shí)戰(zhàn)》,如需轉(zhuǎn)載請聯(lián)系我們
01 概述
用戶畫像的核心工作就是給用戶打標(biāo)簽,標(biāo)簽通常是人為規(guī)定的高度精煉的特征標(biāo)識,如年齡、性別、地域、興趣等。這些標(biāo)簽集合就能抽象出一個用戶的信息全貌,如圖10-1所示是某個用戶的標(biāo)簽集合,每個標(biāo)簽分別描述了該用戶的一個維度,各個維度之間相互聯(lián)系,共同構(gòu)成對用戶的一個整體描述。
▲圖10-1 用戶標(biāo)簽集合
02 用戶畫像流程
1. 整體流程
我們對構(gòu)建用戶畫像的方法進(jìn)行總結(jié)歸納,發(fā)現(xiàn)用戶畫像的構(gòu)建一般可以分為目標(biāo)分析、體系構(gòu)建、畫像建立三步。?
畫像構(gòu)建中用到的技術(shù)有數(shù)據(jù)統(tǒng)計(jì)、機(jī)器學(xué)習(xí)和自然語言處理技術(shù)(NLP)等,如圖10-3所示。具體的畫像構(gòu)建方法會在本章后面的部分詳細(xì)介紹。
▲圖10-3 用戶畫像的構(gòu)建技術(shù)
2. 標(biāo)簽體系
目前主流的標(biāo)簽體系都是層次化的,如下圖10-4所示。首先標(biāo)簽分為幾個大類,每個大類下進(jìn)行逐層細(xì)分。在構(gòu)建標(biāo)簽時,我們只需要構(gòu)建最下層的標(biāo)簽,就能夠映射到上面兩級標(biāo)簽。
上層標(biāo)簽都是抽象的標(biāo)簽集合,一般沒有實(shí)用意義,只有統(tǒng)計(jì)意義。例如我們可以統(tǒng)計(jì)有人口屬性標(biāo)簽的用戶比例,但用戶有人口屬性標(biāo)簽本身對廣告投放沒有任何意義。
▲圖10-4 互聯(lián)網(wǎng)大數(shù)據(jù)領(lǐng)域常用標(biāo)簽體系
用于廣告投放和精準(zhǔn)營銷的一般是底層標(biāo)簽,對于底層標(biāo)簽有兩個要求:一個是每個標(biāo)簽只能表示一種含義,避免標(biāo)簽之間的重復(fù)和沖突,便于計(jì)算機(jī)處理;另一個是標(biāo)簽必須有一定的語義,方便相關(guān)人員理解每個標(biāo)簽的含義。
此外,標(biāo)簽的粒度也是需要注意的,標(biāo)簽粒度太粗會沒有區(qū)分度,粒度過細(xì)會導(dǎo)致標(biāo)簽體系太過復(fù)雜而不具有通用性。
表10-1列舉了各個大類常見的底層標(biāo)簽。
標(biāo)簽類別
標(biāo)簽內(nèi)容
人口標(biāo)簽
性別、年齡、地域、教育水平、出生日期、職業(yè)、星座
興趣特征
興趣愛好、使用APP/網(wǎng)站、瀏覽/收藏內(nèi)容、互動內(nèi)容、品牌偏好、產(chǎn)品偏好
社會特征
婚姻狀況、家庭情況、社交/信息渠道偏好
消費(fèi)特征
收入狀況、購買力水平、已購商品、購買渠道偏好、最后購買時間、購買頻次
▲表10-1:常見標(biāo)簽
最后介紹一下各類標(biāo)簽構(gòu)建的優(yōu)先級。構(gòu)建的優(yōu)先級需要綜合考慮業(yè)務(wù)需求、構(gòu)建難易程度等,業(yè)務(wù)需求各有不同,這里介紹的優(yōu)先級排序方法主要依據(jù)構(gòu)建的難易程度和各類標(biāo)簽的依存關(guān)系,優(yōu)先級如圖10-5所示。
▲圖10-5 各類標(biāo)簽的構(gòu)建優(yōu)先級
基于原始數(shù)據(jù)首先構(gòu)建的是事實(shí)標(biāo)簽,事實(shí)標(biāo)簽可以從數(shù)據(jù)庫直接獲?。ㄈ缱孕畔ⅲ?,或通過簡單的統(tǒng)計(jì)得到。這類標(biāo)簽構(gòu)建難度低、實(shí)際含義明確,且部分標(biāo)簽可用作后續(xù)標(biāo)簽挖掘的基礎(chǔ)特征(如產(chǎn)品購買次數(shù)可用來作為用戶購物偏好的輸入特征數(shù)據(jù))。
事實(shí)標(biāo)簽的構(gòu)造過程,也是對數(shù)據(jù)加深理解的過程。對數(shù)據(jù)進(jìn)行統(tǒng)計(jì)的同時,不僅完成了數(shù)據(jù)的處理與加工,也對數(shù)據(jù)的分布有了一定的了解,為高級標(biāo)簽的構(gòu)造做好了準(zhǔn)備。
模型標(biāo)簽是標(biāo)簽體系的核心,也是用戶畫像工作量最大的部分,大多數(shù)用戶標(biāo)簽的核心都是模型標(biāo)簽。模型標(biāo)簽的構(gòu)造大多需要用到機(jī)器學(xué)習(xí)和自然語言處理技術(shù),我們下文中介紹的標(biāo)簽構(gòu)造方法主要指的是模型標(biāo)簽,具體的構(gòu)造算法會在本文第03章詳細(xì)介紹。
最后構(gòu)造的是高級標(biāo)簽,高級標(biāo)簽是基于事實(shí)標(biāo)簽和模型標(biāo)簽進(jìn)行統(tǒng)計(jì)建模得出的,它的構(gòu)造多與實(shí)際的業(yè)務(wù)指標(biāo)緊密聯(lián)系。只有完成基礎(chǔ)標(biāo)簽的構(gòu)建,才能夠構(gòu)造高級標(biāo)簽。構(gòu)建高級標(biāo)簽使用的模型,可以是簡單的數(shù)據(jù)統(tǒng)計(jì),也可以是復(fù)雜的機(jī)器學(xué)習(xí)模型。
03 構(gòu)建用戶畫像
我們把標(biāo)簽分為三類,這三類標(biāo)簽有較大的差異,構(gòu)建時用到的技術(shù)差別也很大。
第一類是人口屬性,這一類標(biāo)簽比較穩(wěn)定,一旦建立很長一段時間基本不用更新,標(biāo)簽體系也比較固定;第二類是興趣屬性,這類標(biāo)簽隨時間變化很快,標(biāo)簽有很強(qiáng)的時效性,標(biāo)簽體系也不固定;第三類是地理屬性,這一類標(biāo)簽的時效性跨度很大,如GPS軌跡標(biāo)簽需要做到實(shí)時更新,而常住地標(biāo)簽一般可以幾個月不用更新,挖掘的方法和前面兩類也大有不同,如圖10-6所示。
▲圖10-6 三類標(biāo)簽屬性
1. 人口屬性畫像
人口屬性包括年齡、性別、學(xué)歷、人生階段、收入水平、消費(fèi)水平、所屬行業(yè)等。這些標(biāo)簽基本是穩(wěn)定的,構(gòu)建一次可以很長一段時間不用更新,標(biāo)簽的有效期都在一個月以上。同時標(biāo)簽體系的劃分也比較固定,表10-2是MMA中國無線營銷聯(lián)盟對人口屬性的一個劃分。
大部分主流的人口屬性標(biāo)簽都和這個體系比較類似,有些在分段上有一些區(qū)別。
性別
男
女
未知
年齡
12 以下
12-17
18-19
20-24
25-29
30-34
35-39
40-44
45-49
50-54
55-59
60-64
65 及以上
未知
月收入
3500 元以下
3500-5000 元
5000-8000 元
8000-12500 元
12500-25000 元
25001-40000
40000 元以上
未知
婚姻狀態(tài)
未婚
已婚
離異
未知
從事行業(yè)
廣告/營銷/公關(guān)
航天
農(nóng)林化工
汽車
計(jì)算機(jī)/互聯(lián)網(wǎng)
建筑
教育/學(xué)生
能源/采礦
金融/保險/房地產(chǎn)
政府/軍事/房地產(chǎn)
服務(wù)業(yè)
傳媒/出版/娛樂
醫(yī)療/保險服務(wù)
制藥
零售
電信/網(wǎng)絡(luò)
旅游/交通
其它
教育程度
初中及以下
高中
中專
大專
本科
碩士
博士
▲表10-2? 人口標(biāo)簽
很多產(chǎn)品(如QQ、facebook等)都會引導(dǎo)用戶填寫基本信息,這些信息就包括年齡、性別、收入等大多數(shù)的人口屬性,但完整填寫個人信息的用戶只占很少一部分。而對于無社交屬性的產(chǎn)品(如輸入法、團(tuán)購APP、視頻網(wǎng)站等)用戶信息的填充率非常低,有的甚至不足5%。
在這種情況下,我們一般會用填寫了信息的這部分用戶作為樣本,把用戶的行為數(shù)據(jù)作為特征訓(xùn)練模型,對無標(biāo)簽的用戶進(jìn)行人口屬性的預(yù)測。這種模型把用戶的標(biāo)簽傳給和他行為相似的用戶,可以認(rèn)為是對人群進(jìn)行了標(biāo)簽擴(kuò)散,因此常被稱為標(biāo)簽擴(kuò)散模型。
下面我們用視頻網(wǎng)站性別年齡畫像的例子來說明標(biāo)簽擴(kuò)散模型是如何構(gòu)建的。
一個視頻網(wǎng)站,希望了解自己的用戶組成,于是對用戶的性別進(jìn)行畫像。通過數(shù)據(jù)統(tǒng)計(jì),有大約30%的用戶注冊時填寫了個人信息,我們將這30%的用戶作為訓(xùn)練集,來構(gòu)建全量用戶的性別畫像,我們的數(shù)據(jù)如表10-3所示。
Uid
Gender
Watched ?videos
525252
Male
Game ?of throat
532626
Runing ?men、最強(qiáng)大腦
526267
瑯琊榜、偽裝者
573373
Female
歡樂喜劇人
▲表10-3:視頻網(wǎng)站用戶數(shù)據(jù)
下面我們來構(gòu)建特征。通過分析,我們發(fā)現(xiàn)男性和女性,對于影片的偏好是有差別的,因此使用觀看的影片列表來預(yù)測用戶性別有一定的可行性。此外我們還可以考慮用戶的觀看時間、瀏覽器、觀看時長等,為了簡化,這里我們只使用用戶觀看的影片特征。
由于觀看影片特征是稀疏特征,我們可以使用調(diào)用MLlib,使用LR、線性SVM等模型進(jìn)行訓(xùn)練。考慮到注冊用戶填寫的用戶信息本身的準(zhǔn)確率不高,我們可以從30%的樣本集中提取準(zhǔn)確率較高的部分(如用戶信息填寫較完備的)用于訓(xùn)練,因此我們整體的訓(xùn)練流程如圖10-7所示。
對于預(yù)測性別這樣的二分類模型,如果行為的區(qū)分度較好,一般準(zhǔn)確率和覆蓋率都可以達(dá)到70%左右。
▲圖10-7 訓(xùn)練流程
對于人口屬性標(biāo)簽,只要有一定的樣本標(biāo)簽數(shù)據(jù),并找到能夠區(qū)分標(biāo)簽分類的用戶行為特征,就可以構(gòu)建標(biāo)簽擴(kuò)散模型。其中使用的技術(shù)方法主要是機(jī)器學(xué)習(xí)中的分類技術(shù),常用的模型有LR、FM、SVM、GBDT等。
2. 興趣畫像
興趣畫像是互聯(lián)網(wǎng)領(lǐng)域使用最廣泛的畫像,互聯(lián)網(wǎng)廣告、個性化推薦、精準(zhǔn)營銷等各個領(lǐng)域最核心的標(biāo)簽都是興趣標(biāo)簽。興趣畫像主要是從用戶海量行為日志中進(jìn)行核心信息的抽取、標(biāo)簽化和統(tǒng)計(jì),因此在構(gòu)建用戶興趣畫像之前需要先對用戶有行為的內(nèi)容進(jìn)行內(nèi)容建模。
內(nèi)容建模需要注意粒度,過細(xì)的粒度會導(dǎo)致標(biāo)簽沒有泛化能力和使用價值,過粗的粒度會導(dǎo)致沒有區(qū)分度。
為了保證興趣畫像既有一定的準(zhǔn)確度又有較好的泛化性,我們會構(gòu)建層次化的興趣標(biāo)簽體系,使用中同時用幾個粒度的標(biāo)簽去匹配,既保證了標(biāo)簽的準(zhǔn)確性,又保證了標(biāo)簽的泛化性。下面我們用新聞的用戶興趣畫像舉例,介紹如何構(gòu)建層次化的興趣標(biāo)簽。
2.1 內(nèi)容建模
新聞數(shù)據(jù)本身是非結(jié)構(gòu)化的,首先需要人工構(gòu)建一個層次的標(biāo)簽體系。我們考慮如下圖10-9的一篇新聞,看看哪些內(nèi)容可以表示用戶的興趣。
▲圖10-9 新聞例子
首先,這是一篇體育新聞,體育這個新聞分類可以表示用戶興趣,但是這個標(biāo)簽太粗了,用戶可能只對足球感興趣,體育這個標(biāo)簽就顯得不夠準(zhǔn)確。
其次,我們可以使用新聞中的關(guān)鍵詞,尤其是里面的專有名詞(人名、機(jī)構(gòu)名),如“桑切斯”、“阿森納”、“厄齊爾”,這些詞也表示了用戶的興趣。關(guān)鍵詞的主要問題在于粒度太細(xì),如果一天的新聞里沒有這些關(guān)鍵詞出現(xiàn),就無法給用戶推薦內(nèi)容。
最后,我們希望有一個中間粒度的標(biāo)簽,既有一定的準(zhǔn)確度,又有一定的泛化能力。于是我們嘗試對關(guān)鍵詞進(jìn)行聚類,把一類關(guān)鍵詞當(dāng)成一個標(biāo)簽,或者把一個分類下的新聞進(jìn)行拆分,生成像“足球”這種粒度介于關(guān)鍵詞和分類之間的主題標(biāo)簽。我們可以使用文本主題聚類完成主題標(biāo)簽的構(gòu)建。
至此我們就完成了對新聞內(nèi)容從粗到細(xì)的“分類-主題-關(guān)鍵詞”三層標(biāo)簽體系內(nèi)容建模,新聞的三層標(biāo)簽如表10-4所示。
分類
主題
關(guān)鍵詞
使用算法
文本分類、SVM、LR、Bayes
PLSA、LDA
Tf*idf、專門識別、領(lǐng)域詞表
粒度
粗
中
細(xì)
泛化性
好
中
差
舉例
體育、財(cái)經(jīng)、娛樂
足球、理財(cái)
梅西、川普、機(jī)器學(xué)習(xí)
量級
10-30
100-1000
百萬
▲表10-4? 三層標(biāo)簽體系
既然主題的準(zhǔn)確率和覆蓋率都不錯,我們只使用主題不就可以了嘛?為什么還要構(gòu)建分類和關(guān)鍵詞這兩層標(biāo)簽?zāi)兀窟@么做是為了給用戶進(jìn)行盡可能精確和全面的內(nèi)容推薦。
當(dāng)用戶的關(guān)鍵詞命中新聞時,顯然能夠給用戶更準(zhǔn)確的推薦,這時就不需要再使用主題標(biāo)簽;而對于比較小眾的主題(如體育類的冰上運(yùn)動主題),若當(dāng)天沒有新聞覆蓋,我們就可以根據(jù)分類標(biāo)簽進(jìn)行推薦。層次標(biāo)簽兼顧了對用戶興趣刻畫的覆蓋率和準(zhǔn)確性。
2.2 興趣衰減
在完成內(nèi)容建模以后,我們就可以根據(jù)用戶點(diǎn)擊,計(jì)算用戶對分類、主題、關(guān)鍵詞的興趣,得到用戶興趣標(biāo)簽的權(quán)重。最簡單的計(jì)數(shù)方法是用戶點(diǎn)擊一篇新聞,就把用戶對該篇新聞的所有標(biāo)簽在用戶興趣上加一,用戶對每個詞的興趣計(jì)算就使用如下的公式:
其中:詞在這次瀏覽的新聞中出現(xiàn)C=1,否則C=0,weight表示詞在這篇新聞中的權(quán)重。
這樣做有兩個問題:一個是用戶的興趣累加是線性的,數(shù)值會非常大,老的興趣權(quán)重會特別高;另一個是用戶的興趣有很強(qiáng)的時效性,昨天的點(diǎn)擊要比一個月之前的點(diǎn)擊重要的多,線性疊加無法突出近期興趣。
為了解決這個問題,需要要對用戶興趣得分進(jìn)行衰減,我們使用如下的方法對興趣得分進(jìn)行次數(shù)衰減和時間衰減。?
次數(shù)衰減的公式如下:
其中,α是衰減因子,每次都對上一次的分?jǐn)?shù)做衰減,最終得分會收斂到一個穩(wěn)定值 ,α取0.9時,得分會無限接近10。
時間衰減的公式如下:
它表示根據(jù)時間對興趣進(jìn)行衰減,這樣做可以保證時間較早的興趣會在一段時間以后變的非常弱,同時近期的興趣會有更大的權(quán)重。根據(jù)用戶興趣變化的速度、用戶活躍度等因素,也可以對興趣進(jìn)行周級別、月級別或小時級別的衰減。
3. 地理位置畫像
地理位置畫像一般分為兩部分:一部分是常駐地畫像;一部分是GPS畫像。兩類畫像的差別很大,常駐地畫像比較容易構(gòu)造,且標(biāo)簽比較穩(wěn)定,GPS畫像需要實(shí)時更新。
常駐地包括國家、省份、城市三級,一般只細(xì)化到城市粒度。常駐地的挖掘基于用戶的IP地址信息,對用戶的IP地址進(jìn)行解析,對應(yīng)到相應(yīng)的城市,對用戶IP出現(xiàn)的城市進(jìn)行統(tǒng)計(jì)就可以得到常駐城市標(biāo)簽。
用戶的常駐城市標(biāo)簽,不僅可以用來統(tǒng)計(jì)各個地域的用戶分布,還可以根據(jù)用戶在各個城市之間的出行軌跡識別出差人群、旅游人群等,如圖10-10所示是人群出行軌跡的一個示例。
▲圖10-10 人群出行軌跡
GPS數(shù)據(jù)一般從手機(jī)端收集,但很多手機(jī)APP沒有獲取用戶 GPS信息的權(quán)限。能夠獲取用戶GPS信息的主要是百度地圖、滴滴打車等出行導(dǎo)航類APP,此外收集到的用戶GPS數(shù)據(jù)比較稀疏。
百度地圖使用該方法結(jié)合時間段數(shù)據(jù),構(gòu)建了用戶公司和家的GPS標(biāo)簽。此外百度地圖還基于GPS信息,統(tǒng)計(jì)各條路上的車流量,進(jìn)行路況分析,如圖10-11是北京市的實(shí)時路況圖,紅色表示擁堵線路。
▲圖10-11 北京的實(shí)時路況圖
04 用戶畫像評估和使用
人口屬性畫像的相關(guān)指標(biāo)比較容易評估,而興趣畫像的標(biāo)簽比較模糊,興趣畫像的人為評估比較困難,我們對于興趣畫像的常用評估方法是設(shè)計(jì)小流量的A/B-test進(jìn)行驗(yàn)證。
我們可以篩選一部分標(biāo)簽用戶,給這部分用戶進(jìn)行和標(biāo)簽相關(guān)的推送,看標(biāo)簽用戶對相關(guān)內(nèi)容是否有更好的反饋。
例如,在新聞推薦中,我們給用戶構(gòu)建了興趣畫像,我們從體育類興趣用戶中選取一小批用戶,給他們推送體育類新聞,如果這批用戶的點(diǎn)擊率和閱讀時長明顯高于平均水平,就說明標(biāo)簽是有效的。
1. 效果評估
用戶畫像效果最直接的評估方法就是看其對實(shí)際業(yè)務(wù)的提升,如互聯(lián)網(wǎng)廣告投放中畫像效果主要看使用畫像以后點(diǎn)擊率和收入的提升,精準(zhǔn)營銷過程中主要看使用畫像后銷量的提升等。
但是如果把一個沒有經(jīng)過效果評估的模型直接用到線上,風(fēng)險是很大的,因此我們需要一些上線前可計(jì)算的指標(biāo)來衡量用戶畫像的質(zhì)量。
用戶畫像的評估指標(biāo)主要是指準(zhǔn)確率、覆蓋率、時效性等指標(biāo)。
1.1 準(zhǔn)確率
標(biāo)簽的準(zhǔn)確率指的是被打上正確標(biāo)簽的用戶比例,準(zhǔn)確率是用戶畫像最核心的指標(biāo),一個準(zhǔn)確率非常低的標(biāo)簽是沒有應(yīng)用價值的。準(zhǔn)確率的計(jì)算公式如下:
其中|?Utag |表示被打上標(biāo)簽的用戶數(shù),|?Utag=true |表示有標(biāo)簽用戶中被打?qū)?biāo)簽的用戶數(shù)。準(zhǔn)確率的評估一般有兩種方法:一種是在標(biāo)注數(shù)據(jù)集里留一部分測試數(shù)據(jù)用于計(jì)算模型的準(zhǔn)確率;另一種是在全量用戶中抽一批用戶,進(jìn)行人工標(biāo)注,評估準(zhǔn)確率。
由于初始的標(biāo)注數(shù)據(jù)集的分布和全量用戶分布相比可能有一定偏差,故后一種方法的數(shù)據(jù)更可信。準(zhǔn)確率一般是對每個標(biāo)簽分別評估,多個標(biāo)簽放在一起評估準(zhǔn)確率是沒有意義的。
1.2 覆蓋率
標(biāo)簽的覆蓋率指的是被打上標(biāo)簽的用戶占全量用戶的比例,我們希望標(biāo)簽的覆蓋率盡可能的高。但覆蓋率和準(zhǔn)確率是一對矛盾的指標(biāo),需要對二者進(jìn)行權(quán)衡,一般的做法是在準(zhǔn)確率符合一定標(biāo)準(zhǔn)的情況下,盡可能的提升覆蓋率。
我們希望覆蓋盡可能多的用戶,同時給每個用戶打上盡可能多的標(biāo)簽,因此標(biāo)簽整體的覆蓋率一般拆解為兩個指標(biāo)來評估。一個是標(biāo)簽覆蓋的用戶比例,另一個是覆蓋用戶的人均標(biāo)簽數(shù),前一個指標(biāo)是覆蓋的廣度,后一個指標(biāo)表示覆蓋的密度。
用戶覆蓋比例的計(jì)算方法是:
其中| U |表示用戶的總數(shù),|?Utag?|表示被打上標(biāo)簽的用戶數(shù)。
人均標(biāo)簽數(shù)的計(jì)算方法是:
其中|?tagi?|表示每個用戶的標(biāo)簽數(shù),|?Utag?|表示被打上標(biāo)簽的用戶數(shù)。覆蓋率既可以對單一標(biāo)簽計(jì)算,也可以對某一類標(biāo)簽計(jì)算,還可以對全量標(biāo)簽計(jì)算,這些都是有統(tǒng)計(jì)意義的。
1.3 時效性
有些標(biāo)簽的時效性很強(qiáng),如興趣標(biāo)簽、出現(xiàn)軌跡標(biāo)簽等,一周之前的就沒有意義了;有些標(biāo)簽基本沒有時效性,如性別、年齡等,可以有一年到幾年的有效期。對于不同的標(biāo)簽,需要建立合理的更新機(jī)制,以保證標(biāo)簽時間上的有效性。
1.4 其他指標(biāo)
標(biāo)簽還需要有一定的可解釋性,便于理解;同時需要便于維護(hù)且有一定的可擴(kuò)展性,方便后續(xù)標(biāo)簽的添加。這些指標(biāo)難以給出量化的標(biāo)準(zhǔn),但在構(gòu)架用戶畫像時也需要注意。
2. 畫像使用
用戶畫像在構(gòu)建和評估之后,就可以在業(yè)務(wù)中應(yīng)用,一般需要一個可視化平臺,對標(biāo)簽進(jìn)行查看和檢索。畫像的可視化一般使用餅圖、柱狀圖等對標(biāo)簽的覆蓋人數(shù)、覆蓋比例等指標(biāo)做形象的展示,如下圖10-12所示是用戶畫像的一個可視化界面。
▲圖10-12 用戶畫像的可視化界面
此外,對于構(gòu)建的畫像,我們還可以使用不同維度的標(biāo)簽,進(jìn)行高級的組合分析,產(chǎn)出高質(zhì)量的分析報(bào)告。在智能營銷、計(jì)算廣告、個性化推薦等領(lǐng)域用戶畫像都可以得到應(yīng)用,具體的應(yīng)用方法,與其應(yīng)用領(lǐng)域結(jié)合比較緊密,我們不再詳細(xì)介紹。
---------------------