最近準(zhǔn)備研究下用戶畫像,先制定一個計劃,在簡書上記錄下,希望得到同道中人一起討論。
一、目的

用戶畫像的目的是通過分析用戶行為,最終為每個用戶打上標(biāo)簽,以及該標(biāo)簽的權(quán)重。
如:
用戶A的職業(yè),標(biāo)簽為“程序員”,權(quán)重為0.8;標(biāo)簽為“用戶運(yùn)營”,權(quán)重為0.3。
用戶A的性別,“男”的權(quán)重為0.7;“女”的權(quán)重為0.3。
用戶A的年齡,20歲以下的權(quán)重為0.6;20-30歲的權(quán)重為0.3;30歲以上的權(quán)重為0.9。
標(biāo)簽:表征了內(nèi)容,用戶屬于或者是對該內(nèi)容有興趣、偏好、需求等等。
權(quán)重:表征了指數(shù),用戶的興趣、偏好指數(shù),也可能表征用戶的需求度,可以簡單的理解為可信度,概率。
二、數(shù)據(jù)源分析
構(gòu)建用戶畫像是為了還原用戶信息,因此數(shù)據(jù)來源于:所有用戶相關(guān)的數(shù)據(jù)。
對于用戶相關(guān)數(shù)據(jù)的分類,引入一種重要的分類思想:封閉性的分類方式。
如:
世界上分為兩種人,互聯(lián)網(wǎng)行業(yè)和非互聯(lián)網(wǎng)行業(yè);
用戶分四種,核心用戶、儲備用戶、重點(diǎn)用戶和可挽回用戶;
用戶地域分四種類型,一線城市、二線城市、三線城市和四線城市…
所有的子分類將構(gòu)成了類目空間的全部集合。
這樣的分類方式,有助于后續(xù)不斷枚舉并迭代補(bǔ)充遺漏的信息維度。不必?fù)?dān)心架構(gòu)上對每一層分類沒有考慮完整,造成維度遺漏留下擴(kuò)展性隱患。另外,不同的分類方式根據(jù)應(yīng)用場景,業(yè)務(wù)需求的不同,按需劃分即可。
三、數(shù)據(jù)建模
如何根據(jù)用戶行為,構(gòu)建模型產(chǎn)出標(biāo)簽、權(quán)重。
一個事件模型包括:時間、地點(diǎn)、人物三個要素。每一次用戶行為本質(zhì)上是一次隨機(jī)事件,可以詳細(xì)描述為:什么用戶,在什么時間,什么地點(diǎn),對什么對象,做了什么事。
3.1、什么用戶
關(guān)鍵在于對用戶的標(biāo)識,用戶標(biāo)識的目的是為了區(qū)分用戶、單點(diǎn)定位。
以下列舉了互聯(lián)網(wǎng)主要的用戶標(biāo)識方法,獲取方式由易到難。視企業(yè)的用戶粘性,可以獲取的標(biāo)識信息有所差異。

3.2、在什么時間
時間包括兩個重要信息,時間戳+時間長度。時間戳,為了標(biāo)識用戶行為的時間點(diǎn),如,1395121950(精度到秒)。時間長度,為了標(biāo)識用戶在某一頁面的停留時間。
3.3、什么地點(diǎn)
用戶接觸點(diǎn),Touch Point。對于每個用戶接觸點(diǎn)。潛在包含了兩層信息:網(wǎng)址 + 內(nèi)容。
網(wǎng)址:每個url鏈接(頁面/屏幕),即定位了一個互聯(lián)網(wǎng)頁面地址,或者某個產(chǎn)品的特定頁面??梢允荘C上某電商網(wǎng)站的頁面url,也可以是手機(jī)APP上的內(nèi)容。如,一面的啟動頁,一面的主題內(nèi)容頁。
內(nèi)容:每個url鏈接(頁面/屏幕)中的內(nèi)容??梢允悄硞€內(nèi)容的相關(guān)信息:內(nèi)容平臺、內(nèi)容類別、標(biāo)題、描述等等。
對于每個互聯(lián)網(wǎng)接觸點(diǎn),其中網(wǎng)址決定了權(quán)重;內(nèi)容決定了標(biāo)簽。
注:接觸點(diǎn)可以是網(wǎng)址,也可以是某個APP的特定功能界面。如,同樣一瓶礦泉水,超市賣1元,火車上賣3元,景區(qū)賣5元。商品的售賣價值,不在于成本,更在于售賣地點(diǎn)。標(biāo)簽均是礦泉水,但接觸點(diǎn)的不同體現(xiàn)出了權(quán)重差異。這里的權(quán)重可以理解為用戶對于礦泉水的需求程度不同。即,愿意支付的價值不同。

3.4、對什么對象
其實(shí)上面的用戶接觸點(diǎn)已經(jīng)說明了一種對象——內(nèi)容。我這邊之所以還單獨(dú)把對象拿出來作為一項,是因為這個對象有可能是我們自己造出來的,比如簡書中某個專題中的內(nèi)容肯定是一個對象,但是如果一個專題里面沒有內(nèi)容,那么它也是一個對象,我們?yōu)檫@個對象設(shè)定的標(biāo)簽也可能是不一樣的,如果某個專題只有2個人,一男一女,那么我們可能就會為這個我們造出來的對象打上一個“情侶”的標(biāo)簽,如果是只有男人,我們可能就會打上“同志”的標(biāo)簽。
3.5、做了什么事
用戶行為類型,對于一個內(nèi)容為主的APP來說有如下典型行為:瀏覽、點(diǎn)贊、評論、收藏等等。
不同的行為類型,對于接觸點(diǎn)的內(nèi)容產(chǎn)生的標(biāo)簽信息,具有不同的權(quán)重。如,收藏權(quán)重計為5,瀏覽計為1。

3.6、總結(jié)
綜合上述分析,用戶畫像的數(shù)據(jù)模型,可以概括為下面的公式:
用戶標(biāo)識 + 時間 + 行為類型 + 接觸點(diǎn)(網(wǎng)址+內(nèi)容)
某用戶因為在什么時間、某個地點(diǎn)、對某個對象,做了什么事。所以會打上XX標(biāo)簽。
用戶標(biāo)簽的權(quán)重可能隨時間的增加而衰減,因此定義時間為衰減因子r,行為類型、網(wǎng)址決定了權(quán)重,內(nèi)容決定了標(biāo)簽,進(jìn)一步轉(zhuǎn)換為公式:
標(biāo)簽權(quán)重=衰減因子×行為權(quán)重×位置權(quán)重
當(dāng)然,很多時候標(biāo)簽本身也是有權(quán)重的。
如:用戶A,昨天在發(fā)現(xiàn)頻道瀏覽“2018年必看驚悚恐怖片之一:XXX電影”的主題內(nèi)容。
我們?yōu)檫@個內(nèi)容打的標(biāo)簽為:恐怖 0.6,電影 0.8
時間:因為是昨天的行為,假設(shè)衰減因子為:r=0.95
行為類型:瀏覽行為記為權(quán)重1
地點(diǎn):在發(fā)現(xiàn)頻道為 0.6(相比在我的-我創(chuàng)建的主題中的0.9)
則用戶偏好標(biāo)簽是:電影,權(quán)重是0.95*0.6 * 1=0.57,即,用戶A:恐怖 0.57、電影 0.57。最后再乘以標(biāo)簽自己的權(quán)重。
上述模型權(quán)重值的選取只是舉例參考,具體的權(quán)重值需要根據(jù)業(yè)務(wù)需求二次建模,這里強(qiáng)調(diào)的是如何從整體思考,去構(gòu)建用戶畫像模型,進(jìn)而能夠逐步細(xì)化模型。
四、計劃
根據(jù)上面的介紹,我們知道如果要為一個平臺做用戶畫像,那么首先要做的就是根據(jù)自己的業(yè)務(wù)需求進(jìn)行建模。
4.1、為數(shù)據(jù)建模
確定每個位置和行為的權(quán)重,以及造出的對象的權(quán)重。
對象(標(biāo)簽)、位置(權(quán)重)、行為(權(quán)重)、時間衰減值等
4.2、為文章內(nèi)容打上標(biāo)簽
這里需要的就是一些提取文章內(nèi)容的標(biāo)簽算法,同時需要考慮內(nèi)容中標(biāo)簽的自己的權(quán)重值。
4.3、根據(jù)內(nèi)容與對象的標(biāo)簽和數(shù)據(jù)建模中定義的權(quán)重跑出用戶畫像
實(shí)踐是檢驗真理的唯一標(biāo)準(zhǔn)
要想知道自己的數(shù)據(jù)建模是否合理,為文章內(nèi)容打標(biāo)簽的算法的正確性是怎么樣的。
實(shí)踐吧~
用戶畫像我將作為一個系列來記錄,歡迎前輩們多多指導(dǎo)