用戶增長(zhǎng)團(tuán)隊(duì)主要是與運(yùn)營(yíng)和產(chǎn)品相協(xié)作,實(shí)現(xiàn)對(duì)各個(gè)業(yè)務(wù)領(lǐng)域?qū)τ脩羧禾卣鞯纳钊肜斫夂投床?,從而在更大的新?shù)據(jù)(可能是其他相關(guān)或者類似業(yè)務(wù)上的數(shù)據(jù))上挖掘出潛在的本業(yè)務(wù)的新用戶。
(0)數(shù)據(jù)準(zhǔn)備
搭建數(shù)據(jù)平臺(tái),包含用戶基本特征(性別,年齡,收入,位置,人生階段等);利用用戶評(píng)論等文本信息挖掘用戶傾向;并利用分享,轉(zhuǎn)發(fā)等挖掘用戶之間關(guān)系信息。
(1)生成種子用戶。
首先,運(yùn)營(yíng)根據(jù)業(yè)務(wù)經(jīng)驗(yàn),將業(yè)務(wù)需求轉(zhuǎn)化為標(biāo)簽,然后根據(jù)標(biāo)簽劃分出已有的用戶作為種子用戶。這些種子用戶是在特殊場(chǎng)景下收集到的,對(duì)商品,服務(wù)需求和興趣一致。數(shù)量比較少。根據(jù)已有標(biāo)簽體系,為所有用戶打上標(biāo)簽。沒(méi)有標(biāo)簽的用戶通過(guò)GBDT生成。
(2)生成擴(kuò)展用戶。
首先對(duì)用戶文本信息進(jìn)行向量化(doc2vec),然后進(jìn)行聚類,提取聚類中心向量。根據(jù)用戶文本所在聚類得到用戶價(jià)值傾向?qū)ο蛄勘磉_(dá)。(具體實(shí)現(xiàn)不明,推測(cè)為用戶性格,是否關(guān)注產(chǎn)品體驗(yàn),等進(jìn)行文本信息特征提取,隨后進(jìn)行聚類);
其次,使用圖模型對(duì)用戶關(guān)系數(shù)據(jù)進(jìn)行轉(zhuǎn)化,利用node2vec得到用戶關(guān)系網(wǎng)絡(luò)圖向量化表示。(這個(gè)用戶關(guān)系網(wǎng)絡(luò)圖對(duì)作用和表示不明);
最后和用戶基本特征進(jìn)行拼接,得到用戶組合特征。多特征向量集(User Vector Set,UVS)。這么做是因?yàn)閮H僅使用用戶的屬性特征和標(biāo)簽特征進(jìn)行人群擴(kuò)散過(guò)于粗獷,人與人的興趣差異不光光是興趣標(biāo)簽決定的,往往和時(shí)間、環(huán)境、友人等其他的因素息息相關(guān)。各個(gè)維度當(dāng)特征做好歸一化。(特征更加細(xì)粒度化,同時(shí)是否做了主成分分析不明)。
多特征向量聚類并存庫(kù)(存聚類中心和對(duì)應(yīng)ID)。(具體聚類算法和實(shí)現(xiàn)細(xì)節(jié)不明,用戶關(guān)系數(shù)據(jù)聚類有點(diǎn)不明作用)生成擴(kuò)展用戶群特征。擴(kuò)展用戶應(yīng)該是淘系所有產(chǎn)品線用戶。
(3)使用方法,當(dāng)運(yùn)營(yíng)在平臺(tái)上傳種子用戶ID后,根據(jù)種子用戶ID判斷其是否在UVS中,將存在的也通過(guò)以上方法和數(shù)據(jù)生成對(duì)應(yīng)聚類中心。通過(guò)相似性度量方法找到與種子人群類簇中心距離最小的 topN 個(gè)擴(kuò)展用戶類簇,其中高緯度數(shù)據(jù)使用余弦相似度效果較好。(種子用戶和擴(kuò)展用戶各生成多少個(gè)聚類中心不明)。將這N各用戶類簇的用戶ID輸出。
(5)分群評(píng)價(jià)指標(biāo)。覆蓋度和相似度。
覆蓋度:對(duì)種子人群進(jìn)行隨機(jī)采樣,切分為 A、B 兩個(gè)人群, A 人群通過(guò)相似人群挖掘算法得到擴(kuò)散后的人群 C ,覆蓋度 =B∩C/B ,覆蓋度表示擴(kuò)人群中人群 B 的占比,考驗(yàn)的是算法通過(guò)人群 A 對(duì)人群 B 的“恢復(fù)”能力,具體實(shí)驗(yàn)中通過(guò)將種子人群進(jìn)行 5 倍擴(kuò)散后根據(jù)相似人群的覆蓋度是否有提升來(lái)對(duì)模型進(jìn)行迭代優(yōu)化。人群覆蓋度指標(biāo)并不能完全表征相似人群與種子人群的的近似程度,需要配合人群相似度一起評(píng)估。
相似度:人群相似度用來(lái)控制人群規(guī)模。首先分別計(jì)算擴(kuò)散人群到種子人群聚類中心的 cosine 距離;其次進(jìn)行歸一化。人群相似度基于擴(kuò)散人群與種子人群間的距離計(jì)算,能夠表征擴(kuò)散人群與種子人群的相似程度。
(6)進(jìn)一步擴(kuò)展
特征表達(dá)優(yōu)化;根據(jù)業(yè)務(wù)的人群劃分豐富;特征豐富;效果反饋和迭代。
淘寶通過(guò)相似人群用戶擴(kuò)展的思考
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
相關(guān)閱讀更多精彩內(nèi)容
- 概述及標(biāo)簽體系搭建 1 概述 隨著信息技術(shù)的迅速發(fā)展和信息內(nèi)容的日益增長(zhǎng),“信息過(guò)載”問(wèn)題愈來(lái)愈嚴(yán)重,愈發(fā)帶來(lái)很大...
- source code 說(shuō)明:本文章主要介紹一種基于標(biāo)簽有向圖的聚合推薦方法,主要針對(duì)基于標(biāo)簽的音樂(lè)推薦,在文章最...
- 由于簡(jiǎn)書(shū)對(duì)latex公式支持不太友好,因此為了更好的閱讀體驗(yàn),你可以移步至: 【TPAMI重磅綜述】 SIFT與C...
- | 導(dǎo)語(yǔ)在產(chǎn)品的增長(zhǎng)分析當(dāng)中,想關(guān)注符合某些條件的一部分用戶,不僅想知道這些人的整體行為(訪問(wèn)次數(shù),訪問(wèn)時(shí)長(zhǎng)等),...