“相似人群的擴展,是人群應(yīng)用中的一個重要場景。”
今天和大家一起分享什么是相似人群的擴展,以及如何基于選定的人群,進行相似人群的擴展。即行業(yè)中的Look-alike。
一、Look-alike的基本含義
首先聊一聊什么是Look-alike。
相似人群的擴展,正如字面上的含義,就是對人群進行展開,使擴展后的人群特征和選定的人群的特征保持一致或者盡可能的相近。這里有以下幾個常見的概念。
【種子人群】即我們要基于哪個人群進行相似人群的匹配。種子人群的獲得方式,可以是用戶自己通過標(biāo)簽系統(tǒng)圈選的人群,也可以是一群完全自己上傳的人群(前提是ID可以打通)。
【擴展倍數(shù)】即要將種子人群擴大的倍數(shù)。通常作為配置項讓用戶進行選擇。
【擴展人群】即將種子人群按照擴展倍數(shù)擴充后,獲得的人群。該人群的特征規(guī)律應(yīng)該和種子人群的特征規(guī)律比較一致或者相近。
二、價值和應(yīng)用場景
什么應(yīng)用場景會需要進行人群擴展呢?
【場景1】在畫像系統(tǒng)中,當(dāng)用戶通過一個標(biāo)簽或者一系列標(biāo)簽,完成了人群的圈選,此時經(jīng)常出現(xiàn)的一個問題是:圈選出來的人群太少了。這對于人群包的應(yīng)用(展現(xiàn)次數(shù)、點擊次數(shù)、轉(zhuǎn)化次數(shù)等)而言,無疑是巨大的影響。
【場景2】運營人員經(jīng)過多次的效果測試和人群優(yōu)化后,有個效果特別好的人群包。但是呢,往往越是精準(zhǔn)的人群包,數(shù)量也越少。擴展人群包的數(shù)量,通常來講肯定會降低投放效果,但是擴量一定是必走的營銷之路。
因此,只有質(zhì)量沒有數(shù)量的投放,并不能稱得上成功的投放。在不降低投放質(zhì)量或者少降低投放質(zhì)量的前提下,盡量擴展投放數(shù)量,是擺在投放人員面前的重要課題,也是畫像系統(tǒng)、廣告系統(tǒng)的重要內(nèi)容。
三、一些常用的擴展方法
那如何將種子人群擴展呢?常見的方法主要有三種(這些是比較基礎(chǔ)的一些方法,具體的擴展方法建議在這些方法的基礎(chǔ)上,結(jié)合自己的業(yè)務(wù)場景,進行更科學(xué)的應(yīng)用,盡量不要生搬硬套):
(1)通過標(biāo)簽的方式匹配
通過標(biāo)簽的方式是比較容易落地的方法。主要有這么幾個步驟。
首先,識別種子人群的特征標(biāo)簽。關(guān)于如何識別人群的特征標(biāo)簽,在之前的文章《如何從海量特征中識別人群的突出特征》中有闡述過,大家可以參考查閱。
其次,就是基于識別的典型特征,進行人群的擴展。例如,我們識別出來種子人群有【高消費】、【偏好奢侈品】、【小鎮(zhèn)中產(chǎn)】等標(biāo)簽。那么我們可以將包含這些特征的人群都先圈出來(交集或者并集)。這樣就完成了相似人群的擴展。
這種方法比較直接,但相似效果比較難衡量。
(2)通過相似度的方式直接計算
通過相似度的方式,主要是將人群的特征進行向量化,然后計算向量之間的距離。
例如我們總共有100個標(biāo)簽、400個特征(所謂特征可以理解成標(biāo)簽取值)。那么,每個用戶都可以用400維的向量進行標(biāo)識。
基于每個用戶的向量,計算種子人群的向量均值。然后用其余待匹配人群的特征向量,與種子人群的向量均值求距離。
最后,按照距離進行排序,獲得距離最近的top取值即可。
(3)通過機器學(xué)習(xí)的方式訓(xùn)練
通過標(biāo)簽的方式,比較容易理解;用距離的方法,比較容易計算。除此之外,就是用算法的方式進行擴展了。
算法的具體實現(xiàn)就不說了,其實就是一個典型的分類問題。即判斷一個人屬不屬于種子人群。而種子人群作為機器學(xué)習(xí)訓(xùn)練集。
04
—
產(chǎn)品化設(shè)計參考
關(guān)于產(chǎn)品設(shè)計,這里簡單聊兩句。
(1)在谷歌廣告中的設(shè)計
首先看看谷歌廣告的產(chǎn)品設(shè)計。下圖是谷歌廣告中的相似人群擴展的功能:
這里谷歌采取的是滑塊的方式,進行不同程度的擴展。
這里補充一下,我簡單了解了一下谷歌的擴展邏輯,有一種邏輯是基于的關(guān)鍵詞的擴展。例如選定的關(guān)鍵詞是“臺燈”,擴展的時候是先擴相似相近關(guān)鍵詞,例如“吊燈”、“床燈”等,然后基于擴展的關(guān)鍵詞進行人群擴展。這算是上面沒有提到的一種擴量邏輯吧。
(2)在阿里達摩盤中的設(shè)計
實在是沒有達摩盤的賬號了,就從介紹視頻里截了個圖:
從這個圖里,也能看出一些端倪。達摩盤的人群擴展,是比較貼合業(yè)務(wù)場景的,加了很多業(yè)務(wù)層面的邏輯。這會提升擴展后人群的效果。應(yīng)該是比較高階的擴展邏輯了。
(3)在JD某產(chǎn)品中的設(shè)計
最后給個我們自己的產(chǎn)品中,關(guān)于人群縮放的內(nèi)容吧:
我們這里除了支持人群的擴充,也支持人群的縮減。是自動基于用戶填寫的人數(shù)設(shè)置來的,這里的人數(shù)設(shè)置,就是上文提到的擴展人群的概念。即若填寫的人數(shù)大于種子人群,則擴展;反之則縮減。擴充的方法是采取相似人群算法。
縮減的方式直接進行的隨機抽取。
今天主要分享這些,感謝繼續(xù)關(guān)注~