轉(zhuǎn)載地址:https://zhuanlan.zhihu.com/p/52683548
標(biāo)簽,是大家耳熟能詳?shù)男畔⒎诸惡蜆?biāo)記機(jī)制,相信各位產(chǎn)品經(jīng)理都用的爛熟。只不過,閑暇之余有沒有深入思索一下標(biāo)簽這個(gè)不起眼的機(jī)制背后所蘊(yùn)藏的磅礴宇宙觀呢?今天,磊叔就帶你們深入了解一下標(biāo)簽,再次以工資保證這是你在任何網(wǎng)站都看不到的全新解析和詮釋標(biāo)簽的視角,是真是假,看完再做決斷。
初來乍到:標(biāo)簽與分類的區(qū)別
本質(zhì):元數(shù)據(jù)
標(biāo)簽有兩類,大不相同
規(guī)則標(biāo)簽
特征標(biāo)簽
標(biāo)簽系統(tǒng)的核心邏輯
標(biāo)簽和權(quán)重
最佳實(shí)踐1:BAT是怎么建設(shè)標(biāo)簽體系的?
工程應(yīng)用中的標(biāo)簽體系
圖文和短視頻的標(biāo)簽生產(chǎn)有什么不同?
最佳實(shí)踐2:BAT如何讓標(biāo)簽賦能各個(gè)業(yè)務(wù)模塊的?
標(biāo)簽如何賦能內(nèi)容管理和運(yùn)營(yíng)
標(biāo)簽如何賦能冷啟動(dòng)的
標(biāo)簽如何賦能相關(guān)推薦的
標(biāo)簽賦能產(chǎn)品
標(biāo)簽賦能用戶畫像和興趣探索
最佳實(shí)踐3:標(biāo)簽系統(tǒng)的局限和劣勢(shì)
覆蓋率有天花板
易導(dǎo)致推薦策略過度收斂
初來乍到:標(biāo)簽與分類的區(qū)別
先來點(diǎn)開胃菜,也是爛大街的理論,不過磊叔做了小小新的詮釋。標(biāo)簽和分類的區(qū)別,相信大家知道的比磊叔多得多,不過下面這幾個(gè)核心區(qū)別還是分享給大家:
標(biāo)簽是扁平的,分類是層級(jí)的
標(biāo)簽是精確的,分類是粗糙的
標(biāo)簽是多維的,分類是一維的
本質(zhì):元數(shù)據(jù)
標(biāo)簽和分類的區(qū)別是大家喜聞樂見的,但是不夠深度和震撼,我們深入一點(diǎn)點(diǎn)。
事實(shí)上,在數(shù)據(jù)領(lǐng)域,有一個(gè)鼎鼎大名的詞匯與標(biāo)簽極其雷同,無論它的定義、它的適用范圍,還是它的衍生應(yīng)用都與標(biāo)簽令人驚訝的一致。
它就是:元數(shù)據(jù)。
元數(shù)據(jù):用來描述數(shù)據(jù)的數(shù)據(jù),是從數(shù)據(jù)中抽取出來用于說明其特征的數(shù)據(jù),是結(jié)構(gòu)化數(shù)據(jù)。
元數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)。
元數(shù)據(jù)是可被搜索和精確定位的。
元數(shù)據(jù)可以附屬在任意結(jié)構(gòu)數(shù)據(jù)上。
元數(shù)據(jù)使得圖片、文檔、視頻這些無法搜索內(nèi)容的非結(jié)構(gòu)化數(shù)據(jù)也可以被搜索、組織和管理。
可是和我們要講的標(biāo)簽有什么關(guān)系呢?
別急,如果把元數(shù)據(jù)的定義替換為標(biāo)簽,我們就能看到一個(gè)令人興奮的進(jìn)化:
標(biāo)簽,用來描述信息的數(shù)據(jù),是從信息中抽取出來用于說明其特征的數(shù)據(jù),是結(jié)構(gòu)化數(shù)據(jù)。
很貼切、很精確、很完美的標(biāo)簽定義,不是嗎?
標(biāo)簽有兩類,大不相同
1)規(guī)則標(biāo)簽
這類標(biāo)簽最簡(jiǎn)單,就是人為指定一堆規(guī)則,然后給這堆規(guī)則命名,也就是規(guī)則標(biāo)簽了。
例如,磊叔定義了幾條規(guī)則:
啟動(dòng)APP后10分鐘內(nèi)就離開了
3個(gè)月內(nèi)沒有回訪
注冊(cè)用戶
為了方便研發(fā)實(shí)現(xiàn),寫成技術(shù)語(yǔ)言大概就是:
select user_name from table t where stay_time < 600 and return_inteval > 3 and registed = '1'
為了方便業(yè)務(wù)溝通,寫成業(yè)務(wù)語(yǔ)言大概就是:
流失用戶
“流失用戶”就是規(guī)則標(biāo)簽。
規(guī)則標(biāo)簽,有時(shí)候也叫作業(yè)務(wù)標(biāo)簽。
2)特征標(biāo)簽
在內(nèi)容分發(fā)領(lǐng)域,更多的是應(yīng)用特征標(biāo)簽,即不再是人為制定的規(guī)則,而是通過機(jī)器學(xué)習(xí)來理解內(nèi)容并提取特征作為標(biāo)簽,即把原始的圖文或視頻的文本信息丟進(jìn)NLP,然后NLP去分析和理解并輸出特征文本,即標(biāo)簽。
有可能一篇文章全文都沒有提到比爾蓋茨,但是NLP也能輸出比爾蓋茨
這種操作用高逼格的說法就是:內(nèi)容理解
標(biāo)簽系統(tǒng)的核心邏輯
那么標(biāo)簽系統(tǒng)的核心到底是什么呢?磊叔總結(jié)了四個(gè)標(biāo)簽系統(tǒng)的核心邏輯,略有點(diǎn)理論化。
1、標(biāo)簽是結(jié)構(gòu)化數(shù)據(jù)
標(biāo)簽常規(guī)型態(tài)下是一個(gè)普通的不能再普通的文本,文本一定是可以結(jié)構(gòu)化的,也就是說標(biāo)簽是可以被結(jié)構(gòu)化,可以被有效的存儲(chǔ)、組織、管理、搜索和精確定位的??傊?,結(jié)構(gòu)化數(shù)據(jù)的特點(diǎn)和治理方式可以完美的套用到標(biāo)簽上。
2、標(biāo)簽是可被搜索和精確定位的
由于標(biāo)簽是結(jié)構(gòu)化的,是可以在關(guān)系型數(shù)據(jù)庫(kù)中有效的組織、存儲(chǔ)和管理的,那么,它就一定能被搜索且被精確定位。也就是說,我們總是有很高效的辦法來定位出每一個(gè)標(biāo)簽。
這一點(diǎn)非常重要,結(jié)構(gòu)化數(shù)據(jù)總是能夠被高效的搜索和定位,這樣就讓標(biāo)簽數(shù)量可以無后顧之憂的爆發(fā)性增長(zhǎng)。而隨著標(biāo)簽數(shù)量的不斷增長(zhǎng),標(biāo)簽?zāi)軌蛟郊泳_的去描述信息,讓信息本身也越加的可被精確定位和搜索,這是一個(gè)雙贏的結(jié)果。
3、標(biāo)簽可用于各種數(shù)據(jù)結(jié)構(gòu)上
雖然標(biāo)簽本身是結(jié)構(gòu)化的,但標(biāo)簽本身并不局限于只能描述結(jié)構(gòu)化的數(shù)據(jù)。
事實(shí)上,標(biāo)簽用以描述的信息是普適性的,也就是標(biāo)簽可以應(yīng)用于任意數(shù)據(jù)結(jié)構(gòu),比如常規(guī)的文本、圖片、視頻、音頻、超鏈接、甚至一些更抽象的信息,例如某種哲學(xué)思想,某種行為方式或者某種心智模式等?;叵胍幌拢绻覀円枋鲆欢我曨l,以前是怎么做的呢?無外乎:
給視頻加一個(gè)文件名
給視頻加一個(gè)標(biāo)題
給視頻加一段描述
管用嗎?管用,但是不特別管用。因?yàn)槲募?biāo)題和描述等這些信息量依然太少,加起來幾百個(gè)字能提取什么特征信息嘛。
這時(shí),標(biāo)簽自身的精確性和靈活性就派上用場(chǎng)了,“啪啪啪”的幾個(gè)標(biāo)簽加持,視頻的各種關(guān)鍵信息就顯露無疑的展示出來。
4、標(biāo)簽可以使原本無法描述、搜索和定位的數(shù)據(jù)也可以被描述、搜索和定位
這個(gè)特性簡(jiǎn)直就是標(biāo)簽的黑科技,如果把標(biāo)簽比作天火,數(shù)據(jù)比作擎天柱,那么給數(shù)據(jù)加上標(biāo)簽,也就等于給擎天柱附加了天火的飛行引擎。
拿上面視頻這個(gè)冤大頭舉例子。眾所周知,視頻這種非結(jié)構(gòu)化數(shù)據(jù)不僅存儲(chǔ)起來頭疼,搜索起來更頭疼。因?yàn)榉墙Y(jié)構(gòu)化數(shù)據(jù)很難被搜索和精確定位。而上述的給視頻增加文件名、標(biāo)題甚至大段描述文字的效果依然很差,因?yàn)檫@種描述的信息量非常有限。
比如,我想搜索視頻中的指定時(shí)間的內(nèi)容呢?例如我想搜索梁朝偉和張國(guó)榮接吻在影片中的時(shí)間,懵逼了吧。沒問題,標(biāo)簽也能幫到你。
這個(gè)不是異想天開,百度就已經(jīng)開始研發(fā)針對(duì)視頻的每一幀來打標(biāo)簽的技術(shù),而最能讓群眾接受和喜聞樂見的針對(duì)視頻內(nèi)容或者視頻幀的標(biāo)簽,就是你們一直用的:彈幕。
B站的視頻彈幕列表,不僅標(biāo)記了彈幕出現(xiàn)的時(shí)間點(diǎn),還能雙擊彈幕快速跳轉(zhuǎn)到對(duì)應(yīng)的視頻內(nèi)容上。
標(biāo)簽和權(quán)重
標(biāo)簽的元數(shù)據(jù)類比定義,各種熱熱鬧鬧的優(yōu)點(diǎn),都算有點(diǎn)意思,但是依然還不夠深度和震撼,我們繼續(xù)深入一點(diǎn)點(diǎn)。
本質(zhì)上,標(biāo)簽就是一堆對(duì)等的特征信息。能理解不?不理解也沒關(guān)系,磊叔舉個(gè)說人話的例子就明白了。假設(shè)我們系統(tǒng)中有幾個(gè)關(guān)于地區(qū)的標(biāo)簽,比如說廣州、北京、上海、深圳、曲麻萊縣(我打賭你不知道這個(gè)地方在哪里),本質(zhì)上這幾個(gè)地域名稱并無二致,完全一樣,是對(duì)等的。但當(dāng)我們給某些信息打上這些標(biāo)簽時(shí),其實(shí)我們潛意識(shí)是有一個(gè)預(yù)期和判斷的,大致就是一線城市和十線縣城賦予信息的重要程度是完全不一樣的,即信息被打上廣州和被打上曲麻萊縣其實(shí)是具有完全不同的含義,那么也就是說:標(biāo)簽是有權(quán)重的。
有了權(quán)重,標(biāo)簽就有了分級(jí),于是使用標(biāo)簽的信息就有了分級(jí)
有了權(quán)重,標(biāo)簽就有了優(yōu)先級(jí),于是使用標(biāo)簽的信息就有了優(yōu)先級(jí)
有了權(quán)重,標(biāo)簽可以滿足個(gè)性需求,于是使用標(biāo)簽的信息就可以體現(xiàn)個(gè)性需求
最佳實(shí)踐1:BAT是怎么建設(shè)標(biāo)簽體系的?
1)工程應(yīng)用中的標(biāo)簽體系
在實(shí)際的工程應(yīng)用中,標(biāo)簽體系通常是和分級(jí)體系結(jié)合在一起成為完整的內(nèi)容分類體系。相對(duì)粗粒度的分類體系和相對(duì)細(xì)粒度的標(biāo)簽體系各司其職共同發(fā)揮作用。
在內(nèi)容分發(fā)平臺(tái)中(UC頭條,今日頭條等APP),內(nèi)容分類體系的組成如下圖:

那么問題來了:主題詞,實(shí)體標(biāo)簽,概念標(biāo)簽,這些都是什么鬼?
別急,磊叔帶你從上到下逐個(gè)掰扯清楚:
一級(jí)分類
最頂層,最粗粒度,也是最通用的分類,例如社會(huì),娛樂,科技等。一般有15-20個(gè)左右,各個(gè)內(nèi)容分發(fā)平臺(tái)差別都不大,各個(gè)內(nèi)容類型(圖文,短視頻,音頻等)的差異也不大。
二級(jí)分類
次級(jí),次粒度的分類,二級(jí)分類很好理解,把一級(jí)分類細(xì)拆下來就是了,例如一級(jí)分類的娛樂細(xì)拆為電影,音樂,電視劇等二級(jí)分類。
聽說你想知道各個(gè)內(nèi)容平臺(tái)的一級(jí)和二級(jí)分類有哪些?
沒問題,注冊(cè)各個(gè)自媒體平臺(tái)的賬號(hào),發(fā)文時(shí)多數(shù)會(huì)讓你手工選擇內(nèi)容分類,做的好的自媒體平臺(tái)會(huì)有兩個(gè)聯(lián)動(dòng)下拉框,分別對(duì)應(yīng)一級(jí)分類和二級(jí)分類,做的不那么好的自媒體平臺(tái),會(huì)把一級(jí)和二級(jí)分類集中顯示。
不一定和后臺(tái)的內(nèi)容分類機(jī)制一一對(duì)應(yīng),但亦可窺得一斑

左:搜狐自媒體 右:網(wǎng)易自媒體
三級(jí)分類(或者是主題詞)
這個(gè)不是每家都有,原因如下:
- 三級(jí)分類已經(jīng)和標(biāo)簽的粗粒度差不多,可以用標(biāo)簽來代替三級(jí)分類
- 三級(jí)分類數(shù)量太大,體系化管理和維護(hù)的成本太高。磊叔的老東家一級(jí)分類有22個(gè),二級(jí)分類有88個(gè),再拆到三級(jí)分類就是指數(shù)的增加了。
于是乎,三級(jí)分類在工程應(yīng)用中的定位是填補(bǔ)上層二級(jí)分類和下層標(biāo)簽體系之間的粒度空白。
什么是粒度空白?
例如一級(jí)分類是娛樂,二級(jí)分類是電影,標(biāo)簽是王家衛(wèi),可能會(huì)出現(xiàn)下面這種情況:
假設(shè)我是一個(gè)文藝電影的愛好者,
如果用二級(jí)分類的電影做推薦,那可就太粗了,因?yàn)橛锌赡芙o我推了成人電影,可成人電影我壓根不愛看呀,ctr肯定慘不忍睹。
如果用王家衛(wèi)的標(biāo)簽做推薦,那可就太細(xì)了,文藝片有好多導(dǎo)演的嘛,ctr肯定慘不忍睹。
那怎么辦呢?簡(jiǎn)單嘛,在電影和王家衛(wèi)之間增加一個(gè):文藝片,既比電影的粒度細(xì),又比王家衛(wèi)的粒度粗,既能保證可以滿足磊叔看文藝片的需求,也不會(huì)天天推王家衛(wèi)這么局限。

磊叔想看其他文藝片,怎么辦?

三級(jí)分類或主題詞即可解決磊叔的文藝范兒需求
所以三級(jí)分類這個(gè)位置,有的平臺(tái)叫三級(jí)分類,放在二級(jí)分類和標(biāo)簽之間,有的平臺(tái)叫主題詞,還有的平臺(tái)和概念標(biāo)簽混合使用。
反正規(guī)則都是人定的,能用,好用,有用就行!
接下來就是標(biāo)簽層了,這里有兩個(gè)新名詞:實(shí)體標(biāo)簽和概念標(biāo)簽。
什么鬼!?
這里簡(jiǎn)單交代下標(biāo)簽詞義的演進(jìn):
早期在用標(biāo)簽系統(tǒng)時(shí),大伙都是很隨意的給內(nèi)容打標(biāo)簽,反正想到什么就打什么,逐漸的問題暴露出來:不僅通過標(biāo)簽管理內(nèi)容亂七八糟,還不如用回分類呢,而且推薦上效果也很差,很不盡如人意。于是,大伙請(qǐng)來了研究中文語(yǔ)義和詞義的專家,來幫大伙把把脈,果然,問題的根源發(fā)現(xiàn)了:
亂用標(biāo)簽,導(dǎo)致標(biāo)簽的指向性不明顯,自然推薦效果差,內(nèi)容管理也亂
亂用標(biāo)簽,標(biāo)簽本身的管理也是問題,一會(huì)兒動(dòng)詞、一會(huì)兒名詞,一會(huì)兒形容詞
所以,研究中文語(yǔ)義和詞義的專家就給出了解決方案:
針對(duì)指向性不明顯,建議標(biāo)簽優(yōu)先使用名詞,且唯一指代的。
針對(duì)標(biāo)簽管理混亂,建議建立標(biāo)簽庫(kù)和標(biāo)簽管理系統(tǒng),并建立同內(nèi)容一樣的標(biāo)簽入庫(kù)審核機(jī)制
所以,針對(duì)第1點(diǎn)建議,大伙就商量,我們就用這種唯一指代的名詞吧,這種名詞在學(xué)術(shù)上叫實(shí)體詞,那么大伙就把實(shí)體詞代表的標(biāo)簽稱為實(shí)體標(biāo)簽。
實(shí)體標(biāo)簽
必須是名詞,且必須是唯一指代。
學(xué)術(shù)性的解釋逼格高,但是不容易理解,跟著磊叔快問快答:
磊叔問:蘋果,是實(shí)體標(biāo)簽嗎?
給你三秒鐘思考
你回答:是!
磊叔說:錯(cuò)!
你懵逼:靠!為啥不是?
實(shí)體標(biāo)簽的要求:名詞,且唯一指代。
蘋果,是名詞,但不是唯一指代,蘋果 = 科技公司、手機(jī)、水果、牛仔褲。

它們都是“蘋果”

概念標(biāo)簽
難道我就不能用“蘋果”了嗎?當(dāng)然可以用,只不過要給它另外起個(gè)名字:概念標(biāo)簽。
概念標(biāo)簽通常表示的是“一類”或“某種相似”的內(nèi)容,例如:

2)圖文和短視頻的標(biāo)簽生產(chǎn)有什么不同?
這個(gè)差異可大發(fā)了。
現(xiàn)代工程中,基本上是通過NLP來生產(chǎn)標(biāo)簽的,也就是把圖文或者短視頻丟進(jìn)NLP模型,模型呼啦呼啦一頓運(yùn)算找出“自認(rèn)為”最符合輸入內(nèi)容特征的標(biāo)簽,完事。
這個(gè)事的核心邏輯是NLP模型的效果(準(zhǔn)召覆)嚴(yán)重依賴輸入的信息以及信息量。
依賴的信息:僅文本信息,圖片、語(yǔ)音什么的沒用
信息量:越多越好,越純凈越好,雜質(zhì)越少越好

圖文和短視頻的差異
圖文的NLP準(zhǔn)召覆業(yè)內(nèi)平均都可以做到80%以上,短視頻的NLP準(zhǔn)召覆費(fèi)勁巴拉能到70%就不錯(cuò)了。
針對(duì)短視頻的文本信息少,有效信息都在視頻和音頻中,所以采用融合模型來搞定。
融合模型:不僅分析短視頻僅有的文本信息,同時(shí)對(duì)視頻幀和音頻進(jìn)行處理,謂之融合模型。
嗯,阿里巴巴的idst了解一下。
最佳實(shí)踐2:BAT如何讓標(biāo)簽賦能各個(gè)業(yè)務(wù)模塊的?
1)標(biāo)簽如何賦能內(nèi)容管理和運(yùn)營(yíng)
內(nèi)容均衡化和針對(duì)性入庫(kù),內(nèi)容庫(kù)的同學(xué)負(fù)責(zé)內(nèi)容源,內(nèi)容質(zhì)量等,分類的粒度太粗了,而且同一個(gè)分類下的內(nèi)容也會(huì)千差萬別。舉個(gè)例子,假如內(nèi)容庫(kù)有社會(huì)這個(gè)分類,那么極有可能出現(xiàn)這種可能:
國(guó)家領(lǐng)導(dǎo)人出訪友鄰達(dá)成友好共識(shí)
磊叔家隔壁的小哥哥聚眾打架引發(fā)青少年教育反思
當(dāng)熱點(diǎn)運(yùn)營(yíng)的同學(xué)發(fā)現(xiàn)社會(huì)分類的ctr顯著高于大盤,那么到底是教育這個(gè)二級(jí)分類火了,還是青少年教育這個(gè)標(biāo)簽火了,還是隔壁小哥哥打架這件芝麻蒜皮的事情爆冷突然火了呢?
通過分析分類體系和標(biāo)簽體系的ctr,運(yùn)營(yíng)同學(xué)發(fā)現(xiàn)是“青少年教育”這個(gè)標(biāo)簽打上的內(nèi)容都火了,接下來就可以:
人工監(jiān)控“青少年教育”這個(gè)標(biāo)簽的熱度,控制好推薦策略中的權(quán)重,太熱容易失控
自媒體運(yùn)營(yíng)同學(xué)可以告訴廣大自媒體作者:老師您好,寫個(gè)青少年教育的文章唄,保量下發(fā)
2)標(biāo)簽如何賦能冷啟動(dòng)的
這個(gè)簡(jiǎn)單過一下:
用戶冷啟動(dòng):通常會(huì)引導(dǎo)我們關(guān)注一堆內(nèi)容嘛,本質(zhì)是標(biāo)簽。
內(nèi)容冷啟動(dòng):內(nèi)容被打上標(biāo)簽,第一次下發(fā)時(shí),優(yōu)先下發(fā)給標(biāo)簽匹配的用戶
3)標(biāo)簽如何賦能相關(guān)推薦的
標(biāo)簽簡(jiǎn)直就是天然為推薦場(chǎng)景而生的,畢竟都在講要個(gè)性化推薦,都在講精準(zhǔn)推薦。標(biāo)簽的精準(zhǔn)指向恰好就是為此服務(wù)的。
標(biāo)簽在推薦下發(fā)場(chǎng)景的應(yīng)用非常豐富多彩,玩法五花八門,各家也是百花齊放。個(gè)中妙處磊叔可以分為9集在天橋下無限循環(huán)播放。
這里磊叔舉個(gè)好玩的場(chǎng)景來說說標(biāo)簽是如何賦能推薦下發(fā)的。
對(duì)于常見的內(nèi)容型產(chǎn)品,典型的用戶路徑是這樣的:
某個(gè)用戶觸達(dá)入口 → 內(nèi)容list → 內(nèi)容詳情頁(yè) → 返回內(nèi)容list → 另一個(gè)內(nèi)容詳情頁(yè) → repeat → 退出。
這么描述可能有點(diǎn)抽象,我們找個(gè)有代入感的場(chǎng)景來說明:
例如,用戶收到一條push,點(diǎn)擊進(jìn)入push列表,點(diǎn)擊某條內(nèi)容進(jìn)入詳情頁(yè),看完后要么寫個(gè)評(píng)論,要么分享點(diǎn)贊收藏,要么什么都不做就閃人。
發(fā)現(xiàn)問題了嗎?停留時(shí)間太短,好不容易拉來的流量過來溜達(dá)一圈就走了。
如此浪費(fèi)流量自然不能坐以旁觀,想點(diǎn)辦法。
有了,讓用戶在某個(gè)頁(yè)面多停留會(huì)不就行了嘛。
看來看去,好像只有詳情頁(yè)有點(diǎn)空間增加一些東東來留住用戶
如果認(rèn)為用戶點(diǎn)進(jìn)來詳情頁(yè),而且都瀏覽到正文末尾了,那么可以認(rèn)為用戶對(duì)此內(nèi)容有強(qiáng)興趣
那么可以在正文末增加與當(dāng)前內(nèi)容強(qiáng)相關(guān)的推薦
行話叫相關(guān)推薦。
這么描述還是抽象,我們找個(gè)有代入感的場(chǎng)景來說明:
A君點(diǎn)擊了一個(gè)辦理港澳通行證的文章
A君看到了最后一行
A君發(fā)現(xiàn)后面還有“你可能還想看”,里面推薦了香港和澳門的旅游和美食
A君覺得還不錯(cuò),看了一個(gè)香港旅游的文章
A君不僅看完了香港旅游的文章,還在“你可能想看”又點(diǎn)擊了其他內(nèi)容
“無限循環(huán)”
然后運(yùn)營(yíng)同學(xué)發(fā)現(xiàn)APP的使用時(shí)長(zhǎng)猛增幾十倍,可喜可賀。
磊叔描述的有點(diǎn)簡(jiǎn)單,不過實(shí)際情況確是如此,相關(guān)推薦的核心邏輯是這樣:
如果內(nèi)容的閱讀完成率和閱讀時(shí)長(zhǎng)達(dá)到某個(gè)閾值時(shí),即認(rèn)為當(dāng)前內(nèi)容命中了用戶的即時(shí)興趣
如果命中了用戶的即時(shí)興趣,即認(rèn)為當(dāng)前內(nèi)容的某些特征命中了用戶的即時(shí)興趣
如果當(dāng)前內(nèi)容的某些特征命中了用戶當(dāng)前興趣,即認(rèn)為用戶有更高的可能性去瀏覽這些基于這些特征推薦的其他內(nèi)容
如此這般就形成了基于標(biāo)簽的相關(guān)推薦場(chǎng)景下的流量莫比斯環(huán)
核心邏輯的關(guān)鍵詞就是內(nèi)容的特征,即標(biāo)簽,命中了用戶的即時(shí)興趣,即當(dāng)前瀏覽下的興趣。
4)標(biāo)簽賦能產(chǎn)品
上面幾個(gè)賦能都是運(yùn)營(yíng)相關(guān)的,那么產(chǎn)品呢?
產(chǎn)品方面有:標(biāo)簽露出、關(guān)注標(biāo)簽。
分別對(duì)應(yīng)的產(chǎn)品有:B站APP的視頻詳情頁(yè)有露出相關(guān)的標(biāo)簽;SMZDM的標(biāo)簽可以訂閱。

左:B站的標(biāo)簽露出;右:SMZDM的標(biāo)簽關(guān)注
5)標(biāo)簽賦能用戶畫像和興趣探索
這里更好玩一點(diǎn),用戶畫像和興趣,與標(biāo)簽系統(tǒng),是基于同一套標(biāo)簽庫(kù)的,不然怎么樣進(jìn)行用戶興趣和內(nèi)容推薦的匹配嘛,不多解釋。
好玩的反而是在興趣探索,為什么呢?
總不能一直給用戶推薦相似的內(nèi)容吧,天天吃龍蝦也會(huì)膩的嘛
人的興趣也不是那么單一的嘛,如果真有這種人,麻煩引薦下,我要更新下我的世界觀和推薦策略
感覺寫完這個(gè)部分,把從內(nèi)容庫(kù)-打標(biāo)簽-推薦下發(fā)-場(chǎng)景運(yùn)營(yíng)等大部分內(nèi)容運(yùn)營(yíng)的流程都有多少提到,如果大家有興趣深入了解其中個(gè)別內(nèi)容歡迎私信騷擾。
磊叔的宗旨:有事聊事,沒事聊天
最佳實(shí)踐3:標(biāo)簽系統(tǒng)的局限和劣勢(shì)
準(zhǔn)確的說是實(shí)體標(biāo)簽的局限和劣勢(shì)。
實(shí)體標(biāo)簽的定義是:名詞,且唯一指代。
優(yōu)點(diǎn):精準(zhǔn),精準(zhǔn),精準(zhǔn)。
局限:太精準(zhǔn),太精準(zhǔn),太精準(zhǔn)。
劣勢(shì)1:覆蓋率有天花板
現(xiàn)代工程中實(shí)體標(biāo)簽的覆蓋率大概只能去到70%~75%,因?yàn)榫珳?zhǔn),所以局限。
劣勢(shì)2:易導(dǎo)致推薦策略過度收斂
在推薦系統(tǒng)中,實(shí)體標(biāo)簽很精準(zhǔn)特征很明顯,好處描述用戶興趣時(shí)會(huì)非常準(zhǔn)確,有利于提高推薦系統(tǒng)的效果。不過局限性容易導(dǎo)致推薦系統(tǒng)判斷用戶興趣時(shí)會(huì)變得極其狹隘和過度精準(zhǔn),行話就是過度收斂。
從推薦的流程上來看,即是下圖:

標(biāo)簽會(huì)讓推薦越來越收斂
總之呢,推薦策略中的一個(gè)核心關(guān)注點(diǎn)就是保持推薦的精準(zhǔn)和興趣探索的平衡。
目前也沒有特別好的解決辦法,不能怪標(biāo)簽,因?yàn)樗焐褪羌捌渚珳?zhǔn)的(還記得實(shí)體標(biāo)簽的特點(diǎn)嗎?),所以有很多其他的策略來減低過度收斂的“跑火車”現(xiàn)象:
增加負(fù)反饋,讓用戶明確的告訴推薦系統(tǒng)哪些內(nèi)容不喜歡,并且這種負(fù)反饋的權(quán)重很大,優(yōu)先級(jí)很高。
ReRank層增加強(qiáng)策略,人為約束標(biāo)簽的過度收斂。
例如:每屏刷新10條內(nèi)容,把其中的一個(gè)或多槽位/位置是用來進(jìn)行興趣探索,嘗試推薦其他關(guān)聯(lián)標(biāo)簽或者關(guān)聯(lián)分類下的內(nèi)容。
例如:多屏聯(lián)動(dòng)策略,如果連著5屏都有汽車試駕的內(nèi)容,且點(diǎn)擊率不高,那么在第6屏或者刷新后的第1、2屏不再出現(xiàn)汽車試駕的內(nèi)容。
人工運(yùn)營(yíng)中,可能會(huì)打壓部分熱門標(biāo)簽的流量或者降低權(quán)重。
某些時(shí)效性很強(qiáng)的標(biāo)簽,比如娛樂圈的那些破事,爆出來后時(shí)效性也就那么幾天,沒必要一直霸著好位置占流量,所以這類標(biāo)簽通常在推薦系統(tǒng)中會(huì)被加上一個(gè)時(shí)間衰減函數(shù),讓它們盡快衰減。