
內(nèi)容來源:2017年5月6日,魅族數(shù)據(jù)架構(gòu)師黃振賢在“魅族技術(shù)開放日第八期——數(shù)據(jù)洞察”進(jìn)行《魅族大數(shù)據(jù)之用戶洞察平臺介紹》演講分享。IT 大咖說(WeChat_ID:itdakashuo)作為獨(dú)家視頻合作方,經(jīng)主辦方和講者審閱授權(quán)發(fā)布。
閱讀字?jǐn)?shù):1869?| 6分鐘閱讀
獲取嘉賓演講視頻回顧及PPT,請點(diǎn)擊:http://t.cn/EUJZiYc
摘要
魅族DMP(用戶洞察平臺),通過對三方受眾數(shù)據(jù)的匯聚、清洗、智能運(yùn)算,構(gòu)建了龐大的精準(zhǔn)人群數(shù)據(jù)中心,提供豐富的用戶畫像數(shù)據(jù)以及實(shí)時的場景識別力。對內(nèi):無縫對接各類業(yè)務(wù)平臺的數(shù)據(jù)應(yīng)用,如廣告平臺,PUSH推送,個性化推薦之間建立了數(shù)據(jù)通道,支持公司級的精準(zhǔn)營銷,消息及時送達(dá)服務(wù)等場景。對外:完善對數(shù)據(jù)的管理及輸出流程,以開放接口形式為全行業(yè)從業(yè)者提供標(biāo)準(zhǔn)的精準(zhǔn)人群標(biāo)簽,幫助優(yōu)化投放和提升營銷效果。達(dá)到對受眾的精準(zhǔn)投放,釋放數(shù)據(jù)真正價值!本文將介紹用戶洞察平臺所采用的架構(gòu),探討遇到的技術(shù)難點(diǎn)和解決過程,回顧目前架構(gòu)的不足之處以及將來改進(jìn)的方向。
總體介紹
用戶洞察平臺的定位
通過對三方受眾數(shù)據(jù)的匯聚、清洗、智能運(yùn)算,構(gòu)建了龐大的精準(zhǔn)人群數(shù)據(jù)中心,提供豐富的用戶畫像數(shù)據(jù)以及實(shí)時的場景識別力。?
無縫對接各類業(yè)務(wù)平臺的數(shù)據(jù)應(yīng)用,如廣告平臺,PUSH推送,個性化推薦之間建立了數(shù)據(jù)通道,支持公司級的精準(zhǔn)營銷,消息及時送達(dá)服務(wù)等等。
營銷效果評估,反饋數(shù)據(jù)可進(jìn)一步加工,用于提升畫像標(biāo)簽質(zhì)量。
核心需求
用戶洞察的核心需求包含了以下幾個部分。
標(biāo)簽生成:互聯(lián)網(wǎng)業(yè)務(wù)變化快,標(biāo)簽需求變更頻繁。要求系統(tǒng)快速響應(yīng)標(biāo)簽需求。
人群洞察:對全量用戶任意標(biāo)簽進(jìn)行過濾以及聚合計算,查詢1-2秒內(nèi)響應(yīng)。
受眾分發(fā):在無縫對接各類業(yè)務(wù)系統(tǒng),實(shí)現(xiàn)高效實(shí)時的精確營銷。
標(biāo)簽查詢:根據(jù)用戶ID查詢用戶畫像詳情,對于廣告業(yè)務(wù)的查詢需要在更苛刻的50ms內(nèi)返回。
總體架構(gòu)
集成開發(fā)平臺之作業(yè)調(diào)度系統(tǒng)上,配置和運(yùn)行離線計算任務(wù)。流平臺(AnyStream)負(fù)責(zé)實(shí)時標(biāo)簽計算。管理模塊生成的相關(guān)規(guī)則,存儲在MySQL,供標(biāo)簽生成任務(wù)(Hive/MR/流平臺)使用。用戶畫像(標(biāo)簽)寬表保存在ES上。Hbase和Redis提供kv查詢。使用開發(fā)平臺(OpenAPI)提供對外接口。
標(biāo)簽生成
根據(jù)生成計算的過程,標(biāo)簽分為兩類,其中一類是統(tǒng)計類標(biāo)簽。首先從用戶的行為里統(tǒng)計出指標(biāo),然后根據(jù)標(biāo)簽生成規(guī)則和統(tǒng)計指標(biāo)作為輸入,就可以對應(yīng)到哪個用戶屬于什么消費(fèi)等級。
算法類標(biāo)簽計算
標(biāo)簽除了統(tǒng)計類的之外還有一種算法類的。
選取高置信度資料(如用戶注冊信息)和用戶行為數(shù)據(jù)作輸入進(jìn)行模型訓(xùn)練。然后使用訓(xùn)練好的模型進(jìn)行屬性預(yù)測。
單值標(biāo)簽與多值標(biāo)簽
單值標(biāo)簽是指用戶在該標(biāo)簽下只能取一個值,不能多選。?
多值標(biāo)簽是用戶可以取該標(biāo)簽下的多個取值組合。比如用戶可以有多個興趣愛好。 多值標(biāo)簽的存在,會影響存儲查詢引擎的選型和存儲結(jié)構(gòu)設(shè)計。
標(biāo)簽生成過程
這種模式的優(yōu)點(diǎn)是配置化管理,提供 Web UI 管理標(biāo)簽的生命周期;基于配置生成標(biāo)簽,標(biāo)簽寬表數(shù)據(jù)與元數(shù)據(jù)100%一致。
尚存的不足是目前配置化管理只涵蓋到最終的標(biāo)簽寬表生成。與上游的指標(biāo)統(tǒng)計和算法預(yù)有脫節(jié)。上游計算過程是單獨(dú)開發(fā),指標(biāo)定義只是另外配置的數(shù)據(jù)描述(可能存在不一致)。一些標(biāo)簽下線(廢除)后,相應(yīng)的上游任務(wù)的依賴需要另外廢除,否則會遺留無用的作業(yè)浪費(fèi)計算資源。
標(biāo)簽存儲
標(biāo)簽存儲總覽
ElasticSearch(ES)是一個基于Lucene構(gòu)建的開源、分布式、RESTful搜索引擎。能夠達(dá)到實(shí)時搜索,穩(wěn)定,可靠,快速。基于 ES 實(shí)現(xiàn)對全量用戶任意標(biāo)簽進(jìn)行在線篩選和聚合分析,秒及響應(yīng)。Hbase 提供大吞吐量的 key/value 查詢。性能要求更為苛刻的 key/value 查詢(廣告平臺)通過使用 Redid 來實(shí)現(xiàn)。
Why ElasticSearch (ES)
傳統(tǒng)的Vertica社區(qū)版有3個節(jié)點(diǎn)和1T存儲容量限制。隨著數(shù)據(jù)規(guī)模和調(diào)用數(shù)暴增,性能出現(xiàn)瓶頸對于多值標(biāo)簽,只能采用csv方式保存在varchar字段,性能低下。
多值標(biāo)簽檢索使用字符串 LIKE 操作;聚合雖能通過一些 trick 來支持,但性能太差。
而現(xiàn)在ES能夠達(dá)到實(shí)時搜索,穩(wěn)定,可靠,快速。在線更新(實(shí)時/準(zhǔn)實(shí)時更新)水平擴(kuò)展能力強(qiáng)。Array type完美支持多值標(biāo)簽存儲和分析場景。
HBase與Redis
Hbase提供低成本,高吞吐量的 kv 查詢。滿足一般業(yè)務(wù)的查詢,缺點(diǎn)是查詢響應(yīng)時間不太理想(針對廣告業(yè)務(wù)而言)。
而對于Redis,廣告業(yè)務(wù)提出 50ms 內(nèi)的查詢延遲,這種苛刻要求需用 Redis 實(shí)現(xiàn)。 Redis存儲目前只服務(wù)于廣告平臺的查詢調(diào)用。
考慮成本因素,主要使用 Hbase 來提供KV查詢。部分要求苛刻的業(yè)務(wù),使用 Redis 作為補(bǔ)充。
平臺功能
主要功能列表
平臺的主要功能有五種,人群管理、人群篩選、畫像洞察、受眾分發(fā)和畫像查詢。
人群管理可通過兩種方式創(chuàng)建。1、指定標(biāo)簽條件;2、導(dǎo)入imei列表,對人群進(jìn)行修改、刪除等操作。
人群篩選是指定標(biāo)簽條件選項(xiàng),查詢滿足條件的用戶數(shù)。
畫像洞察分為兩步。首先指定標(biāo)簽條件選項(xiàng)選出用戶群體,然后再指定要分析的標(biāo)簽,通過聚合運(yùn)算,分析用戶特征。?
受眾分發(fā)需要采取一定的技術(shù)手段,把指定人群推至下游的營銷渠道(廣告平臺、推送平臺、OTA等)。
畫像查詢則是對下游系統(tǒng)提供查詢接口,調(diào)用方指定用戶標(biāo)識(imei)查詢該用戶的畫像標(biāo)簽。
今天的分享就到這里,謝謝大家!
編者:IT大咖說,轉(zhuǎn)載請標(biāo)明版權(quán)和出處