【干貨】基于大數(shù)據(jù)的IPTV精準(zhǔn)營(yíng)銷方案研究與應(yīng)用 https://mp.weixin.qq.com/s?src=3×tamp=1500171470&ver=1&signature=0XZ2ZR41fp7FU2HCgoQxiKkAX6DH5rg7qt7QYgBaa0s33k6OA7U7GS66w4zRFTqY6s-TDJ5b9wXJkDZ-odlzTkk30Mvqm6-NN3z6zLIxz8jkRC8yeYOKNQfShfNhmgu3W38GnpwjtnXg21fI*HaOAjX3tEgAUv-duCpxT0ba8=
- Github項(xiàng)目: awesome-coder-resources:編程/學(xué)習(xí)/閱讀資源---開源項(xiàng)目,面試題,網(wǎng)站,書,博客,教程等等...歡迎Star,歡迎圍觀...
CRISP-DM(cross-industry standard process for data mining,跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程)提供了一個(gè)數(shù)據(jù)挖掘生命周期的全面評(píng)述,在數(shù)據(jù)挖掘中被廣泛采用。其流程如圖1所示。
匯聚的數(shù)據(jù)—數(shù)據(jù)分析—建模分析”間的關(guān)系就如同“經(jīng)初步處理的棉麻原料—布匹—成衣”的過(guò)程。
摘要:分析了大數(shù)據(jù)技術(shù)在IPTV精準(zhǔn)營(yíng)銷中的應(yīng)用,因地制宜地制定了“Hadoop大數(shù)據(jù)平臺(tái)+爬蟲技術(shù)+建模工具”的框架方案,并對(duì)方案中的關(guān)鍵點(diǎn)和整個(gè)數(shù)據(jù)分析建模過(guò)程在現(xiàn)網(wǎng)中的應(yīng)用進(jìn)行了深入分析。在IPTV精準(zhǔn)營(yíng)銷中取得了較好的效果,具有較高的應(yīng)用價(jià)值。
關(guān)鍵詞:大數(shù)據(jù)技術(shù);數(shù)據(jù)建模;IPTV;精準(zhǔn)營(yíng)銷
1 引言
隨著2015年國(guó)務(wù)院“65號(hào)文”全面開放運(yùn)營(yíng)商進(jìn)入IPTV領(lǐng)域和運(yùn)營(yíng)商網(wǎng)絡(luò)升級(jí),IPTV迎來(lái)一個(gè)發(fā)展良機(jī)。來(lái)自流媒體網(wǎng)的數(shù)據(jù),2016年1-6月,IPTV用戶凈增1991.7萬(wàn)戶,總數(shù)達(dá)到6581.2萬(wàn)戶。
然而,在運(yùn)營(yíng)商業(yè)務(wù)體系中,IPTV主要起到寬帶業(yè)務(wù)填充和增加用戶黏性的作用,直接收入貢獻(xiàn)不突出。IPTV互聯(lián)網(wǎng)特性提供了點(diǎn)播等不同于傳統(tǒng)電視的業(yè)務(wù)模式,為IPTV業(yè)務(wù)增收另辟蹊徑。
同時(shí),隨著視頻業(yè)務(wù)在網(wǎng)絡(luò)流量中比重日益增加以及政策放開帶來(lái)的競(jìng)爭(zhēng),發(fā)展新用戶也是IPTV業(yè)務(wù)當(dāng)前的發(fā)展重點(diǎn)。
在當(dāng)前IPTV業(yè)務(wù)營(yíng)銷中,最大問(wèn)題是準(zhǔn)確定位“向誰(shuí)”營(yíng)銷“什么業(yè)務(wù)”,傳統(tǒng)方式指向性不夠,導(dǎo)致營(yíng)銷效率低下,且容易引起用戶反感。另一方面,電信運(yùn)營(yíng)商擁有豐富的用戶數(shù)據(jù),從數(shù)據(jù)中掘金,是當(dāng)前大勢(shì)所趨?,F(xiàn)在數(shù)據(jù)具有體量大、類型多樣、速度快、價(jià)值密度低4個(gè)特征,為適應(yīng)新形式下的數(shù)據(jù)挖掘,大數(shù)據(jù)技術(shù)應(yīng)運(yùn)而生。
2 需求分析
在IPTV業(yè)務(wù)實(shí)際運(yùn)營(yíng)中,發(fā)現(xiàn)存在以下問(wèn)題。
(1)訂購(gòu)用戶少
以某運(yùn)營(yíng)商省公司2016年5月數(shù)據(jù)為例,增值業(yè)務(wù)用戶數(shù)僅占全部IPTV用戶數(shù)的10%左右,增值業(yè)務(wù)收入占IPTV業(yè)務(wù)收入的1/4。
(2)基于用戶惰性行為的分析
增值業(yè)務(wù)訂購(gòu)有點(diǎn)播、包月、包年等不同時(shí)效的產(chǎn)品包,從用戶行為看,少有用戶不停點(diǎn)播不同內(nèi)容的,應(yīng)該更多地發(fā)展包年用戶。
(3)不同內(nèi)容產(chǎn)品包的用戶差距明顯
以某運(yùn)營(yíng)商省公司的數(shù)據(jù)為例,訂購(gòu)最多的“影院高清包年”用戶是“英超高清包年”的上百倍。
(4)高清拉動(dòng)
隨著高清電視的普及和帶寬的提升,用戶對(duì)高清視頻需求增長(zhǎng)明顯。
(5)積分訂購(gòu)和賬單訂購(gòu)用戶退訂行為差距大
積分訂購(gòu)用戶在業(yè)務(wù)到期后退訂明顯,賬單訂購(gòu)用戶退訂相對(duì)平緩。
針對(duì)以上分析,發(fā)展增值業(yè)務(wù)用戶需要考慮:用戶的視頻需求,包括觀看時(shí)間、內(nèi)容、是否高清敏感等;用戶的支付習(xí)慣,包括消費(fèi)敏感度、積分支付行為等。對(duì)于發(fā)展新用戶,首先在寬帶用戶中發(fā)展,由于目標(biāo)用戶還沒有使用IPTV,應(yīng)基于運(yùn)營(yíng)商ODS(operating data store,運(yùn)營(yíng)數(shù)據(jù)倉(cāng)儲(chǔ))數(shù)據(jù)和網(wǎng)絡(luò)DPI(deep packet inspection,深度分組檢測(cè))數(shù)據(jù)對(duì)用戶進(jìn)行分析,向有視頻傾向的寬帶用戶推薦IPTV業(yè)務(wù),同時(shí)推薦用戶感興趣的增值業(yè)務(wù)。
3 方案框架
3.1 基于Hadoop大數(shù)據(jù)平臺(tái)實(shí)現(xiàn)數(shù)據(jù)匯聚
本文方案用到的數(shù)據(jù)比較復(fù)雜:數(shù)據(jù)體量大,僅IPTV業(yè)務(wù)數(shù)據(jù)就包括十幾個(gè)表,每天大于5 GB的裸數(shù)據(jù)(某運(yùn)營(yíng)商省公司IPTV業(yè)務(wù)數(shù)據(jù)),而DPI數(shù)據(jù)更是體量大、價(jià)值密度低;數(shù)據(jù)類型多,包括ODS傳統(tǒng)數(shù)據(jù)庫(kù)數(shù)據(jù)、IPTV日志類業(yè)務(wù)數(shù)據(jù)、DPI數(shù)據(jù)和網(wǎng)上爬取的數(shù)據(jù)等;不同類型和來(lái)源的數(shù)據(jù)需要進(jìn)行用戶和格式的統(tǒng)一;涉及的數(shù)據(jù)大多來(lái)自現(xiàn)網(wǎng)數(shù)據(jù),包括IPTV業(yè)務(wù)數(shù)據(jù)、用戶套餐信息等,為避免影響現(xiàn)網(wǎng)業(yè)務(wù),有必要新建數(shù)據(jù)平臺(tái)進(jìn)行數(shù)據(jù)保存處理。
采用Hadoop技術(shù)搭建大數(shù)據(jù)平臺(tái),集群規(guī)模為“2+16+1”(名稱節(jié)點(diǎn)+數(shù)據(jù)節(jié)點(diǎn)+接口機(jī)),50 TB存儲(chǔ)空間(能滿足同時(shí)開展3個(gè)省公司的IPTV大數(shù)據(jù)分析的數(shù)據(jù)存儲(chǔ)),部署了Sqoop、Flume等數(shù)據(jù)同步工具,Big、Hive、Impala、Spark等數(shù)據(jù)查詢分析工具。
3.2 基于CRISP-DM的數(shù)據(jù)挖掘流程
CRISP-DM(cross-industry standard process for data mining,跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程)提供了一個(gè)數(shù)據(jù)挖掘生命周期的全面評(píng)述,在數(shù)據(jù)挖掘中被廣泛采用。其流程如圖1所示。
圖1 CRISP-DM模型處理流程示意
CRISP-DM模型流程包括圖1中的6個(gè)步驟[1],說(shuō)明如下。
(1)商業(yè)問(wèn)題定義
主要從項(xiàng)目目標(biāo)和業(yè)務(wù)角度理解需求,并制定初步計(jì)劃;為發(fā)展IPTV增值業(yè)務(wù)和IPTV新用戶提供數(shù)據(jù)挖掘服務(wù),精準(zhǔn)定位需求用戶,其中發(fā)展IPTV增值業(yè)務(wù)包括發(fā)展增值業(yè)務(wù)新用戶、增值業(yè)務(wù)升級(jí)(點(diǎn)播/包月轉(zhuǎn)包年)、業(yè)務(wù)升級(jí)(標(biāo)清轉(zhuǎn)高清/4K(即4K分辨率,ultra HD標(biāo)準(zhǔn)),寬帶升級(jí))等;發(fā)展新用戶主要在寬帶用戶中發(fā)展IPTV用戶。
(2)數(shù)據(jù)理解
從數(shù)據(jù)收集開始進(jìn)行數(shù)據(jù)探索,發(fā)現(xiàn)數(shù)據(jù)內(nèi)部屬性;需要的數(shù)據(jù)包括IPTV業(yè)務(wù)數(shù)據(jù)、用戶電信畫像數(shù)據(jù)(用戶套餐信息、家庭成員結(jié)構(gòu)、支付習(xí)慣等)、用戶視頻畫像數(shù)據(jù)等。
(3)數(shù)據(jù)準(zhǔn)備
數(shù)據(jù)準(zhǔn)備階段包括從未處理數(shù)據(jù)中構(gòu)造最終數(shù)據(jù)集的所有活動(dòng)?;跇I(yè)務(wù)目標(biāo),對(duì)匯集的數(shù)據(jù)進(jìn)行分析,縮小數(shù)據(jù)范圍,并對(duì)不同來(lái)源數(shù)據(jù)進(jìn)行對(duì)接統(tǒng)一;Hive提供的Hive SQL非常適合熟悉SQL語(yǔ)言的人使用,本項(xiàng)目使用Hive的UDF(user defined function,用戶定義函數(shù))進(jìn)行數(shù)據(jù)提取,為數(shù)據(jù)建模提供寬表數(shù)據(jù)。
(4)建模
對(duì)數(shù)據(jù)進(jìn)行建模分析;建??梢允褂肦語(yǔ)言、Python言語(yǔ)、Mahout編程實(shí)現(xiàn),但對(duì)實(shí)現(xiàn)者要求高,實(shí)現(xiàn)周期長(zhǎng),管理復(fù)雜;數(shù)據(jù)探索結(jié)果顯示,經(jīng)過(guò)數(shù)據(jù)分析提取,最終用于數(shù)據(jù)挖掘的數(shù)據(jù)量并不多(以某運(yùn)營(yíng)商省公司的“包月轉(zhuǎn)包年”模型為例,經(jīng)過(guò)分析后獲取的寬表數(shù)據(jù)每個(gè)月數(shù)據(jù)量在50~70 MB),這非常適合使用成熟的建模工具進(jìn)行處理,本文采用支持CRISP-DM模型的現(xiàn)成建模工具。
(5)評(píng)估
檢查構(gòu)造模型的步驟,確保模型可以完成業(yè)務(wù)目標(biāo);對(duì)建模的算法、效果進(jìn)行分析比較,并基于測(cè)試分區(qū)進(jìn)行檢查。
(6)部署
將模型獲得的知識(shí)進(jìn)行應(yīng)用;模型導(dǎo)出營(yíng)銷用戶清單及對(duì)應(yīng)的推薦業(yè)務(wù),營(yíng)銷部門根據(jù)該清單進(jìn)行營(yíng)銷,并反饋營(yíng)銷效果。
3.3 總體框架方案
基于上述分析,框架方案可如圖2所示,“IPTV精準(zhǔn)營(yíng)銷大數(shù)據(jù)平臺(tái)”基于Hadoop技術(shù)搭建,匯聚了數(shù)據(jù)分析所需的數(shù)據(jù),同時(shí)部署了爬蟲程序用于爬取視頻相關(guān)數(shù)據(jù),構(gòu)建用戶視頻畫像(詳見第4.2節(jié)),還有數(shù)據(jù)的預(yù)處理分析也在“IPTV精準(zhǔn)營(yíng)銷大數(shù)據(jù)平臺(tái)”上進(jìn)行,經(jīng)過(guò)處理向建模工具輸出寬表數(shù)據(jù);建模工具實(shí)現(xiàn)數(shù)據(jù)的建模分析,向營(yíng)銷部門輸出營(yíng)銷用戶清單。營(yíng)銷由專門的營(yíng)銷部門實(shí)現(xiàn),是方案成果的使用部門和價(jià)值體現(xiàn),同時(shí)還需要根據(jù)營(yíng)銷結(jié)果進(jìn)行數(shù)據(jù)分析和建模的調(diào)整。

4 數(shù)據(jù)匯聚和預(yù)處理
4.1 運(yùn)營(yíng)商數(shù)據(jù)匯聚
本文用到的運(yùn)營(yíng)商數(shù)據(jù)包括IPTV業(yè)務(wù)數(shù)據(jù)、用戶套餐信息、家庭標(biāo)簽、支付標(biāo)簽、ODS數(shù)據(jù)、DPI數(shù)據(jù)等,處理的方式各不相同:IPTV業(yè)務(wù)數(shù)據(jù)目前沒有匯聚到運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái),需要與IPTV業(yè)務(wù)平臺(tái)對(duì)接,定期采集數(shù)據(jù)到“IPTV精準(zhǔn)營(yíng)銷大數(shù)據(jù)平臺(tái)”;用戶套餐信息、家庭標(biāo)簽、支付標(biāo)簽等數(shù)據(jù)從運(yùn)營(yíng)商ODS系統(tǒng)中查詢獲取,將結(jié)果保存到“IPTV精準(zhǔn)營(yíng)銷大數(shù)據(jù)平臺(tái)”;DPI數(shù)據(jù)已經(jīng)保存到運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái),利用其租戶空間進(jìn)行數(shù)據(jù)初步分析,獲取用戶視屏標(biāo)簽數(shù)據(jù),結(jié)果匯聚到“IPTV精準(zhǔn)營(yíng)銷大數(shù)據(jù)平臺(tái)”。
4.2 通過(guò)數(shù)據(jù)爬取構(gòu)建用戶視頻畫像
數(shù)據(jù)爬取需求主要包括:節(jié)目信息爬取和建立視頻標(biāo)簽的數(shù)據(jù)爬取。
IPTV業(yè)務(wù)平臺(tái)只有節(jié)目的名稱,沒有視頻節(jié)目標(biāo)簽數(shù)據(jù),如節(jié)目分類、主演、地區(qū)等;需要通過(guò)爬蟲爬取節(jié)目信息,為用戶IPTV播放記錄打上視頻標(biāo)簽。輸入輸出樣例如下:
輸入樣例:00000050000000010000000011024895|愛回家6_26
輸出樣例:00000050000000010000000011024895|愛回家6_26|
標(biāo)題=愛·回家|年份=2012|分類=電視劇|主演=劉丹/徐榮/黎諾懿/郭少蕓/朱慧敏/林漪娸|地區(qū)=香港|導(dǎo)演=徐遇安|類型=劇情/搞笑/時(shí)裝/家庭|編劇=冼翠貞
對(duì)于沒有使用IPTV業(yè)務(wù)的寬帶用戶,可通過(guò)其DPI數(shù)據(jù)獲取視頻觀看記錄,構(gòu)建其視頻畫像,雖然運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái)已有包括視頻標(biāo)簽的完整標(biāo)簽體系,但指向性不夠,兼顧目標(biāo)和效率,本文選取樂視、優(yōu)酷、愛奇藝等幾個(gè)規(guī)模大、更接近電視屏的視頻網(wǎng)站,基于用戶對(duì)這些視頻網(wǎng)站的訪問(wèn)行為構(gòu)建用戶的視頻畫像,為此本文通過(guò)爬蟲爬取了明星庫(kù)、節(jié)目庫(kù)、基于主要視頻網(wǎng)站的視頻分類和標(biāo)簽信息,構(gòu)建了用于刻畫用戶畫像的視頻標(biāo)簽系統(tǒng)。
爬蟲程序基于開源項(xiàng)目Scrapy自主開發(fā),并分布式部署在“IPTV精準(zhǔn)營(yíng)銷大數(shù)據(jù)平臺(tái)”,爬取的數(shù)據(jù)自動(dòng)保存到“IPTV精準(zhǔn)營(yíng)銷大數(shù)據(jù)平臺(tái)”。其中爬取的節(jié)目信息直接通過(guò)自主開發(fā)的程序?yàn)橛脩鬒PTV觀看行為數(shù)據(jù)打視頻標(biāo)簽;爬取的明星庫(kù)、節(jié)目庫(kù)、視頻分類信息構(gòu)建了用戶視頻標(biāo)簽系統(tǒng),并運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái)租戶空間中對(duì)用戶DPI數(shù)據(jù)打視頻標(biāo)簽,并將最終打上視頻標(biāo)簽的數(shù)據(jù)匯聚到“IPTV精準(zhǔn)營(yíng)銷大數(shù)據(jù)平臺(tái)”。
4.3 數(shù)據(jù)預(yù)處理
預(yù)處理包括從用戶維度對(duì)數(shù)據(jù)進(jìn)行統(tǒng)一處理,并根據(jù)業(yè)務(wù)邏輯進(jìn)行數(shù)據(jù)抽取,形成統(tǒng)一的寬表數(shù)據(jù),供建模分析。預(yù)處理體現(xiàn)了建模的人工智慧——需要確定數(shù)據(jù)抽取的范圍、粒度,體現(xiàn)了數(shù)據(jù)挖掘的業(yè)務(wù)邏輯,其成果將直接影響建模的有效性。具體包括:數(shù)據(jù)的統(tǒng)一,基于用戶寬帶賬號(hào)、IPTV賬號(hào)對(duì)應(yīng)的用戶標(biāo)識(shí)進(jìn)行數(shù)據(jù)的統(tǒng)一;數(shù)據(jù)提取,根據(jù)業(yè)務(wù)分析確定業(yè)務(wù)處理邏輯,并從原始數(shù)據(jù)中提取、匯總、比較等,生成最終用于建模的數(shù)據(jù)?!皡R聚的數(shù)據(jù)—數(shù)據(jù)分析—建模分析”間的關(guān)系就如同“經(jīng)初步處理的棉麻原料—布匹—成衣”的過(guò)程。
以IPTV包月轉(zhuǎn)包年模型為例,經(jīng)過(guò)數(shù)據(jù)分析后形成的寬表數(shù)據(jù)包括以下方面。
(1)用戶基礎(chǔ)信息
包括用戶寬帶套餐、積分?jǐn)?shù)據(jù)、IPTV業(yè)務(wù)狀態(tài)、IPTV機(jī)頂盒信息(廠商、型號(hào)、清晰度、數(shù)量等)等,這些信息基本上可以直接通過(guò)數(shù)據(jù)抽取得到。
(2)用戶IPTV增值業(yè)務(wù)使用信息
包括按不同支付方式匯總近3年訂購(gòu)金額、次數(shù),在訂產(chǎn)品包個(gè)數(shù)和總金額等;用戶在訂/退訂各年包/半年包匯總數(shù)據(jù);用戶在訂、退訂的最長(zhǎng)時(shí)間產(chǎn)品包信息;用戶點(diǎn)播的高清/非高清電影、電視劇等不同種類節(jié)目匯總的次數(shù)、天數(shù)、時(shí)長(zhǎng)、節(jié)目數(shù)等;這些數(shù)據(jù)要從匯聚的數(shù)據(jù)經(jīng)過(guò)計(jì)算、匯總得到;用戶觀看直播節(jié)目匯總信息。
(3)用戶其他畫像信息
基于用戶住宅區(qū)域、套餐信息和賬單支付形成的用戶支付畫像,基于用戶工作日寬帶網(wǎng)絡(luò)、IPTV使用情況,家庭Wi-Fi使用、網(wǎng)站訪問(wèn)搜索和購(gòu)物信息等形成的家庭人口畫像,這些已有運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái)生成,可直接抽取用戶標(biāo)簽數(shù)據(jù)使用。
還有的需要進(jìn)行額外的數(shù)據(jù)比較,如通過(guò)比較用戶IPTV清晰度和帶寬信息(加上用戶高清視頻標(biāo)簽),推薦用戶進(jìn)行帶寬升級(jí)、IPTV清晰度升級(jí)或兩者均升級(jí)等;這需求比較IPTV標(biāo)清/高清/4K需要的帶寬信息、用戶套餐的帶寬信息、用戶IPTV機(jī)頂盒清晰度信息,定義用戶帶寬和IPTV滿足度的新字段。
經(jīng)過(guò)預(yù)處理的數(shù)據(jù)優(yōu)化了數(shù)據(jù)結(jié)構(gòu),大大降低了數(shù)據(jù)量,更易于建模分析。提交給建模的數(shù)據(jù)包括觀察數(shù)據(jù)和預(yù)測(cè)數(shù)據(jù),觀察數(shù)據(jù)用于建模,得到“實(shí)現(xiàn)業(yè)務(wù)目標(biāo)”的用戶模型,然后用這些用戶模型對(duì)預(yù)測(cè)數(shù)據(jù)分析,得出“下月可能實(shí)現(xiàn)業(yè)務(wù)目標(biāo)”的用戶清單。
5 建模分析
建模過(guò)程輸入寬表數(shù)據(jù),輸出營(yíng)銷月用戶清單。整個(gè)分析過(guò)程包括:根據(jù)觀察數(shù)據(jù)建立用戶模型;根據(jù)用戶模型對(duì)預(yù)測(cè)數(shù)據(jù)進(jìn)行分析,得出下月營(yíng)銷目標(biāo)用戶,并根據(jù)用戶的視頻畫像進(jìn)行聚類,向用戶推薦合適的產(chǎn)品包。本部分以“包月轉(zhuǎn)包年”模型為例描述建模分析過(guò)程。
5.1 數(shù)據(jù)建模分析
具體的建模分析過(guò)程可分為數(shù)據(jù)預(yù)處理和數(shù)據(jù)建模兩部分。
其中數(shù)據(jù)預(yù)處理主要是根據(jù)建模要求,對(duì)寬表數(shù)據(jù)做進(jìn)一步處理,使其更符合建模分析的需要,以“包月轉(zhuǎn)包年”模型為例,數(shù)據(jù)預(yù)處理包括以下方面。
(1)字段處理
將寬表數(shù)據(jù)根據(jù)建模要求進(jìn)行數(shù)據(jù)統(tǒng)計(jì)、新字段定義,如統(tǒng)計(jì)用戶產(chǎn)品月齡、在訂/退訂產(chǎn)品包信息,定義“次月是否新訂年包”等;基于營(yíng)銷時(shí)機(jī)的處理,如選擇最近訂購(gòu)或退訂過(guò)包月業(yè)務(wù)的用戶。
(2)區(qū)別不同訂購(gòu)方式
業(yè)務(wù)分析中,發(fā)現(xiàn)用戶賬單支付和積分支付行為差距明顯,在建模前將兩類數(shù)據(jù)區(qū)別開,分別進(jìn)行建模。
(3)數(shù)據(jù)分區(qū)
建模中將數(shù)據(jù)按訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)進(jìn)行分區(qū)。
(4)數(shù)據(jù)平衡
整體用戶中訂購(gòu)用戶相對(duì)稀疏,以某月數(shù)據(jù)為例,訂購(gòu)用戶和未訂購(gòu)用戶之比接近1∶60,在建模前需要對(duì)訂購(gòu)用戶和未訂購(gòu)用戶進(jìn)行數(shù)據(jù)平衡。
數(shù)據(jù)建模主要是選擇合適的算法對(duì)數(shù)據(jù)進(jìn)行分析,并選擇最優(yōu)模型用于用戶預(yù)測(cè)?!鞍罗D(zhuǎn)包年”模型建模選擇了“自動(dòng)分類器”中的C5、判別、CHAID、C&R樹、Quest等算法進(jìn)行建模,其中賬單支付的各算法建模結(jié)果比較如圖3所示,基于“總體精確性”指標(biāo)選擇最優(yōu)算法(賬單支付中選擇判別算法),用于后續(xù)進(jìn)行用戶預(yù)測(cè)的模型。

圖3 賬單支付下各算法建模結(jié)果比較
積分訂購(gòu)建模中總體成功率更高,以選擇的“C&R樹”算法為例,訓(xùn)練數(shù)據(jù)集結(jié)果為78.299%,測(cè)試數(shù)據(jù)集結(jié)果為84.206%,這與業(yè)務(wù)分析是一致的:對(duì)于積分支付用戶來(lái)說(shuō),只要用戶喜歡這些增值業(yè)務(wù)(有視頻觀看偏向),手里又有積分,那訂購(gòu)的成功率還是較高的;對(duì)于賬單支付用戶來(lái)說(shuō),用戶要真金白銀的出錢考慮的因素就多了,況且還有樂視、優(yōu)酷等其他互聯(lián)網(wǎng)品牌可以選擇。
5.2 導(dǎo)出營(yíng)銷用戶清單
導(dǎo)出營(yíng)銷用戶清單包括數(shù)據(jù)預(yù)處理、用戶預(yù)測(cè)和推薦產(chǎn)品包選擇。數(shù)據(jù)預(yù)處理包括字段處理、用戶剔除(最近半年已營(yíng)銷用戶等)和區(qū)分用戶支付方式等。
數(shù)據(jù)預(yù)處理后,使用第5.1節(jié)中選定的數(shù)據(jù)模型分別對(duì)賬單支付用戶和積分用戶進(jìn)行預(yù)測(cè),得到下個(gè)月“根據(jù)模型可能訂購(gòu)業(yè)務(wù)”的用戶,并設(shè)置置信度閾值,選取營(yíng)銷目標(biāo)用戶。
最終提交的營(yíng)銷清單還包括向用戶推薦的產(chǎn)品包,嚴(yán)格意義上應(yīng)該分析用戶的視頻觀看行為得到用戶的視頻畫像,向用戶推薦“用戶最感興趣”的節(jié)目,實(shí)際營(yíng)銷中營(yíng)銷的產(chǎn)品包往往是有限的——根據(jù)自身資源和統(tǒng)計(jì)“最熱門”的產(chǎn)品來(lái)確定。本次營(yíng)銷根據(jù)IPTV平臺(tái)的節(jié)目資源和以往用戶訂購(gòu)統(tǒng)計(jì)信息,確定了包括“影院高清年包”“熱劇年付”“全能看包年”“紀(jì)實(shí)高清半年包”“動(dòng)漫高清半年包”等在內(nèi)的十幾個(gè)產(chǎn)品包,內(nèi)容集中在電影、電視劇、動(dòng)漫、紀(jì)實(shí)上。
為此,采用k-means聚類算法,對(duì)用戶視頻觀看行為進(jìn)行聚類,并根據(jù)營(yíng)銷的產(chǎn)品包顯示高清電影觀看時(shí)長(zhǎng)(vod_hd_mov_dur)、標(biāo)清電影觀看時(shí)長(zhǎng)(vod_non_hd_mov_ dur)、高清電視劇觀看時(shí)長(zhǎng)(vod_hd_tvp_dur)、標(biāo)清電視劇觀看時(shí)長(zhǎng)(vod_non_hd_tvp_dur)、高清紀(jì)實(shí)觀看時(shí)長(zhǎng)(vod_hd_doc_dur)、高清動(dòng)漫觀看時(shí)長(zhǎng)(vod_hd_ct_dur)在聚類中的分布,結(jié)果如圖4所示,其中圖4(a)是按“總體重要性排序”的絕對(duì)分布,從中可看出對(duì)總體重要性而言,動(dòng)漫、紀(jì)實(shí)排在前兩位,這可以解釋大多用戶對(duì)電影、電視劇偏向的普遍性;圖4(b)是“聚類內(nèi)重要性”的相對(duì)分布,基于圖4向用戶推薦產(chǎn)品包(其中聚類2只有兩個(gè)值作為離群值概率),見表1。

圖4 對(duì)用戶觀看內(nèi)容的聚類結(jié)果

5.3 模型評(píng)估優(yōu)化
模型的評(píng)估優(yōu)化包括部署前模型本身的評(píng)估和部署后根據(jù)營(yíng)銷反饋的優(yōu)化。
模型本身的評(píng)估包括:算法和測(cè)試分區(qū)的驗(yàn)證、平衡因子的調(diào)整、字段的調(diào)整等。首先,通過(guò)選擇不同的算法得出不同的算法模型,結(jié)合測(cè)試分區(qū)的驗(yàn)證,選擇最優(yōu)算法或算法組合;本例中通過(guò)選擇“自動(dòng)分類器”中不同算法,并結(jié)合測(cè)試分區(qū)的驗(yàn)證確定最優(yōu)模型。然后通過(guò)調(diào)整平衡因子調(diào)整目標(biāo)用戶在整體數(shù)據(jù)中的比例,多次運(yùn)行模型,確定平衡因子的最優(yōu)范圍。還有結(jié)合建模結(jié)果中各字段的重要性進(jìn)行字段微調(diào)。
同時(shí)模型還要根據(jù)營(yíng)銷反饋的數(shù)據(jù)進(jìn)行優(yōu)化,可以結(jié)合建模將用戶隨機(jī)分成幾組,調(diào)整算法、置信度、字段等,結(jié)合不同的營(yíng)銷效果進(jìn)行模型的調(diào)優(yōu),這部分工作還在進(jìn)行中。
總之,數(shù)據(jù)挖掘中建立數(shù)據(jù)模型不是分析的結(jié)束,而是又一輪分析的開始,要經(jīng)過(guò)各種手段的調(diào)整優(yōu)化,不斷提升數(shù)據(jù)挖掘的效果。
6 結(jié)束語(yǔ)
本次分析主要配合某運(yùn)營(yíng)商省公司的電銷進(jìn)行,從效果來(lái)看,營(yíng)銷成功率比原先提升將近一倍,效果最好的“包月轉(zhuǎn)包年”營(yíng)銷成功率由原來(lái)的不到5%提升到12%,應(yīng)該說(shuō)取得了比較好的效果。
當(dāng)然數(shù)據(jù)挖掘在營(yíng)銷過(guò)程中主要還是幕后的“軍師”,本文主要通過(guò)數(shù)據(jù)建模得出下月有可能成為“IPTV用戶”或“訂購(gòu)增值業(yè)務(wù)的用戶”。而實(shí)際營(yíng)銷主要是向用戶提供滿足用戶需求的、性價(jià)比可接受的產(chǎn)品,大數(shù)據(jù)分析在IPTV用戶需求分析、產(chǎn)品提供等其他方面也可以發(fā)揮幕后軍師的作用,全方位提升IPTV的營(yíng)銷效果。同時(shí),大數(shù)據(jù)分析也可以擴(kuò)大到其他更廣的領(lǐng)域,就運(yùn)營(yíng)商內(nèi)部而言,在終端換機(jī)、3G升4G、交叉營(yíng)銷等方面,已經(jīng)利用大數(shù)據(jù)分析技術(shù)來(lái)有的放矢提高營(yíng)銷成功率。可以說(shuō),大數(shù)據(jù)技術(shù)在電信行業(yè)已經(jīng)也將發(fā)揮更大的作用。
文章來(lái)源:電信科學(xué)