《數(shù)據(jù)挖掘與數(shù)據(jù)化運(yùn)營實(shí)戰(zhàn)》——數(shù)據(jù)在運(yùn)營中的應(yīng)用

? ? ? ? 隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)越來越龐大并且也越來越重要的今天,如何充分利用現(xiàn)有的數(shù)據(jù)產(chǎn)生更多的數(shù)據(jù)并且把海量數(shù)據(jù)轉(zhuǎn)化為實(shí)用價(jià)值為企業(yè)帶來真實(shí)利益,是眾多互聯(lián)網(wǎng)公司尤其是初創(chuàng)的互聯(lián)網(wǎng)都要深入思考的問題,幸而經(jīng)過互聯(lián)網(wǎng)這些年的長足發(fā)展,在數(shù)據(jù)領(lǐng)域這一塊,結(jié)合傳統(tǒng)的思路和方法,已經(jīng)有比較成熟的互聯(lián)網(wǎng)數(shù)據(jù)挖掘技術(shù),并且應(yīng)用于運(yùn)營方面也取得了良好的成效。盡管有不少的一些互聯(lián)網(wǎng)公司在數(shù)據(jù)規(guī)模上難以達(dá)成海量的數(shù)據(jù)級(jí)別,在技術(shù)、人力上也都相對(duì)較缺乏,但是借助資源和渠道充分的第三方平臺(tái),也可以讓自身有限的數(shù)據(jù)得以充分的利用并為自己服務(wù)。

? ? ? ? 不過在國內(nèi)來說,目前互聯(lián)網(wǎng)的數(shù)據(jù)挖掘盡管在技術(shù)方面有比較成熟的方法,但是理論方面還是相對(duì)較缺乏一些?!稊?shù)據(jù)挖掘與數(shù)據(jù)化運(yùn)營實(shí)戰(zhàn)》一書主要圍繞數(shù)據(jù)分析挖掘中的思路、方法、技巧與應(yīng)用,全方位整理、總結(jié)、分享,幫助讀者深刻領(lǐng)會(huì)和掌握“以業(yè)務(wù)為核心,以思路為重點(diǎn),以分析技術(shù)為輔佐”的數(shù)據(jù)挖掘?qū)嵺`應(yīng)用寶典。

? ? ? ? 這本書算是實(shí)踐說明比較詳細(xì)的書,尤其是思路上,算法理論,建模過程,建模優(yōu)化,結(jié)論分析等,但書只提供了說明,沒有數(shù)據(jù)和實(shí)踐,看完雖有收獲,但還是沒有實(shí)踐的過程,需要讀者繼續(xù)深入思考,總體來說還是一本不錯(cuò)的書。書的內(nèi)容偏專業(yè)性強(qiáng)一些,對(duì)沒有數(shù)據(jù)分析基礎(chǔ)的讀者可能會(huì)有些閱讀上的困難,但是也還是能從書中學(xué)到很不錯(cuò)的數(shù)據(jù)分析和數(shù)據(jù)挖掘的思路的,以及如何運(yùn)用于數(shù)據(jù)運(yùn)營上。

? ? ? ? 本書共19章,分為三個(gè)部分:基礎(chǔ)篇(第1~4章)系統(tǒng)介紹了數(shù)據(jù)分析挖掘和數(shù)據(jù)化運(yùn)營的相關(guān)背景、數(shù)據(jù)化運(yùn)營中“協(xié)調(diào)配合”的核心,以及實(shí)踐中常見分析項(xiàng)目類型;實(shí)戰(zhàn)篇(第6~13章)主要介紹實(shí)踐中常見的分析挖掘技術(shù)的實(shí)用技巧,并對(duì)大量的實(shí)踐案例進(jìn)行了全程分享展示;思想意識(shí)篇(第5章,第14~19章)主要是有關(guān)數(shù)據(jù)分析師的責(zé)任、意識(shí)、思維的培養(yǎng)和提升的總結(jié)和探索,以及一些有效的項(xiàng)目質(zhì)控制度和經(jīng)典的方法論介紹。

? ? ? ? 對(duì)我個(gè)人而言,比較偏向于書中的技術(shù)內(nèi)容部分,因?yàn)樗枷胍庾R(shí)篇(第5章,第14~19章)沒什么比較重要的內(nèi)容,主要是講數(shù)據(jù)分析師如何提高自身的數(shù)據(jù)分析素養(yǎng),如何與團(tuán)隊(duì)(尤其是運(yùn)營團(tuán)隊(duì))合作,如何調(diào)高自己的業(yè)務(wù)意識(shí)能力,這些都是在職業(yè)的過程中逐步培養(yǎng)和形成,不能一蹴而就并且不是三言兩語就能說得清楚的?;A(chǔ)篇(第1~4章)更多的基本的概念,是對(duì)數(shù)據(jù)運(yùn)營、數(shù)據(jù)挖掘(數(shù)據(jù)分析)的簡要概述,以及它們彼此間的關(guān)系。下面淺談我對(duì)書中數(shù)據(jù)挖掘的理解:

? ? ? ? 從書中看出數(shù)據(jù)挖掘技術(shù)在數(shù)據(jù)運(yùn)營中主要包含了:常見的數(shù)據(jù)分析項(xiàng)目類型、數(shù)據(jù)清理、常見的數(shù)據(jù)分析方法、效果的評(píng)價(jià)指標(biāo)、十大數(shù)據(jù)挖掘算法。

一、常見的數(shù)據(jù)分析項(xiàng)目類型。

? ? ? ? 1、目標(biāo)群體的特征分析,包含目標(biāo)群體的行為預(yù)測、流失預(yù)警模型、群體分析模型、信用風(fēng)險(xiǎn)。

? ? ? ? 2、用戶路徑分析,包含優(yōu)化頁面提高用戶轉(zhuǎn)化率、交易漏斗分析。

? ? ? ? 3、商品推薦,常用的方法是關(guān)聯(lián)規(guī)則、協(xié)同過濾(基于用戶的協(xié)同過濾、基于物品的協(xié)同過濾)、基于內(nèi)容的推薦(聚類分析)。

? ? ? ? 4、決策支持

二、數(shù)據(jù)清理。

? ? ? ? 1、缺失值,首先需要了解屬性的具體意義以及屬性缺失的具體原因,在了解其意義和原因之后,可以使用直接進(jìn)行替換或者賦值的方法。直接進(jìn)行替換是使用均值、眾數(shù)或者新值等對(duì)缺失值進(jìn)行替換;賦值是采用模型等方案對(duì)缺失值進(jìn)行預(yù)測。

? ? ? ? 2、異常值,去除異常值可以提高分析結(jié)果的準(zhǔn)確度,分析異常值可能可以發(fā)現(xiàn)有價(jià)值的東西。

? ? ? ? 3、數(shù)據(jù)轉(zhuǎn)換,可以產(chǎn)生衍生變量、改善變量分布、區(qū)間型變量的分箱轉(zhuǎn)換、針對(duì)區(qū)間型變量進(jìn)行的標(biāo)準(zhǔn)化操作。

? ? ? ? 4、篩選有效的輸入變量,常用的方法有線性相關(guān)指標(biāo)(找到相關(guān)的自變量,只保留一個(gè)即可)、R平方、卡方檢驗(yàn)、IV和WOE(這兩者的前提條件是把區(qū)間型自變量轉(zhuǎn)化成類別型/次序型自變量,同時(shí)目標(biāo)變量必須是二元變量)、借助于算法或者模型(如決策樹模型、回歸模型等,大數(shù)據(jù)建模時(shí)尤其需要如此)、降維的方法(如主成分分析、變量聚類)。

三、常用的數(shù)據(jù)分析方法。

? ? ? ? 1、神經(jīng)網(wǎng)絡(luò)。對(duì)神經(jīng)網(wǎng)絡(luò)的研究始于20世紀(jì)40年代,作為一門交叉學(xué)科,它是人類基于對(duì)其大腦神經(jīng)認(rèn)識(shí)理解的基礎(chǔ)上,人工構(gòu)造實(shí)現(xiàn)某種功能的網(wǎng)絡(luò)模型。經(jīng)過將近70年的發(fā)展,神經(jīng)網(wǎng)絡(luò)技術(shù)已經(jīng)成為機(jī)器學(xué)習(xí)的典型代表,它不依照任何概率分布,而是模仿人腦功能進(jìn)行抽象運(yùn)算。簡單來講,神經(jīng)網(wǎng)絡(luò)是一組互相連接的輸入/輸出單元,其中每個(gè)連接都會(huì)與一個(gè)權(quán)重相關(guān)聯(lián)。在學(xué)習(xí)階段,通過調(diào)整這些連接的權(quán)重,就能夠預(yù)測輸入觀察值的正確類標(biāo)號(hào)。因此可以理解為人工神經(jīng)網(wǎng)絡(luò)是由大量神經(jīng)元通過豐富完善的連接、抽象、簡化和模擬而形成的一種信息處理系統(tǒng)。

? ? ? ? 2、決策樹。決策樹模型是數(shù)據(jù)挖掘應(yīng)用中常見的一種成熟技術(shù),因其輸出規(guī)則讓人容易理解而備受數(shù)據(jù)分析師和業(yè)務(wù)應(yīng)用方的喜歡和推崇。決策樹,顧名思義,其建模過程類似一棵樹的成長,從根部開始,到樹干,到分叉,到繼續(xù)細(xì)枝末節(jié)的分叉,最終到一片片的樹葉。在決策樹里,所分析的數(shù)據(jù)樣本形成一個(gè)樹根,經(jīng)過層層分枝,最終形成若干個(gè)結(jié)點(diǎn),每個(gè)結(jié)點(diǎn)代表一個(gè)結(jié)論。從決策樹的根部到葉結(jié)點(diǎn)的一條路徑就形成了對(duì)相應(yīng)對(duì)象的類別預(yù)測。決策樹算法的核心是在對(duì)每個(gè)結(jié)點(diǎn)進(jìn)行測試后,選擇最佳的屬性,并且對(duì)決策樹進(jìn)行剪枝處理。目前最常用的3種決策樹算法分別是CHAID、CART和ID3,包括后來的C4.5,乃至C5.0。

? ? ? ? ?3、回歸。包含邏輯回歸和多元線性回歸技術(shù)。

? ? ? ? ?4、聚類分析。聚類分析的典型應(yīng)用場景是非常普遍的,業(yè)務(wù)團(tuán)隊(duì)幾乎每天都要碰到。聚類分析的一個(gè)重要用途就是針對(duì)目標(biāo)群體進(jìn)行多指標(biāo)的群體劃分,而這種目標(biāo)群體的分類常常就是精細(xì)化運(yùn)營、個(gè)性化運(yùn)營的基礎(chǔ)和核心,只有進(jìn)行了正確的分類,才可以有效進(jìn)行個(gè)性化和精細(xì)化的運(yùn)營、服務(wù)及產(chǎn)品支持等,從這個(gè)角度來看,聚類分析技術(shù)對(duì)于數(shù)據(jù)化運(yùn)營而言是非常重要、非?;A(chǔ)的??偟貋碚f,聚類分析技術(shù)在數(shù)據(jù)化運(yùn)營實(shí)踐中常見的業(yè)務(wù)應(yīng)用場景如下。

? ? ? ? ? 目標(biāo)用戶的群體分類:通過為特定運(yùn)營目的和商業(yè)目的所挑選出的指標(biāo)變量進(jìn)行聚類分析,把目標(biāo)群體劃分成幾個(gè)具有明顯特征區(qū)別的細(xì)分群體,從而可以在運(yùn)營活動(dòng)中為這些細(xì)分群體采用精細(xì)化、個(gè)性化的運(yùn)營和服務(wù),最終提升運(yùn)營的效率和商業(yè)的效果。

? ? ? ? ? 不同產(chǎn)品的價(jià)值組合:企業(yè)可以按照不同的商業(yè)目的,并依照特定的指標(biāo)變量來為眾多的產(chǎn)品種類進(jìn)行聚類分析,把企業(yè)的產(chǎn)品體系進(jìn)一步細(xì)分成具有不同價(jià)值、不同目的多維度的產(chǎn)品組合,并且可在此基礎(chǔ)上分別制定相應(yīng)的產(chǎn)品開發(fā)計(jì)劃、運(yùn)營計(jì)劃和服務(wù)規(guī)劃。

? ? ? ? ? 探測、發(fā)現(xiàn)孤立點(diǎn)、異常值:孤立點(diǎn)就是指相對(duì)于整體數(shù)據(jù)對(duì)象而言的少數(shù)數(shù)據(jù)對(duì)象,這些對(duì)象的行為特征與整體的數(shù)據(jù)行為特征很不一致。雖然在一般的數(shù)據(jù)處理過程中會(huì)把孤立點(diǎn)作為噪聲而剔除出去,但是在許多業(yè)務(wù)領(lǐng)域里,孤立點(diǎn)的價(jià)值非常重要。比如說,互聯(lián)網(wǎng)的風(fēng)險(xiǎn)管理里,就非常強(qiáng)調(diào)對(duì)于風(fēng)險(xiǎn)的預(yù)防和預(yù)判,而相關(guān)的風(fēng)險(xiǎn)控制分析中的孤立點(diǎn)很多時(shí)候又是風(fēng)險(xiǎn)的最大嫌疑和主要來源。及時(shí)發(fā)現(xiàn)這些特殊行為對(duì)于互聯(lián)網(wǎng)的風(fēng)險(xiǎn)管理來說至關(guān)重要。比如,某B2C電商平臺(tái)上,比較昂貴的、頻繁的交易,就有可能隱含著欺詐的風(fēng)險(xiǎn)成分,需要風(fēng)控部門提前關(guān)注、監(jiān)控,防患于未然。

? ? ? ? 除了以上主要方法外,還有假設(shè)檢驗(yàn)、分類、貝葉斯、SVM、主成分分析等等,需要在業(yè)務(wù)的實(shí)際需求當(dāng)中去靈活的應(yīng)用這些方法、技術(shù),以符合于業(yè)務(wù)的發(fā)展需要。

四、數(shù)據(jù)挖掘/數(shù)據(jù)分析方法的效果評(píng)價(jià)指標(biāo)。

? ? ? ?1、正確率、錯(cuò)誤率、靈敏性、特效性、精度等。

? ? ? ?2、ROC曲線。

? ? ? ?3、KS曲線。

? ? ? ?4、Lift值。

五、十大數(shù)據(jù)挖掘算法。

? ? ? ? 主要包含了分類C4.5、聚類K-Means、統(tǒng)計(jì)學(xué)習(xí)SVM、關(guān)聯(lián)分析Aprion、統(tǒng)計(jì)學(xué)習(xí)EM、鏈接挖掘PageRank、Bogging&Boosting AdoBoost、分類KNN、分類Naive 貝葉斯、分類CART,由于這些算法都比較專業(yè),在此就不作一一的介紹。

? ? ? ? 總體而言本書是內(nèi)容量比較高,知識(shí)點(diǎn)也比較多的一本書,需要讀者去深入了解每一個(gè)思路和方法、技巧,并在實(shí)踐中靈活去應(yīng)用,不拘泥于一種方法,在考慮資源、成本、時(shí)間、進(jìn)度、質(zhì)量、范圍等前提條件下,去使用最合適的數(shù)據(jù)分析方法。

? ? ? ? 書中稍稍有些欠缺的地方就是,在后面的篇幅過于冗長和累贅,不夠簡練,并且案例不夠豐富,缺乏數(shù)據(jù)的有效支撐,但我們?nèi)绻芾斫馔覆⒄莆绽锩娴囊恍┧悸贰⒎椒ê图记牲c(diǎn)已足矣!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容