學(xué)習(xí)爬蟲的時候,對公司知識社區(qū)的推薦文章列表,用戶列表進(jìn)行了簡單爬取,數(shù)據(jù)分析的過程中發(fā)現(xiàn)一些有意思的點(diǎn),跟大家分享下。
本篇文章主要分為三部分:
- 為什么做知識社區(qū)、這個社區(qū)是什么?
- 社區(qū)的發(fā)展情況的數(shù)據(jù)分析
- 結(jié)合數(shù)據(jù)分析給出的一些社區(qū)運(yùn)營建設(shè)
why- 為什么做知識社區(qū)?
社區(qū)是公司老板為了推進(jìn)TD構(gòu)建學(xué)習(xí)型、開放型、分享型組織在2017年初做的一次嘗試,從目前來看文章累積10w篇,推薦文章2400多篇,累積用戶600多位,很好的帶動了公司的學(xué)習(xí)和分享氛圍。
這些文章大家肯定都不陌生:
《奔跑吧,程序員!》,《阿里曾鳴教授 到訪交流紀(jì)要:商業(yè)模式、企業(yè)管理、數(shù)據(jù)和發(fā)展探討》,《美國東岸大數(shù)據(jù)交流訪問總結(jié)》,《XX項目紀(jì)實-客戶需要外腦做什么?》
what- 知識社區(qū)是什么?
公司社區(qū)以類知乎的問答社區(qū)為模板,但是由于目前的封閉性(公司內(nèi)部使用),用戶人群數(shù)量和多樣性無法保證很好的問答氛圍,定位還是以知識、資訊的閱讀和推薦為主。
how about- 社區(qū)發(fā)展的怎么樣?
前面已經(jīng)提到社區(qū)的文章數(shù)、推薦書、用戶數(shù),下面通過一些更具體的數(shù)據(jù)給大家展示下系統(tǒng)的運(yùn)行情況(非官方)
社區(qū)發(fā)展的時間線分析
這里選取了社區(qū)最優(yōu)質(zhì)的內(nèi)容-推薦文章的數(shù)量來反饋社區(qū)的整體發(fā)展情況
[圖片上傳中...(1.png-f21962-1517377751310-0)]
- 第一階段:201703-201707 啟動階段,以信息聚合和用戶習(xí)慣培養(yǎng)為主
這個階段社區(qū)冷啟動,以Admin爬取網(wǎng)絡(luò)熱點(diǎn)信息為主,同時積極培育用戶的使用習(xí)慣,主要的資訊來源有:
- 產(chǎn)品經(jīng)理社區(qū):人人都是產(chǎn)品經(jīng)理、產(chǎn)品中國、產(chǎn)品壹佰、騰訊ISUX
- 科技資訊媒體:雷鋒網(wǎng)、36kr、未央網(wǎng)、互聯(lián)網(wǎng)一些事
- 人工智能和機(jī)器學(xué)習(xí)社區(qū):機(jī)器之心(對社區(qū)內(nèi)容的認(rèn)可已經(jīng)體現(xiàn)到公司的投資行為中)、KDnuggets
- 數(shù)據(jù)相關(guān)社區(qū)或者自媒體: 數(shù)據(jù)猿、數(shù)盟社區(qū)
- 第二階段:201708-201712 迅速增長階段,文章推薦量、用戶活躍迅速發(fā)展,一些知識大V涌現(xiàn)
這個階段文章的推薦量、用戶的使用習(xí)慣都已經(jīng)形成,一些積極分享的大V涌現(xiàn),成為某個專題的KOL
- 機(jī)器學(xué)習(xí):xxxx
- 金融科技:xxxx
- 產(chǎn)品:xxx
- 新零售: xxxx
- 技術(shù):xxxx
- 當(dāng)前情況:活躍有所下降,17年底18開年大家在社區(qū)上投入精力減少,結(jié)合具體的數(shù)據(jù)分析后面會提出一些運(yùn)營的建議
以上是平臺總體運(yùn)營情況,下面通過三個案例進(jìn)行下場景化分析
- KOL影響力分析
- 用戶聚類分析
- 其他可能分析方向
社區(qū)KOL分析
知識分享社區(qū)中KOL對平臺的發(fā)展非常重要,如何用數(shù)據(jù)刻畫,通過爬蟲我從下面兩個維度進(jìn)行了大V信息的抓取
- 大V文章的影響力數(shù)據(jù),包括
- 推薦列表文章數(shù)
- 文章的瀏覽量
- 文章的平均瀏覽量
- 點(diǎn)贊數(shù)
- 平均點(diǎn)贊數(shù)
- 回復(fù)數(shù)
- 平均回復(fù)數(shù)
- 大V們的社區(qū)行為數(shù)據(jù),包括
- 發(fā)布文章數(shù)
- 閱讀文章數(shù)
- 點(diǎn)贊數(shù)(點(diǎn)贊他人文章)
- 推薦數(shù)(推薦他人文章)
- 威望
上面的數(shù)據(jù)哪些最能反應(yīng)大V的論壇影響力呢? 這里先進(jìn)行了下關(guān)聯(lián)度分析:

通過關(guān)聯(lián)度的顯著分析,我們是否可以這些假設(shè):
社區(qū)威望,初始規(guī)則-基于點(diǎn)贊和被推薦進(jìn)行計算(目前Furion的設(shè)置規(guī)則不詳?),是否合理的反應(yīng)了大V的社區(qū)影響力(目前Grade并沒有太多匹配的強(qiáng)相關(guān)數(shù)據(jù))
推薦和發(fā)布文章強(qiáng)相關(guān),說明大家對內(nèi)容的把握都比較高,認(rèn)為可以推薦給大家給大家?guī)硪恍椭?/p>
推薦和文章回復(fù)強(qiáng)相關(guān),說明被推薦的文章曝光和響應(yīng)更多
瀏覽和點(diǎn)贊強(qiáng)相關(guān),說明瀏覽量大的文章質(zhì)量都不錯
瀏覽和回復(fù)強(qiáng)相關(guān),說明瀏覽量大的文章引出的互動更多
點(diǎn)贊和回復(fù)強(qiáng)相關(guān),可以作為文章質(zhì)量的指標(biāo)
閱讀和推薦強(qiáng)相關(guān),讀文章多的小伙伴在給大家當(dāng)知識過濾器
總體看,KOL更多還是發(fā)表優(yōu)秀的文章,通過推薦觸達(dá)更多的用戶,由所有用戶的點(diǎn)贊、瀏覽、回復(fù)形成影響力。
以上這里KOL的界定還是以經(jīng)驗、數(shù)據(jù)表現(xiàn)為主,后續(xù)在全體用戶的分析中,我會嘗試通過標(biāo)注的方式,讓機(jī)器告訴我們誰是KOL、誰會是潛力KOL
社區(qū)用戶聚類分析
通過用戶的行為數(shù)據(jù)進(jìn)行相關(guān)的聚類分析,主要數(shù)據(jù)如下:
- 發(fā)布文章數(shù)
- 閱讀文章數(shù)
- 回復(fù)文章數(shù)
- 點(diǎn)贊文章數(shù)
- 推薦文章數(shù)
- 社區(qū)威望
- 社區(qū)積分
- 被點(diǎn)贊數(shù)
樣本數(shù)據(jù)如下:
[圖片上傳失敗...(image-585b26-1517376880821)]
執(zhí)行聚類算法之前的假設(shè),用戶分為:KOL高影響力人群、活躍人群、潛力KOL人群、不活躍人群, 具體聚類的過程如下:
- Round1 設(shè)置 k=4 聚類結(jié)果,發(fā)現(xiàn)有個聚簇只有一個樣本,查詢數(shù)據(jù)為admin(爬蟲),清洗數(shù)據(jù)繼續(xù)聚類

- Roudn2 設(shè)置k=3,具體結(jié)果如下

聚類結(jié)果中大部分KOL被分入cluster_2,但是仍舊有不少KOL被列入cluster_1,而且聚簇效果一般。
需要進(jìn)行數(shù)據(jù)清理兩個辦法:
數(shù)據(jù)量綱統(tǒng)一:大部分長尾數(shù)據(jù)存在的情況下 統(tǒng)一量綱不是一個好選擇;
-
離群點(diǎn)處理:這里要注意避免誤傷真正的KOL;離群點(diǎn)處理使用數(shù)據(jù)過濾,維度上設(shè)置閾值,針對超出的數(shù)據(jù)直接丟棄
- 閱讀量大的極端用戶:read>1000
- 被贊同量大的離群點(diǎn):agreed>1000 Leo同學(xué)是不可復(fù)制的
- 無法明確含義的數(shù)據(jù):grade列去掉
-
Round3 設(shè)置閾值后的聚類效果
k=3對應(yīng)群組: KOL(發(fā)表文章、回復(fù)文章、被點(diǎn)贊較多)、Follower(閱讀、點(diǎn)贊較多)、Un-active(較不活躍)
-
k=4對應(yīng)群組:cluster_0 36位潛力KOL、cluster_1 106位積極參與者、cluster_2 9位KOL、cluster_3 430人這里區(qū)分還是不夠清晰
如何進(jìn)一步嘗試,切換聚類的算法?重設(shè)k值?
-
Round4 設(shè)置k=5,大概分群,這次分群有一定聚簇效果,但是可視化效果比較差
- cluster_2低活躍
- cluster_4 閱讀和點(diǎn)贊較多
- cluster_1 活躍度更高,開始嘗試主動pub
- cluster_0 KOL
- cluster_3 輸出為主
-
經(jīng)過N輪的整理,最后選擇k=3
結(jié)果的可視化效果(長尾分布可以使用log scale視圖),通過調(diào)整得到最好的聚簇效果(弱相關(guān)特征維度上進(jìn)行展現(xiàn))- x軸-活躍:read 通過瀏覽和點(diǎn)贊行為可以反映用戶的活躍程度;
- y軸-發(fā)布:pub 通過發(fā)布文章反映用戶的主動分享精神;
- 氣泡-被贊同:agreed 文章被贊同一定程度反饋了內(nèi)容的價值和作者的影響力

* 大神:cluster_0(9) 高發(fā)布、高認(rèn)同、高活躍,絕對的KOL(xxxx等大神)
* 勤奮學(xué)習(xí)者:cluster_1(72) 高活躍、中認(rèn)同、中發(fā)布,積極的學(xué)習(xí)者和跟隨者應(yīng)該也是在Furion收獲最大的一群小伙伴
* 剛來的或者太忙的:cluster_2(500) 可以簡單分為兩類, 低發(fā)布低活躍低認(rèn)同的小伙伴(可能新同事);中高發(fā)布和認(rèn)同、低活躍的輸出型人才(估計都是項目上的大忙人,階段性的開壇作法,xxxxx等同學(xué))
其他分析,未來引入更多的數(shù)據(jù),可能在下面場景進(jìn)行一些深入的分析
-
KOL預(yù)測(這是否一個好問題? 人的行為是否可以預(yù)測? 需要引入時序數(shù)據(jù)? KOL預(yù)測的意義和價值是什么?)
KOL預(yù)測分析基于前面用戶聚類、KOL判斷的結(jié)果進(jìn)行數(shù)據(jù)標(biāo)注,分組后的數(shù)據(jù)通過邏輯回歸方式進(jìn)行KOL預(yù)測,將無監(jiān)督學(xué)習(xí)的成果應(yīng)用到監(jiān)督分類模型中。
社區(qū)活躍預(yù)測分析(需要引入時序數(shù)據(jù)?)
how- 社區(qū)后續(xù)的運(yùn)營建議,主要從用戶、內(nèi)容、產(chǎn)品三個角度分析:
- 用戶運(yùn)營:拉新、促活、留存,對用戶的價值和激勵
- 內(nèi)容運(yùn)營:內(nèi)容的質(zhì)量、內(nèi)容的推薦關(guān)聯(lián)度
- 產(chǎn)品運(yùn)營:哪些產(chǎn)品功能可能引爆用戶活躍和增長
用戶運(yùn)營
用戶運(yùn)營的關(guān)鍵在于促活(社區(qū)全員參與),增加對用戶/員工的價值:
- 激勵:通過參與獲得積分兌換TD周邊,這個要繼續(xù)做,而且要增加周邊的豐富度
- 價值:推薦的文章能讓大家真正學(xué)到東西,目前的推薦操作可能還是太簡單粗暴,是否可以引入更好的推薦機(jī)制
內(nèi)容運(yùn)營
- 優(yōu)秀資源的聚合,通過爬蟲抓取更多優(yōu)秀資源
- KOL優(yōu)質(zhì)內(nèi)容的貢獻(xiàn),周期爆款文章是否有額外的積分獎勵
產(chǎn)品運(yùn)營
- 搜索功能的優(yōu)化,現(xiàn)在聯(lián)結(jié)時代,互聯(lián)網(wǎng)就是我們的存儲器,沒有好的索引肯定不行
- 推薦,公司2018年在模型和算法上更進(jìn)一步,這里可以做個試驗田
總體上下面幾個建議:
- 技術(shù)上,增強(qiáng)搜索、推薦功能
- 運(yùn)營上,建議由KOL、高活躍用戶成立虛擬委員會,每周(選出輪值主席)進(jìn)行優(yōu)秀資源更新、推薦文章標(biāo)注、優(yōu)秀文章評選等
- 內(nèi)容上,高價值文章發(fā)掘、觸達(dá)、激勵
- 資源上,積分商城持續(xù)的運(yùn)營加力,給大家足夠的激勵