數(shù)據(jù)分析Day6: DataFrame數(shù)據(jù)處理與ECharts圖表

在DataFrame中對數(shù)據(jù)進行了處理、數(shù)據(jù)清洗,再進行數(shù)據(jù)分類匯總。
試用了ECharts圖表。

  1. 數(shù)據(jù)清洗,刪除無效(無法處理)的數(shù)據(jù)
df=df.drop(1280)  #刪除無效索引數(shù)據(jù)

4條數(shù)據(jù)注冊日期格式是另外一種,沒有年份。無法做字符串切割。

  1. 對用戶的注冊日期進行分段處理,匯總統(tǒng)計每個月的注冊用戶數(shù)量
df['regtime2']=df['regtime'].astype(str)
df['regtime2']=df['regtime2'].str.slice(0,7)
  1. 分類匯總數(shù)據(jù)
dfa = df.groupby('articles')['nickname'].count()

dfb = df.groupby('articles')['comments','likes'].sum()

簡書用戶文章數(shù)量
發(fā)表文章數(shù)量-每篇文章平均喜歡-用戶平均評論數(shù)
  1. 開始動手寫很重要。70%的用戶完全使用簡書的閱讀功能,沒有寫下文章。21%的用戶寫了不超過7篇文章。堅持寫,讓寫作成為你的習慣。
  1. 發(fā)表的文章在1~100篇時,"收到的喜歡"呈快速增加趨勢。當寫作超過100篇時,寫作越來越多元化,"收到喜歡" 變得不那么重要,是往首頁發(fā)的少了嗎?
  2. 寫得越多,發(fā)表的評論越多。很大一部分是文章留言互動。
  3. 簡書的僵尸用戶有多少?0文章0評論的算嗎?
簡書注冊用戶增長情況

簡書用戶2015.1(好像是簡書APP上線的時間) ,2015.9 和 2016.1 三次出現(xiàn)爆發(fā)增長。2016年3月以后用戶增長呈下降趨勢。


PS:
一、關(guān)于簡書用戶抓取的問題:

  1. 如何甄別僵尸用戶
  2. 0關(guān)注的用戶如何抓取
    簡書web頁面上關(guān)注(following)沒有實現(xiàn)分頁,無法查看用戶所有的關(guān)注用戶。
    0關(guān)注的用戶就是一個信息的孤島,要么是大神,也可能僅僅把簡書當做一個寫作工具來使用,另外一種可能就是僵尸。

二、關(guān)于逃離簡書平臺
有平臺就有江湖,就有逃離。之前也有過逃離豆瓣、逃離知乎。(當然極可能是被刪除的非法用戶內(nèi)容,一般用戶離開一個平臺,很少主動刪除內(nèi)容,只會變?yōu)椴换钴S用戶)。簡書是面向新人的平臺,提供良好的寫作體驗。

12個用戶刪除了文章數(shù)據(jù)

你會離開簡書嗎?

雖然不少人吐槽簡書首頁文章,還有人憤然離去。作為一個寫作者來說,一般而言當你開始寫時,處于成長期時,不會拋棄任何一個平臺,總要看看那個平臺流量如何,用戶的互動怎么樣?

看一下現(xiàn)在一些知識IP,他們沒有在簡書上發(fā)表文章,但仍在簡書上注冊了賬號,如秋葉、蕭秋水。

加入簡書時間都很早

做為一個UGC模式的平臺,吸引高質(zhì)量的優(yōu)質(zhì)用戶入住,前期會帶來大量的用戶和流量,提度平臺活躍度。比如微博剛開始時,最近很火起來的分答都使用了這種模方式。簡書采取了另外一種方式,做法是扶持簡書簽約作者,我理解就是給堅持寫作的人提供更好的平臺和資源,加速成長。這得方式更適合寫作新人嶄露頭角。

優(yōu)質(zhì)內(nèi)容在哪里都是稀缺資源,不缺少平臺,尤其是現(xiàn)在這個時代。對于剛剛開始寫作的年輕人,簡書就是一個非常不錯的平臺。

三、簡書簽約作者是怎樣一群人
(分析待更新)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容