在DataFrame中對數(shù)據(jù)進行了處理、數(shù)據(jù)清洗,再進行數(shù)據(jù)分類匯總。
試用了ECharts圖表。
- 數(shù)據(jù)清洗,刪除無效(無法處理)的數(shù)據(jù)
df=df.drop(1280) #刪除無效索引數(shù)據(jù)
4條數(shù)據(jù)注冊日期格式是另外一種,沒有年份。無法做字符串切割。
- 對用戶的注冊日期進行分段處理,匯總統(tǒng)計每個月的注冊用戶數(shù)量
df['regtime2']=df['regtime'].astype(str)
df['regtime2']=df['regtime2'].str.slice(0,7)
- 分類匯總數(shù)據(jù)
dfa = df.groupby('articles')['nickname'].count()
dfb = df.groupby('articles')['comments','likes'].sum()


- 開始動手寫很重要。70%的用戶完全使用簡書的閱讀功能,沒有寫下文章。21%的用戶寫了不超過7篇文章。堅持寫,讓寫作成為你的習慣。
- 發(fā)表的文章在1~100篇時,"收到的喜歡"呈快速增加趨勢。當寫作超過100篇時,寫作越來越多元化,"收到喜歡" 變得不那么重要,是往首頁發(fā)的少了嗎?
- 寫得越多,發(fā)表的評論越多。很大一部分是文章留言互動。
- 簡書的僵尸用戶有多少?0文章0評論的算嗎?

簡書用戶2015.1(好像是簡書APP上線的時間) ,2015.9 和 2016.1 三次出現(xiàn)爆發(fā)增長。2016年3月以后用戶增長呈下降趨勢。
PS:
一、關(guān)于簡書用戶抓取的問題:
- 如何甄別僵尸用戶
- 0關(guān)注的用戶如何抓取
簡書web頁面上關(guān)注(following)沒有實現(xiàn)分頁,無法查看用戶所有的關(guān)注用戶。
0關(guān)注的用戶就是一個信息的孤島,要么是大神,也可能僅僅把簡書當做一個寫作工具來使用,另外一種可能就是僵尸。
二、關(guān)于逃離簡書平臺
有平臺就有江湖,就有逃離。之前也有過逃離豆瓣、逃離知乎。(當然極可能是被刪除的非法用戶內(nèi)容,一般用戶離開一個平臺,很少主動刪除內(nèi)容,只會變?yōu)椴换钴S用戶)。簡書是面向新人的平臺,提供良好的寫作體驗。

你會離開簡書嗎?
雖然不少人吐槽簡書首頁文章,還有人憤然離去。作為一個寫作者來說,一般而言當你開始寫時,處于成長期時,不會拋棄任何一個平臺,總要看看那個平臺流量如何,用戶的互動怎么樣?
看一下現(xiàn)在一些知識IP,他們沒有在簡書上發(fā)表文章,但仍在簡書上注冊了賬號,如秋葉、蕭秋水。

做為一個UGC模式的平臺,吸引高質(zhì)量的優(yōu)質(zhì)用戶入住,前期會帶來大量的用戶和流量,提度平臺活躍度。比如微博剛開始時,最近很火起來的分答都使用了這種模方式。簡書采取了另外一種方式,做法是扶持簡書簽約作者,我理解就是給堅持寫作的人提供更好的平臺和資源,加速成長。這得方式更適合寫作新人嶄露頭角。
優(yōu)質(zhì)內(nèi)容在哪里都是稀缺資源,不缺少平臺,尤其是現(xiàn)在這個時代。對于剛剛開始寫作的年輕人,簡書就是一個非常不錯的平臺。
三、簡書簽約作者是怎樣一群人
(分析待更新)