一、數(shù)據(jù)來(lái)源及說(shuō)明
數(shù)據(jù)來(lái)源:https://www.kaggle.com/edx/course-study
數(shù)據(jù)解釋:數(shù)據(jù)來(lái)源于kaggle上關(guān)于2012-2016年Harvard和MIT兩校在edX開(kāi)設(shè)在線課程情況的研究。
該數(shù)據(jù)集中共有290個(gè)在線課程的數(shù)據(jù),字段信息23個(gè),可大致分為3類:
1、課程相關(guān)字段:Institution:課程機(jī)構(gòu)、Course Number:課程編號(hào)、Launch Date:上線日期Course Title:課程名稱、Instructors:講師、Course Subject:課程主題、Year :課程持續(xù)時(shí)長(zhǎng)(年)、Honor Code Certificates:是否提供認(rèn)證
2、運(yùn)營(yíng)相關(guān)字段:Participants (Course Content Accessed):學(xué)生數(shù)、Audited (> 50% Course Content Accessed) :完成50%課程人數(shù)、Certified獲得認(rèn)證人數(shù)、Total Course Hours (Thousands):總計(jì)課程時(shí)長(zhǎng)(千)、Median Hours for Certification:獲得認(rèn)證的小時(shí)數(shù)的中位數(shù)、% Audited:完成 50%課程人數(shù)占比、% Certified:認(rèn)證人數(shù)占比、% Certified of > 50% Course Content Accessed:認(rèn)證人數(shù)在完成50%課程人數(shù)中占比、%Play Video:播放視頻人數(shù)占比、% Posted in Forum: 粘貼到論壇占比、%Grade Higher、Than Zero:分?jǐn)?shù)高于0的百分比
3、學(xué)生信息相關(guān)字段:Median age:用戶年齡中位數(shù)、% Male:男性占比、% Female:女性占比、% Bachelor's degree or higher:學(xué)生學(xué)士學(xué)歷或以上占比
二、分析維度

三、數(shù)據(jù)清洗
? ? 由于數(shù)據(jù)量比較小,而且數(shù)據(jù)很完整,不需要過(guò)多的清洗。為了使數(shù)據(jù)更直觀地表現(xiàn)出來(lái),這里需要將列名改成中文,課程機(jī)構(gòu)和課程類別也改成中文,帶百分?jǐn)?shù)的列名也要全改成中文,因?yàn)樵赟QL提取數(shù)據(jù)的會(huì)出錯(cuò)。
四、構(gòu)建模型及數(shù)據(jù)可視化
1、用戶分析
1.1、性別

? ? ? 學(xué)習(xí)課程的男性百分比的平均數(shù)遠(yuǎn)高于學(xué)習(xí)課程的女性百分比的平均數(shù),說(shuō)明參加學(xué)習(xí)課程男性占多數(shù);學(xué)歷理工類科學(xué)和計(jì)算機(jī)科學(xué)的男性占比很大,遠(yuǎn)遠(yuǎn)超過(guò)女生,說(shuō)明男生對(duì)理科類的課程比較感興趣;而學(xué)習(xí)人文科學(xué)和社會(huì)科學(xué)的男女占比差異不是很大,女性占比比較高,說(shuō)明女性對(duì)文科類的課程比較感興趣。
1.2、年齡

? ? ? 從參與者的年齡中位數(shù)集中程度來(lái)看,25-31的占比較多;而年齡中位數(shù)的平均值為29.3,由此可看出參與學(xué)習(xí)的是職場(chǎng)人士或是即將參加工作的學(xué)生。
1.3、學(xué)歷

? ? ? 大部分參與學(xué)習(xí)課程的學(xué)歷是學(xué)生學(xué)士學(xué)歷或以上,說(shuō)明用戶的學(xué)歷較高,特別是學(xué)習(xí)社會(huì)科學(xué)的用戶,高達(dá)81.03%。
2、產(chǎn)品分析
2.1、課程數(shù)量、各課程用戶數(shù)
? ? ? 麻省理工和哈佛大學(xué)在edx上開(kāi)放的課程,麻省理工比哈佛大學(xué)多,在學(xué)生參與上而言,麻省理工也要比哈佛大學(xué)多。
2.2、課程類別

? ? ? 麻省理工在社會(huì)科學(xué)和理工類科學(xué)課程的學(xué)生參與人數(shù)多于哈佛大學(xué),而人文科學(xué)少于哈佛大學(xué);兩所學(xué)校的計(jì)算機(jī)科學(xué)參與人數(shù)都比較多。

? ? ? ? 社會(huì)科學(xué)兩所學(xué)校的課程占比數(shù)一樣,哈佛大學(xué)開(kāi)設(shè)的人文科學(xué)課程較多,而麻省理工開(kāi)設(shè)的理工類科學(xué)、計(jì)算機(jī)科學(xué)課程較多。
2.3、熱銷課程
? ? ? ? 前四的課程都是關(guān)于Computer Science,看來(lái)Computer Science深受大家喜愛(ài),而在課程類別來(lái)看,計(jì)算機(jī)科學(xué)也是排在首位,其次是理工類科學(xué)。
3、運(yùn)營(yíng)分析
3.1、認(rèn)證人數(shù)占比及課程完成度

? ? ? ? 完成50%課程人數(shù)和人數(shù)人數(shù)都非常少,認(rèn)證占比較低。而認(rèn)證人數(shù)在完成50%人數(shù)中占比相對(duì)較高,說(shuō)明大多數(shù)人在完成50%課程之后都會(huì)繼續(xù)學(xué)習(xí),最后獲得認(rèn)證。
3.2、粘貼到論壇占比、播放人數(shù)占比

各課程播放率很高,但是傳播率相對(duì)較低,說(shuō)明很對(duì)人在學(xué)習(xí)完之后都沒(méi)有進(jìn)行課程的分享。
3.3、AAARR模型

? ? ? 由于各類別課程的轉(zhuǎn)化率相差不大,所以這里選擇了人文科學(xué)做漏斗圖。變現(xiàn)率,也就是完成認(rèn)證的人數(shù)只有8.05%,相對(duì)來(lái)說(shuō)較低,所以需要提高課程的質(zhì)量,還有加大監(jiān)督力度。