Edx在線教育數(shù)據(jù)分析(基于SQL)

一、數(shù)據(jù)來(lái)源及說(shuō)明

數(shù)據(jù)來(lái)源:https://www.kaggle.com/edx/course-study

數(shù)據(jù)解釋:數(shù)據(jù)來(lái)源于kaggle上關(guān)于2012-2016年Harvard和MIT兩校在edX開(kāi)設(shè)在線課程情況的研究。

該數(shù)據(jù)集中共有290個(gè)在線課程的數(shù)據(jù),字段信息23個(gè),可大致分為3類:

1、課程相關(guān)字段:Institution:課程機(jī)構(gòu)、Course Number:課程編號(hào)、Launch Date:上線日期Course Title:課程名稱、Instructors:講師、Course Subject:課程主題、Year :課程持續(xù)時(shí)長(zhǎng)(年)、Honor Code Certificates:是否提供認(rèn)證

2、運(yùn)營(yíng)相關(guān)字段:Participants (Course Content Accessed):學(xué)生數(shù)、Audited (> 50% Course Content Accessed) :完成50%課程人數(shù)、Certified獲得認(rèn)證人數(shù)、Total Course Hours (Thousands):總計(jì)課程時(shí)長(zhǎng)(千)、Median Hours for Certification:獲得認(rèn)證的小時(shí)數(shù)的中位數(shù)、% Audited:完成 50%課程人數(shù)占比、% Certified:認(rèn)證人數(shù)占比、% Certified of > 50% Course Content Accessed:認(rèn)證人數(shù)在完成50%課程人數(shù)中占比、%Play Video:播放視頻人數(shù)占比、% Posted in Forum: 粘貼到論壇占比、%Grade Higher、Than Zero:分?jǐn)?shù)高于0的百分比

3、學(xué)生信息相關(guān)字段:Median age:用戶年齡中位數(shù)、% Male:男性占比、% Female:女性占比、% Bachelor's degree or higher:學(xué)生學(xué)士學(xué)歷或以上占比

二、分析維度

三、數(shù)據(jù)清洗

? ? 由于數(shù)據(jù)量比較小,而且數(shù)據(jù)很完整,不需要過(guò)多的清洗。為了使數(shù)據(jù)更直觀地表現(xiàn)出來(lái),這里需要將列名改成中文,課程機(jī)構(gòu)和課程類別也改成中文,帶百分?jǐn)?shù)的列名也要全改成中文,因?yàn)樵赟QL提取數(shù)據(jù)的會(huì)出錯(cuò)。

四、構(gòu)建模型及數(shù)據(jù)可視化

1、用戶分析

1.1、性別

? ? ? 學(xué)習(xí)課程的男性百分比的平均數(shù)遠(yuǎn)高于學(xué)習(xí)課程的女性百分比的平均數(shù),說(shuō)明參加學(xué)習(xí)課程男性占多數(shù);學(xué)歷理工類科學(xué)和計(jì)算機(jī)科學(xué)的男性占比很大,遠(yuǎn)遠(yuǎn)超過(guò)女生,說(shuō)明男生對(duì)理科類的課程比較感興趣;而學(xué)習(xí)人文科學(xué)和社會(huì)科學(xué)的男女占比差異不是很大,女性占比比較高,說(shuō)明女性對(duì)文科類的課程比較感興趣。

1.2、年齡

? ? ? 從參與者的年齡中位數(shù)集中程度來(lái)看,25-31的占比較多;而年齡中位數(shù)的平均值為29.3,由此可看出參與學(xué)習(xí)的是職場(chǎng)人士或是即將參加工作的學(xué)生。

1.3、學(xué)歷

? ? ? 大部分參與學(xué)習(xí)課程的學(xué)歷是學(xué)生學(xué)士學(xué)歷或以上,說(shuō)明用戶的學(xué)歷較高,特別是學(xué)習(xí)社會(huì)科學(xué)的用戶,高達(dá)81.03%。

2、產(chǎn)品分析

2.1、課程數(shù)量、各課程用戶數(shù)

? ? ? 麻省理工和哈佛大學(xué)在edx上開(kāi)放的課程,麻省理工比哈佛大學(xué)多,在學(xué)生參與上而言,麻省理工也要比哈佛大學(xué)多。

2.2、課程類別

學(xué)生參與情況

? ? ? 麻省理工在社會(huì)科學(xué)和理工類科學(xué)課程的學(xué)生參與人數(shù)多于哈佛大學(xué),而人文科學(xué)少于哈佛大學(xué);兩所學(xué)校的計(jì)算機(jī)科學(xué)參與人數(shù)都比較多。

課程開(kāi)設(shè)情況

? ? ? ? 社會(huì)科學(xué)兩所學(xué)校的課程占比數(shù)一樣,哈佛大學(xué)開(kāi)設(shè)的人文科學(xué)課程較多,而麻省理工開(kāi)設(shè)的理工類科學(xué)、計(jì)算機(jī)科學(xué)課程較多。

2.3、熱銷課程

前10課程

? ? ? ? 前四的課程都是關(guān)于Computer Science,看來(lái)Computer Science深受大家喜愛(ài),而在課程類別來(lái)看,計(jì)算機(jī)科學(xué)也是排在首位,其次是理工類科學(xué)。

3、運(yùn)營(yíng)分析

3.1、認(rèn)證人數(shù)占比及課程完成度

? ? ? ? 完成50%課程人數(shù)和人數(shù)人數(shù)都非常少,認(rèn)證占比較低。而認(rèn)證人數(shù)在完成50%人數(shù)中占比相對(duì)較高,說(shuō)明大多數(shù)人在完成50%課程之后都會(huì)繼續(xù)學(xué)習(xí),最后獲得認(rèn)證。

3.2、粘貼到論壇占比、播放人數(shù)占比

各課程播放率很高,但是傳播率相對(duì)較低,說(shuō)明很對(duì)人在學(xué)習(xí)完之后都沒(méi)有進(jìn)行課程的分享。

3.3、AAARR模型

人文科學(xué)漏斗圖

? ? ? 由于各類別課程的轉(zhuǎn)化率相差不大,所以這里選擇了人文科學(xué)做漏斗圖。變現(xiàn)率,也就是完成認(rèn)證的人數(shù)只有8.05%,相對(duì)來(lái)說(shuō)較低,所以需要提高課程的質(zhì)量,還有加大監(jiān)督力度。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容