如何成為一名數(shù)據(jù)科學(xué)家

數(shù)據(jù)科學(xué)家之旅

上圖是IBM Watson的首席技術(shù)專(zhuān)家Swami Chandrasekaran編撰的數(shù)據(jù)科學(xué)家地鐵圖,可以說(shuō)是數(shù)據(jù)科學(xué)家的技能修煉指南,分享出來(lái),供「骨骼驚奇」之人慢慢修煉。

欲練此功,必先埋頭苦讀。

一、基礎(chǔ)

1、矩陣和線(xiàn)性代數(shù)基礎(chǔ)
2、散列函數(shù)、二叉樹(shù)和O(n)
3、關(guān)系代數(shù)、DB基礎(chǔ)
4、inner/outer/cross/theta連接
5、CAP原理
6、Tabular Data
7、Data Frames & Series
8、Sharding
9、OLAP
10、多維數(shù)據(jù)模型
11、ETL
12、報(bào)告 vs BI vs 分析
13、JSON和XML
14、NoSQL
15、正則表達(dá)式
16、Vendor Landscape
17、環(huán)境部署

二、統(tǒng)計(jì)

1、選擇數(shù)據(jù)集(UCI Repo)
2、描述統(tǒng)計(jì)學(xué)(mean/median/range/SD/var)
3、探索性數(shù)據(jù)分析
4、直方圖
5、百分?jǐn)?shù)和極值
6、概率論
7、貝葉斯理論
8、隨機(jī)變量
9、累計(jì)分布函數(shù)
10、連續(xù)分布(正態(tài)、泊松、高斯)
11、偏度
12、方差分析(ANOVA)
13、概率密度分布
14、中心極限定理
15、蒙特卡羅方法
16、假設(shè)驗(yàn)證
17、p值
18、卡方檢驗(yàn)
19、估計(jì)
20、置信區(qū)間
21、極大似然估計(jì)
22、核密度估計(jì)
23、回歸
24、協(xié)方差
25、相關(guān)性
26、皮爾遜相關(guān)系數(shù)
27、最小二乘法
28、 歐氏距離

三、編程

1、Python基礎(chǔ)
2、Excel使用
3、R安裝
4、R基礎(chǔ)
5、表達(dá)式
6、向量
7、矩陣
8、數(shù)組
9、因子
10、列表
11、數(shù)據(jù)框
12、讀取CSV
13、讀取原始數(shù)據(jù)
14、構(gòu)建數(shù)據(jù)集
15、操作數(shù)據(jù)集
16、函數(shù)
17、因子分析
18、安裝包

四、機(jī)器學(xué)習(xí)

1、什么是ML
2、數(shù)值變量
3、分類(lèi)變量
4、監(jiān)督學(xué)習(xí)
5、非監(jiān)督學(xué)習(xí)
6、概念、輸入和特征
7、訓(xùn)練集和測(cè)試集
8、分類(lèi)
9、預(yù)測(cè)
10、Lift曲線(xiàn)
11、過(guò)擬合
12、偏差和方差
13、樹(shù)和分類(lèi)
14、分類(lèi)正確率
15、決策樹(shù)
16、Boosting
17、樸素貝葉斯分類(lèi)器
18、K鄰近分類(lèi)
19、邏輯回歸
20、排序
21、線(xiàn)性回歸
22、Perception
23、層次聚類(lèi)
24、K-means聚類(lèi)
25、神經(jīng)網(wǎng)絡(luò)
26、情感分析
27、協(xié)同過(guò)濾
28、標(biāo)注

五、文本挖掘/自然語(yǔ)言處理

1、語(yǔ)料庫(kù)
2、命名實(shí)體識(shí)別
3、文本分析
4、UIMA
5、詞文檔矩陣
6、詞頻和權(quán)重
7、支持向量機(jī)
8、關(guān)聯(lián)規(guī)則
9、Market Based Analysis
10、特征提取
11、使用Mahout
12、使用Weka
13、使用自然語(yǔ)言工具包
14、文本分類(lèi)
15、詞匯映射

六、可視化

1、Data Exploration in R
2、Uni, Bi & Multivariate Viz
3、ggplot2可視化包
4、直方圖和餅圖
5、樹(shù)圖和矩形樹(shù)圖
6、散點(diǎn)圖
7、折線(xiàn)圖
8、空間圖
9、Survey Plot
10、時(shí)間軸
11、決策樹(shù)
12、D3.js
13、IBM ManyEyes
14、Tableau

七、大數(shù)據(jù)

1、MapReduce框架
2、Hadoop組件
3、HDFS:Hadoop的分布式文件系統(tǒng)
4、數(shù)據(jù)復(fù)制原理
5、安裝Hadoop
6、名稱(chēng)和數(shù)據(jù)節(jié)點(diǎn)
7、任務(wù)跟蹤
8、Map/Reduce編程
9、Sqoop: Loading Data in HDFS
10、Flue, Scribe: For Unstruct Data
11、SQL with Pig
12、DWH with Hive
13、Scribe, Chukwa For Weblog
14、Using Mahout
15、Zookeeper Avro
16、Storm: Hadoop Realtime
17、Rhadoop, RHipe
18、rmr
19、Classandra
20、MongoDB, Neo4j

八、數(shù)據(jù)獲取

1、Summary of Data Formats
2、數(shù)據(jù)發(fā)現(xiàn)
3、數(shù)據(jù)來(lái)源與采集
4、數(shù)據(jù)集成
5、數(shù)據(jù)融合
6、轉(zhuǎn)換和濃縮
7、數(shù)據(jù)調(diào)查
8、Google OpenRefine
9、How much Data
10、使用ETL

九、數(shù)據(jù)清洗

1、維度與數(shù)值歸約
2、數(shù)據(jù)規(guī)范化
3、數(shù)據(jù)清洗
4、缺失值處理
5、無(wú)偏估計(jì)量
6、分箱稀疏值
7、特征提取
8、去噪
9、抽樣
10、分層抽樣(Stratified Sampling )
11、主成分分析(Principal Component Analysis)

十、工具箱

1、MS Excel / Analysis ToolPak
2、Java, Python
3、R, R-Studio, Rattle
4、Weka, Knime, RapidMiner
5、Hadoop Dist of Choice
6、Spark, Storm
7、Flume, Scribe, Chukwa
8、Nutch, Talend, Scraperwiki
9、Webscraper, Flume, Sqoop
10、tm, RWeka, NLTK
11、RHIPE
12、D3.js, ggplot2, Shiny
13、IBM Languageware
14、Cassandra, MongoDB

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容