1.為啥開始學(xué)數(shù)據(jù)分析?
偶然因素:
始于興趣:《商務(wù)經(jīng)濟(jì)與統(tǒng)計》sars編程R語言編程 兩周學(xué)完
大勢所趨:
2.如何零基礎(chǔ)學(xué)習(xí)數(shù)據(jù)分析
統(tǒng)計學(xué)基礎(chǔ):《商務(wù)經(jīng)濟(jì)與統(tǒng)計》 概率論 假設(shè) 檢驗 多元線性回歸之前的所有章節(jié)公式自己動手寫一遍還有個麥克拉夫的。。
統(tǒng)計工具的學(xué)習(xí):spss傻瓜式的統(tǒng)計數(shù)據(jù)分析 收費 價格貴 不靈活 推薦大家學(xué)習(xí)R語言或者Python語言 學(xué)習(xí)語言的語法R語言的語法很簡潔 《R in action》務(wù)必手動實現(xiàn)每一行代碼Python學(xué)習(xí)手冊,head first Python這兩本還不錯
方法論的學(xué)習(xí):方法論,定性分析
數(shù)據(jù)挖掘理論與工具的學(xué)習(xí):數(shù)據(jù)分析一般停留在業(yè)務(wù)方面的統(tǒng)計分析; 數(shù)據(jù)挖掘需要從數(shù)據(jù)中挖掘潛在價值, 學(xué)習(xí)建模,對具體數(shù)據(jù)抽象化,形成概括,能夠得出一般的規(guī)律,一是對過去發(fā)生事情的總結(jié),一是對未來的預(yù)測。
《數(shù)據(jù)挖掘?qū)д摗酚⑽陌?南京大學(xué) 周志華《機(jī)器學(xué)習(xí)》是好的中文入門教程 ,不過可能需要補(bǔ)充很多基礎(chǔ)知識。
在每次學(xué)習(xí)新模型時,可以去R語言里找到對應(yīng)的包,函數(shù),工具庫。跑一個簡單的模型,體驗?zāi)P偷恼鎸崙?yīng)用。嘗試修改不同的參數(shù),思考為何發(fā)生這樣的變化。建模還是python好用,有統(tǒng)一的接口調(diào)用,官方文檔非常齊全,學(xué)習(xí)起來比較容易。R語言比較零散,不同的作者開發(fā)了不同的包,工業(yè)上也更偏愛python。書籍推薦:《利用python進(jìn)行數(shù)據(jù)分析》
除了一本《數(shù)據(jù)挖掘?qū)д摗肥沁h(yuǎn)遠(yuǎn)不夠的,最重要的還是實踐,另外推薦《數(shù)據(jù)挖掘概念與技術(shù)》原版。Mooc網(wǎng)站,youtube視頻都可以學(xué)習(xí)。EXCel和SQL是每一個人都應(yīng)該掌握的技能。

3,如何檢驗自學(xué)數(shù)據(jù)分析的學(xué)習(xí)效果
理論檢驗:給定特定的業(yè)務(wù)場景,能否使用所學(xué)知識快速定位
學(xué)習(xí)效果:你能說出原理,會實際應(yīng)用,能說出各種方法的優(yōu)缺點才算是優(yōu)秀的。
實施檢驗:定位之后,能否使用所學(xué)工具快速實現(xiàn)
4數(shù)據(jù)分析師是怎樣工作的
數(shù)據(jù)清洗特征工程:特征決定了你模型準(zhǔn)確率的上限,而不同的算法只是無限逼近這個上限。大部分時間都是在做特征工程。
分析數(shù)據(jù):第一步,對數(shù)據(jù)進(jìn)行探索與可視化是為了對數(shù)據(jù)有更深的了解。第二部,做ppt,開會討論。第三部,把數(shù)據(jù)扔給模型。理論不扎實,運用模型就舉步維艱,因為你看不懂這里面的參數(shù)設(shè)置是什么意思。好好學(xué)習(xí)理論知識,不要一心想著怎么動手實踐。
建模型與部署:讓模型每天或者自動運行,基本都是部署在inux上的。
理解業(yè)務(wù)需求-量化業(yè)務(wù)數(shù)據(jù)指標(biāo)-制定計劃-解決問題,不要盲目在數(shù)據(jù)中尋找規(guī)律,這是沒有任何意義的。
5作為數(shù)據(jù)分析師,我是如何不斷提升的
1計算機(jī)知識的加強(qiáng)
編程語言的深入:廖雪峰python
計算機(jī)操作的深入
2理論知識的縱向與橫向擴(kuò)展
縱向:深入學(xué)習(xí) 機(jī)器學(xué)習(xí) 李航《統(tǒng)計學(xué)習(xí)方法》
橫向:擴(kuò)展學(xué)習(xí)。Java/web開發(fā)國外大學(xué)的公開課。
6 答疑
去大公司的網(wǎng)站看崗位要求而不是去招聘網(wǎng)站看職位要求。要有實際的作品拿出來,看過幾本書侃侃而談是沒有機(jī)會的。R或者python的性價比最高。
只有學(xué)生或者做學(xué)術(shù)研究的才用matlab。找工作最好換一些開源軟件?!禦語言實戰(zhàn)》競賽平臺kaggle。 gpu是用來做深度學(xué)習(xí)的。Excel、sql的培訓(xùn)是性價比最高的。