學(xué)習(xí)大數(shù)據(jù)最有效率的方法就是在實(shí)際項(xiàng)目中操作,如果只是單純的看看書,上上公開課,能夠培養(yǎng)起對(duì)大數(shù)據(jù)領(lǐng)域全方位的認(rèn)識(shí),但是如果沒(méi)有真刀真槍的實(shí)戰(zhàn),很難培養(yǎng)出真正的數(shù)據(jù)挖掘水平。

數(shù)據(jù)挖掘?qū)W習(xí)安排
1 工具的學(xué)習(xí)(排列有序)
python(我用的python tutorial,細(xì)節(jié)可以查書learning python,然后查詢一些文檔比如,numpy,matplotlib官方文檔)。
java (我先看的 head first java, 然后thinking in java看了一部分)。
linux shell (越熟越好,我只是刷了入門書的前半部分)。
hadoop (需要會(huì)折騰,在win電腦上不好配置,如果實(shí)驗(yàn)室有環(huán)境或者有人幫忙帶帶入門最好)。
2 機(jī)器學(xué)習(xí)入門(排列有序)
集體編程智慧(把例子刷一遍,一方面是理解入門數(shù)據(jù)挖掘,一方面更熟悉下python)
數(shù)據(jù)挖掘?qū)д?,機(jī)器學(xué)習(xí)(tom mitchell),Andrew Ng的機(jī)器學(xué)習(xí)課程,機(jī)器學(xué)習(xí)實(shí)戰(zhàn)(主要參考下書中的代碼,書中代碼并不是非常完美,主要用來(lái)入門)。
你先用數(shù)據(jù)挖掘?qū)д摿私庖恍┗镜母拍睿肁ndrew Ng的機(jī)器學(xué)習(xí)課程進(jìn)行比較細(xì)致的學(xué)習(xí),其中要實(shí)習(xí)一些算法的時(shí)候可以參考機(jī)器學(xué)習(xí)實(shí)戰(zhàn),某些算法看不懂時(shí)候可以參考其他書籍.
Kaggle找?guī)讉€(gè)最簡(jiǎn)單的題進(jìn)行入門實(shí)戰(zhàn)。(比如泰坦尼克號(hào)那題)??梢赃m當(dāng)了解一些機(jī)器學(xué)習(xí)的具體應(yīng)用,如:推薦系統(tǒng)、圖像處理、語(yǔ)音或搜索。(結(jié)合自己的興趣專業(yè)選擇某一個(gè)深入學(xué)習(xí))。
3 數(shù)據(jù)結(jié)構(gòu)基礎(chǔ)
算法導(dǎo)論+在線題目
總結(jié):看書要多動(dòng)手,多總結(jié),比如看了個(gè)樸素貝葉斯算法,最好把這個(gè)方法總結(jié)一下,然后編寫代碼實(shí)現(xiàn)簡(jiǎn)單的例子。
另外如果想找份工作一定要多多實(shí)習(xí),只要有一份不錯(cuò)的實(shí)習(xí)經(jīng)驗(yàn)找個(gè)好工作的概率大大增加。

下面就摻雜點(diǎn)正式校招面試的問(wèn)題吧,大致被問(wèn)到的主要有以下幾類:
1、項(xiàng)目相關(guān)問(wèn)題,建議不要在簡(jiǎn)歷上寫崗位無(wú)關(guān)的項(xiàng)目啦,沒(méi)項(xiàng)目就多參加些比賽,在此必須感謝Kaggle、阿里天池、DC、Kesci等平臺(tái)給我們提供的這么好鍛煉機(jī)會(huì)~在github能搜索相關(guān)冠軍源碼學(xué)習(xí),kaggle分享為最。同時(shí)保證對(duì)簡(jiǎn)歷上項(xiàng)目算法細(xì)節(jié)非常了解,被問(wèn)住了就有點(diǎn)呵呵了,甚至相關(guān)知識(shí)點(diǎn)能延伸去和主導(dǎo)與面試官聊天,平時(shí)還需多看相關(guān)博客了解點(diǎn)目前機(jī)器學(xué)習(xí)前沿知識(shí),深度學(xué)習(xí)與人工智能等等,面試官還是很希望聽到內(nèi)容,把面試官聊嗨聊爽了面試也就結(jié)束了。
想學(xué)習(xí)大數(shù)據(jù)或者對(duì)大數(shù)據(jù)技術(shù)感興趣的朋友,這里我整理了一套大數(shù)據(jù)的學(xué)習(xí)視頻免費(fèi)分享給大家,從入門到實(shí)戰(zhàn)都有,大家可以加我的微信:Lxiao_28獲?。。▊渥㈩I(lǐng)取資料)。也歡迎進(jìn)微信群交流,或者獲取Java高級(jí)技術(shù)學(xué)習(xí)資料。
2、機(jī)器學(xué)習(xí)算法理解,面試官挺喜歡問(wèn)聚類、LR、SVM、隨機(jī)森林、GDBT、xgboost、EM算法、神經(jīng)網(wǎng)絡(luò)等等常規(guī)算法,以及簡(jiǎn)單算法聚類、LR、隨機(jī)森林等hadoop分布式實(shí)現(xiàn)。有時(shí)也要求現(xiàn)場(chǎng)推導(dǎo),常見的就是LR求導(dǎo)(必考,劃重點(diǎn)啦),SVM的最優(yōu)化公式,優(yōu)化方法BFGS推導(dǎo)等,李航的《統(tǒng)計(jì)學(xué)習(xí)方法》與周志華的西瓜書刷三遍準(zhǔn)沒(méi)錯(cuò)。擴(kuò)展方面,比如自然語(yǔ)言的word2vec原理(word2vec 中的數(shù)學(xué)原理詳解(三)背景知識(shí))與主題模型LDA,圖像方面可以聊聊alexnet(論文很贊)、vgg-net等,推薦系統(tǒng),計(jì)算廣告FFM算法,AlphaGo原理。
3、數(shù)據(jù)結(jié)構(gòu)算法,畢竟碼農(nóng)基本功,一般問(wèn)題不會(huì)太難,仔細(xì)想沒(méi)什么問(wèn)題(適合國(guó)內(nèi)公司bat,國(guó)外的公司貌似會(huì)比較難)。多練習(xí)點(diǎn)遞歸,哈希,動(dòng)態(tài)規(guī)劃,廣搜和深搜圖論相關(guān),多刷leetcode,多刷刷中級(jí)、高級(jí)就行了
4、hr問(wèn)題,什么人生觀價(jià)值觀,職業(yè)規(guī)劃,個(gè)人優(yōu)缺點(diǎn),為什么選擇我們公司等等,多刷知乎此類問(wèn)題,客套話多練,別說(shuō)的太老實(shí),切忌輕浮囂張自滿情緒。阿里的hr面還是卡人的,得注意~~
5、反問(wèn)問(wèn)題,有的公司會(huì)給面試者反問(wèn)機(jī)會(huì),如果不反問(wèn)面試也會(huì)很尷尬,多準(zhǔn)備些問(wèn)題反問(wèn)有時(shí)還能繼續(xù)聊嗨。