我的數(shù)據(jù)挖掘之路

作者:wrchow ?

浙江大學(xué)計算機碩士,通過自己的努力終于拿到了心儀的offer(搜狗Web數(shù)據(jù)挖掘助理研究員),實現(xiàn)了從事互聯(lián)網(wǎng)數(shù)據(jù)挖掘的夢想。他對數(shù)據(jù)挖掘這個行業(yè)的興趣,以及為了進入這個行業(yè)所做的準備和努力,非常值得想進入這一行業(yè)的在校生或朋友們參考。

由于本科專業(yè)是生物信息(可以理解為生物統(tǒng)計學(xué)或者與基因數(shù)據(jù)相關(guān)的數(shù)據(jù)挖掘?qū)W科),所以那時已經(jīng)開始接觸數(shù)據(jù)挖掘,對統(tǒng)計也算有一定的基礎(chǔ)。記得大二的時候,我便開始學(xué)用matlab,然后玩弄SVM,神經(jīng)網(wǎng)絡(luò)之類的機器學(xué)習(xí)算法做一些分析和實驗。現(xiàn)在想想那時候可能連這些算法的基本概念都不是很清晰,算是皮毛都不懂。但有一點就是,讓我對這類算法不怎么畏懼,甚至于非常感興趣。本科的時候,發(fā)現(xiàn)自己對生物興趣不大,倒是對編程頗以為是,所以讀研又改學(xué)了計算機。雖然換了專業(yè),但我對數(shù)據(jù)挖掘仍然興趣不減。在研究生階段,涉及數(shù)據(jù)挖掘,機器學(xué)習(xí),高級數(shù)據(jù)庫之類的課程我的成績都是90+,這至少說明我很用心??傊x研這幾年我也在不斷地規(guī)劃著自己的數(shù)據(jù)挖掘之路。然而,數(shù)據(jù)挖掘是門交叉學(xué)科,涉及的內(nèi)容很多,而且還需要理論聯(lián)系實際,要掌握起來其實是非常困難的。我曾經(jīng)非常幼稚地認為,數(shù)據(jù)挖掘無所不能,適用于各行各業(yè),卻忽視了數(shù)據(jù)挖掘非常難以掌握的一面。首先,要構(gòu)建完整的數(shù)據(jù)挖掘理論知識體系;其次,要能夠 深入到具體的行業(yè)或市場進行具體項目的實戰(zhàn)。至于學(xué)習(xí)數(shù)據(jù)挖掘的前景,推薦看看一篇博客,扒一扒這個數(shù)據(jù)挖掘行業(yè),黃油和面包。這篇文章算是資深人士對數(shù)據(jù)挖掘行業(yè)一點點小小的爆料,感覺對于我這樣的初學(xué)者來說,有著高屋建瓴的作用。

1. 發(fā)現(xiàn)SASlist

學(xué)習(xí)SAS源于我當(dāng)初想去金融行業(yè)做分析師的想法,而這個想法又是源自于自己的MBTi測試的結(jié)論。算起來開始學(xué)sas應(yīng)該是10年下半年的時候,我先是買了一本《SAS編程與數(shù) 據(jù)挖掘商業(yè)案例》,后是看了《The little SAS book (3rd)》電子版,還有SAS認證考試 樣題-123題。我還在saslist上建立起了博客,分享了一些學(xué)習(xí)心得,還有找實習(xí)的一些經(jīng)歷。而我對sas的學(xué)習(xí)經(jīng)歷,也就集中在10年的下半年這段時間了。后來到了11年初, 偶然間看到統(tǒng)計之都上,舉辦第一屆數(shù)據(jù)挖掘挑戰(zhàn)賽的信息。我便花了1個多月去參加比賽,再后來便去找實習(xí)。到現(xiàn)在不知道自己還會不會繼續(xù)學(xué)習(xí)sas,但saslist確實對我的數(shù)據(jù) 挖掘之路,起著承上啟下的作用。在這里很容易讓你融入一個學(xué)習(xí)數(shù)據(jù)分析,數(shù)據(jù)挖掘的圈子,很多前輩們的精彩博文都對自己起著極大的鼓舞作用。

2. 數(shù)據(jù)挖掘挑戰(zhàn)賽

沒想到自己參加的還是全國首屆數(shù)據(jù)挖掘挑戰(zhàn)賽(編者注:2011年統(tǒng)計之都cos.name舉辦),看來真不知道是自己的數(shù)據(jù)挖掘之路起步早,還是國內(nèi)的數(shù)據(jù)挖掘起步比較晚??傊?,我是抱著實戰(zhàn)的目的來玩玩的,很可惜的是沒有組隊成功,雖然中間還硬拉著sxlion來玩了一下,不過他那時候好像確實也比較忙。從題目和贊助方(世紀佳緣網(wǎng))來看,這是一個典型的Web數(shù)據(jù)挖掘如何做用戶推薦的案例。提供的數(shù)據(jù)如下:

profile_f.txt,女性會員的資料,203843條數(shù)據(jù)

profile_m.txt,男性會員的資料,344552條數(shù)據(jù)

test.txt,原始數(shù)據(jù)

train.txt,原始數(shù)據(jù)

評分指標(biāo)采用的是NDCG@10。對這個指標(biāo)并不陌生,因為去年還選修了Web數(shù)據(jù)挖掘那門課, 那位老師還是從加拿大過來的,當(dāng)時聽得還挺認真,這里推薦一下他這門課的主頁,還有 他指定的兩本教材:《搜索引擎:信息檢索實踐》,《數(shù)據(jù)挖掘:概念與技術(shù)》,后一本的書的作者正是他的導(dǎo)師。本來一看這個題目是做推薦,于是我就想到了協(xié)同過濾,試了一下又發(fā)現(xiàn)不行,其實這些數(shù)據(jù)是非常稀疏的而且是冷啟動的,后來又嘗試了回歸還有SVM,總之效果都不是太明顯,感覺是自己特征選得不好。賽后,看了別人的經(jīng)驗貼,居然投票是最簡單有效的,可以極大地提升預(yù)測精度。反正,我也是對數(shù)據(jù)挖掘都還沒入門就去參加比賽了。這次比賽算是第一次接觸真實的用戶數(shù)據(jù),并且用來解決一個十分現(xiàn)實的問題。對推薦用戶的預(yù)測精度的提升,是可以直接帶來可觀的經(jīng)濟效益的。這次比賽的另一個收獲是,我開始學(xué)習(xí)python和看《集體智慧編程》這本書?,F(xiàn)在好像又有騰訊贊助2012知識發(fā)現(xiàn)與數(shù)據(jù)挖掘挑戰(zhàn)賽,感興趣可以去參與一下。

3. 實習(xí)與工作

saslist還有一個好處,就是可以查看到一些數(shù)據(jù)分析相關(guān)的實習(xí)和找工信息。其實,這些信息還是蠻管用的,我還因此拿到過人人網(wǎng)數(shù)據(jù)挖掘工程師的offer。在我看來,數(shù)據(jù)分析相關(guān)的職位大致分三個板塊:醫(yī)藥、金融和互聯(lián)網(wǎng)。要去醫(yī)藥行業(yè),可以多關(guān)注胡江堂的博客,還有中南大學(xué)統(tǒng)計系的本科生韓帥同學(xué)的博客。金融行業(yè)的話,可以多關(guān)注一下人大經(jīng) 濟論壇等;我當(dāng)初投過一家叫discover的上海公司,好像是從大摩分出來的,專做信用卡這一塊的,面試的時候如果懂sas還是有加分的,當(dāng)然外企可能更注重是你這個人本身的一些基本素質(zhì)。因為,我最后還是決定去互聯(lián)網(wǎng)行業(yè),所以我的就職經(jīng)歷也都集中在幾家大的互聯(lián)網(wǎng)公司。

在剛參加完數(shù)據(jù)挖掘挑戰(zhàn)賽之后,也就是去年4月份了,那個時候很多大的IT公司都開始來校園招聘實習(xí)生。由于我本科畢業(yè)之后,決定讀研,也沒找過工作。所以,這個時候找實習(xí),也算是為我找工作贊經(jīng)驗。我投了百度的數(shù)據(jù)挖掘工程師和淘寶的廣告和搜索發(fā)展部的產(chǎn)品經(jīng)理助理職位。前者的具體情況可以參見我的博文鏈接,至于實習(xí)我還是去了后者,因為淘寶就在學(xué)校旁邊。在淘寶的實習(xí)經(jīng)歷算是我真正意義上地走出校園,也堅定了我去互聯(lián)網(wǎng)行 業(yè)的信念,我喜歡像淘寶這些的互聯(lián)網(wǎng)公司里那種從上而下,自由而又年輕的氛圍。也正是在淘寶的實習(xí),讓我切身體會到了互聯(lián)網(wǎng)廣告市場的盈利模式,以及如何通過數(shù)據(jù)挖掘來提升淘寶的生態(tài)平衡和盈利空間。感興趣的同學(xué)可以去讀讀淘寶搜索技術(shù)博客。

4. 總結(jié)

我找工的經(jīng)歷,其實十分地短暫,也就集中在那幾家互聯(lián)網(wǎng)公司,這里也就不細說了。值得一提的是除了我在實驗室做的項目外,那次數(shù)據(jù)挖掘挑戰(zhàn)賽的經(jīng)歷,往往會非常引人注意, 因為那個挑戰(zhàn)賽是非常貼近互聯(lián)網(wǎng)公司做數(shù)據(jù)挖掘的實際的。而且,參加比賽本身也說明你本來的興趣和積極性都比較高。

最后,再總結(jié)一下我的數(shù)據(jù)挖掘知識體系:

1. 統(tǒng)計學(xué)基礎(chǔ):《概率與數(shù)理統(tǒng)計》、《生物統(tǒng)計學(xué)》;

2. 編程語言與工具:SAS、Matlab、Python、R 等;互聯(lián)網(wǎng)公司,還需要 Linux Shell, Hadoop, C++, Java 語言等;

3.數(shù)據(jù)挖掘理論:《集體智慧編程》(python)、《Web數(shù)據(jù)挖掘》、《SAS編程和數(shù)據(jù)挖掘商業(yè)案例》,另外還推薦一些開放式課程,我認真學(xué)習(xí)過的有 CS229(stanford 的機器學(xué)習(xí)課程);

4. 參加貼近商業(yè)的比賽或者去實習(xí)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容