
最熱愛和擅長的領(lǐng)域:數(shù)據(jù)挖掘。
一、接觸數(shù)據(jù)科學(xué)
我接觸數(shù)據(jù)科學(xué)是在上了研究生以后,我的導(dǎo)師研究方向?yàn)榛ヂ?lián)網(wǎng)數(shù)據(jù)挖掘、注意力流動和計(jì)算傳播學(xué),從王老師的口中我第一次聽到了“Data Science”這個(gè)現(xiàn)如今最“Sexy”詞、第一次知道了蟒蛇“Python”原來還是一門編程語言、第一次了解到原來國際上社會科學(xué)研究早已不再只是掉書袋啃理論了,原來“計(jì)算”不再局限于數(shù)學(xué)、物理自然科學(xué)領(lǐng)域了,社會科學(xué)已經(jīng)在向“計(jì)算社會科學(xué)”蓬勃發(fā)展,傳播學(xué)也在通過研究人類行為軌跡數(shù)據(jù)向“計(jì)算傳播學(xué)”演進(jìn),這一切強(qiáng)烈沖擊了我剛建構(gòu)好的以“5w”傳播理論為基礎(chǔ)的知識結(jié)構(gòu)、學(xué)科認(rèn)知,讓我真切的體會到了互聯(lián)網(wǎng)技術(shù)對當(dāng)今學(xué)科架構(gòu)、學(xué)術(shù)研究產(chǎn)生的巨大沖擊。
原來數(shù)據(jù),不再只是我以為的商場流水、財(cái)務(wù)稅收、人口統(tǒng)計(jì)調(diào)查數(shù)據(jù),你的微博、微信社交記錄是數(shù)據(jù),它能研究輿論演化、社交關(guān)系網(wǎng)、信息擴(kuò)散、注意力的流動;你的通話記錄、聯(lián)系人記錄也是數(shù)據(jù),他能研究人的移動軌跡、社交關(guān)系、證明小世界網(wǎng)絡(luò);就連論文引用網(wǎng)絡(luò)都可以被用來驗(yàn)證復(fù)雜網(wǎng)絡(luò)中的基本概念“冪律”……這一切的一切對于我來說簡直太酷了!學(xué)術(shù)研究原來還可以這么去做,數(shù)據(jù)中原來隱藏著如此巨大的能量,能夠發(fā)現(xiàn)數(shù)據(jù)中隱藏信息的那些人頓時(shí)成了我最膜拜的偶像!
從此我立志跟隨老板踏上編程的不歸路!
二、Python進(jìn)階之路
要想舍身嫁入數(shù)據(jù)科學(xué)的門不得不有的基本條件就是要有基本的編程能力,這是數(shù)據(jù)“礦工”們挖掘數(shù)據(jù)的必不可少的“鏟子”,我的這把“鏟子”選擇了Python。Python作為2010年度編程語言、當(dāng)今最受歡迎的編程語言之一,在我看來是最適合于數(shù)據(jù)挖掘、數(shù)據(jù)分析的敲門工具.
首先,它簡單易上手?;旧显谀闱宄怂幕緮?shù)據(jù)類型后,如列表(list)、元組(tuple)、字典(dict)、集合(set)、布爾類型后,你就算入門可以進(jìn)行簡單編程工作了。
其次,它有眾多第三方包(Package)。Python是一門開源語言,因此它背后有一個(gè)強(qiáng)大的社區(qū)做支持,這個(gè)社區(qū)中的碼農(nóng)們?yōu)镻ython貢獻(xiàn)著各種功效的模塊,基本上你日常需要的需求都可以通過各種各樣的包來解決,你所需要做的知識import這個(gè)包,然后使用它來達(dá)到目標(biāo)。這也是我選擇Python而不是R的最主要原因,R雖然也是開源有第三方包,但是遠(yuǎn)沒有Python應(yīng)用廣社區(qū)繁榮,而且R的各種功能均可以通過Python中的第三方R包來實(shí)現(xiàn)。
當(dāng)然,由于自己的文科背景,即使是Python學(xué)習(xí)起來其過程也很是艱辛。但是在被打擊、碰壁了無數(shù)次后我終于找到了我認(rèn)為最適合初學(xué)者入門數(shù)據(jù)領(lǐng)域的方法——實(shí)戰(zhàn),只有通過不斷處理數(shù)據(jù),在解決問題中學(xué)習(xí)才是最快速的捷徑。這時(shí)就要感謝并且強(qiáng)烈推薦Kaggle、Stackoverflow兩個(gè)網(wǎng)站了。Kaggle是一個(gè)數(shù)據(jù)科學(xué)競賽網(wǎng)站,里面提供了許多競賽選題和數(shù)據(jù),并且可以看到其他選手的處理方案,而Stackoverflow更是神一樣的IT問答社區(qū),你在里面幾乎可以找到任何你所期待的答案。我的Python水平也就是在這樣的不斷數(shù)據(jù)處理過程中一步一步成長起來的。
三、技術(shù)成長
1.統(tǒng)計(jì)
統(tǒng)計(jì)知識也是數(shù)據(jù)分析中必不可少的能力,有時(shí)一個(gè)簡單的線性回歸、多遠(yuǎn)回歸就可以將數(shù)據(jù)變量關(guān)系講清;
2.算法
數(shù)據(jù)挖掘、分析中,我認(rèn)為算法是我在探索數(shù)據(jù)特征、變量之間關(guān)系的強(qiáng)有力的幫手。如我在進(jìn)行文本挖掘時(shí),最常用的就是TF-IDF算法來計(jì)算文本中各詞的重要性權(quán)重,還有對文本分類用到的聚類、構(gòu)建主題模型等,都讓文本的特征更加清晰的展現(xiàn)了出來。此外,Hits、PageRank等搜索引擎常用的算法也被問用在了計(jì)算公眾人物影響力計(jì)算上,但是,不得不承認(rèn),算法目前仍是我的一個(gè)短板,我的算法知識積累仍然有限。
3.編程
除了Python我還學(xué)習(xí)了R語言作為輔助,另外,還學(xué)習(xí)了Linux,現(xiàn)在在熟悉Linux環(huán)境,日后方便通過腳本在Linux服務(wù)器上直接進(jìn)行數(shù)據(jù)處理。
四、參與項(xiàng)目
我研究生期間一直是實(shí)驗(yàn)室的學(xué)生研究員,雖然日常也在處理各種Twitter、微博、電信數(shù)據(jù),但是那些都是以做研究發(fā)論文為目的,16年我開始參與與第三方的項(xiàng)目合作,期間參加了與騰訊公益合作,分析了影響眾籌的各種因素,并發(fā)表論文;隨后又參與了與百度閱讀的合作,分析了移動端用戶閱讀習(xí)慣和偏好以及注意力流動規(guī)律,并撰寫了數(shù)據(jù)分析報(bào)告。每一次的項(xiàng)目經(jīng)驗(yàn)都讓我對數(shù)據(jù)挖掘、分析有新的認(rèn)識,每一次的實(shí)踐也都在不斷提升著我的“數(shù)據(jù)感”,這一點(diǎn)是我認(rèn)為在項(xiàng)目經(jīng)驗(yàn)中最有價(jià)值的收獲。
五、未來規(guī)劃
目前我認(rèn)為我只能算是入門數(shù)據(jù)科學(xué)領(lǐng)域,雖然具備了獨(dú)立處理數(shù)據(jù)的能力,但是知識結(jié)構(gòu)還很單薄,因此,接下來我希望熟悉下用Python操作數(shù)據(jù)庫(MySQL),深入機(jī)器學(xué)習(xí)、深度學(xué)習(xí)方法,努力完善自己作為數(shù)據(jù)工程師的知識架構(gòu)。