2017年從2月到4月底已經(jīng)過去了三個月,回首過去,總結(jié)經(jīng)驗,展望未來。本文將從以下幾個方面對過去的三個月做個總結(jié)。
技術的增長
在短短的三個月,往大腦中塞入了大量新技術,新知識。涉及python、Tornado、mongodb、運維工具(expect,shell,fabric),hadoop、hbase、hive、zookeeper、ycsb、ganglia等。總結(jié)起來可以分為兩個階段:python速成,hadoop生態(tài)初步接觸。下面就從這個兩個階段進行總結(jié)。
Python速成
通過小項目驅(qū)動的形式,快速的從Python小白到能熟練的使用Python快速的解決各種問題。主要又分為了兩個方面。
1、從股票數(shù)據(jù)的采集——>k線的合成——>數(shù)據(jù)的存儲——>對外提供api

從tushare中采集股票的tick數(shù)據(jù),然后實時的合成分鐘線,存儲到文件和mongo中,最后利用tornado搭建實時服務接口 tornado 實時服務架構設計 | 燕十 ,對外提供股票實時的分鐘數(shù)據(jù)。一環(huán)扣一環(huán)的,就差沒有使用vue寫個前端把數(shù)據(jù)展示出來。
從熟悉Python的基本語法,數(shù)據(jù)結(jié)構,網(wǎng)絡采集,異常處理,數(shù)據(jù)庫操作,多線程,多進程,類,到使用Python框架tornado,一應俱全。一步一個坑,扎扎實實的入了Python的門。
2、房屋數(shù)據(jù)采集—>數(shù)據(jù)清洗—>模型訓練

這是我的畢業(yè)設計,全程采用Python,從各大租房網(wǎng)站上采集房屋數(shù)據(jù),到實時入庫,數(shù)據(jù)清洗,到使用Scikit-learn建模。逐步熟悉了爬蟲的編寫,頁面數(shù)據(jù)的解析,網(wǎng)絡異常方面的處理,數(shù)據(jù)方面的處理,機器學習庫的使用。
至此,通過兩條線,我可以說對Python還是熟悉的,高級技巧不會,低級的難不倒。
hadoop生態(tài)初步接觸
三月份開始入坑hadoop相關方面的生態(tài),至此已經(jīng)入坑2個月,從深陷沼澤到滿滿爬出。也分為兩個方面吧
1、虛擬機——>線上安裝測試—->hive
為了搭建公司的正式線上的hadoop集群,現(xiàn)在虛擬機中搭建了一個測試版本,熟悉整個搭建的過程。然后搭建了線上的hadoop集群,中間解決了很多實際遇到的問題,并對hadoop集群做了基本的性能測試,累計產(chǎn)出6篇技術總結(jié)文檔。在此過程中學習使用運維工具(expect,shell,fabric)來對hadoop集群進行自動部署,管理等,還沒有好好的總結(jié)一下。
隨后又是折騰了一周的Hive,將股票的歷史數(shù)據(jù)導入hive,做一些測試,使用Python連接Hive,hive分區(qū),查詢性能優(yōu)化。
2、Hbase
從Hbase的性能開始,利用微博的數(shù)據(jù)進行性能方面的測試,逐漸的遇到了使用python寫入Hbase的timeout問題(見 python寫入Hbase超時問題分析 | 燕十) ,Hbase的熱點問題,性能的優(yōu)化。中間上了YCSB壓測工具,ganglia性能監(jiān)控工具。逐漸了解Hbase的特點,如何去優(yōu)化,如何解決遇到的問題。Hbase就是我這段時間最難啃的骨頭。
我畫個圖,來歸納總結(jié)一下。

我只想說,一個人啃著hadoop生態(tài)里這些螃蟹,越來越有點味道了,盡管前面坑無數(shù),該跳的還是得跳。
階段總結(jié)
總結(jié)完主要的部分——技術的增長,來概要總結(jié)一下其它方面的情況。
1、累計輸出技術總結(jié)文檔10篇左右,寫文檔的能力大幅提升
2、對問題的分析,思考過程逐漸深入
3、完全無師自學入門hadoop
4、編程裝備:電腦支架,防藍光眼鏡,機械鍵盤都,眼部按摩儀都配齊了。
說了這么多好的,也必然有很多不足之處,列舉三項主要的:
1、不能準確的抓住問題的要害,導致走很多的彎路,耗費很多的時間。如解決Hbase的超時問題.
2、有些關鍵點沒有及時記錄,總結(jié)沒到位,導致二犯。
3、身體素質(zhì)有點下降,天天對著電腦,頭有點蒙逼
下個階段的規(guī)劃
為未來3個月(5月到7月底)做些規(guī)劃
1、解決逐步解決一下兩個問題
如何能夠?qū)懗蓀ythonic的代碼,脫離低級的python開發(fā)者?
如何從源碼上定位問題的原因?
2、hbase精通計劃,逐漸閱讀Hbase的源碼,不只是停留在了解的層面上,要深入
3、機器學習基礎計劃:利用業(yè)余時間,學好機器學習的基礎知識,主要是啃西瓜書
4、租房數(shù)據(jù)采集計劃:不斷采集各大租房網(wǎng)站的房源數(shù)據(jù),用來找房和嘗試各種機器學習算法
總說計劃趕不上變化,但是前期計劃能確定未來一段時間內(nèi)大體的一個方向。
PS:歡迎想做租房數(shù)據(jù)研究方面的同學加入,主要工作有:
1、爬取自如,5i5j,58,安居客,蘑菇租房等房源的數(shù)據(jù)
2、數(shù)據(jù)整合預處理,格式化。
3、利用各種模型對數(shù)據(jù)進行建模分析。
4、數(shù)據(jù)前端展示(原型圖見上面)
項目目標是能夠解決兩個問題:
1、找到一個潛在的制定租房價格的一個規(guī)則
2、更加快速的找到最優(yōu)質(zhì)的房源
有意向可以直接聯(lián)系我:微信mindaxuxiaoping