這個時代,一個企業(yè)家,出去聊天都是左手大數(shù)據(jù),右手云計算,不懂這些的很多圈子都融入不進去吧,更不談是普通人了吧,一個街邊賣菜的都能說幾句大數(shù)據(jù),時代的進步就是大抵是這樣吧,一些新的理念上來了,大家懂或是不懂,都接受了,然后慢慢更多這樣的話題,說著說著,就會有些理念的碰撞,然后不停的迭代,好了,慢慢形成了一個金字塔,有些特別懂的成了專家,帶動一個行業(yè)的發(fā)展。
誠然,大數(shù)據(jù)時代,不管你你喜不喜歡,它就是來了。不用擔(dān)心他會給你帶來什么惡劣的影響,因為人都是趨利避害的,所謂制度,就是約束事情往好的方向發(fā)展,因而,慢慢發(fā)展就有相應(yīng)的制度跟上。
大數(shù)據(jù)背后的底層算法是什么,數(shù)據(jù)分析。簡單的來說,就是一堆數(shù)據(jù)放在你面前,你如何去找到其中的規(guī)律,進而對這件事產(chǎn)生影響。
如何去做數(shù)據(jù)分析呢?分為以下四步
- 定義分析目標(biāo):首先分析前得知道你要分析的目標(biāo)是什么,是分析某個參數(shù)的分布規(guī)律還是分析兩個參數(shù)之間的關(guān)聯(lián)性。不能盲目分析
- 采集數(shù)據(jù):不管是線上的爬蟲還是工廠里一些計量數(shù)據(jù),手工報告的數(shù)據(jù),我們第二部就是要進行數(shù)據(jù)的采集,這里要注意有個一手信息的概念,即我們采集的信息要是一手的,未經(jīng)過轉(zhuǎn)化的,比如我們在做工廠內(nèi)數(shù)據(jù)分析的時候,就會盡量避免選擇一些手工數(shù)據(jù)
- 數(shù)據(jù)整理:收集好的數(shù)據(jù),要做好整理,比如去除異常值,修改空值等,還有一些分類、轉(zhuǎn)化的工作要做,這一步也是為整個過程中最復(fù)雜,最讓人頭疼的一步,因為通常的時候數(shù)據(jù)不是那么格式規(guī)范,結(jié)構(gòu)清晰,因此需要花大量的時間進行數(shù)據(jù)的整理工作。因此學(xué)一些編程還是比較重要的,比如python,在數(shù)據(jù)清洗時就很友好。
- 數(shù)據(jù)分析:這一個基本時水到渠成的事,一般數(shù)據(jù)整理好了,用一些工具就能直接看出來了,比如通常使用直方圖看單變量分布,用折線圖看趨勢,用散點圖看兩個變量之間的關(guān)系
- 展示:我們分析出來的結(jié)果要展示出來才有意義,才能使實際事物發(fā)生變化,這里有個原則,叫字不如表,表不如圖。
這些就是我們做數(shù)據(jù)分析的過程,數(shù)據(jù)分析也會是將來很多工作的必備技能,未來已來,擁抱其。