關(guān)于企業(yè)大數(shù)據(jù)那些事

?關(guān)于企業(yè)大數(shù)據(jù)那些事



何為大數(shù)據(jù)

現(xiàn)在大數(shù)據(jù)比較火,但是到底什么是大數(shù)據(jù)。

有一個誤區(qū)必須指出,大數(shù)據(jù)并不是指很多很多數(shù)據(jù)。

所以不是說存儲了很多數(shù)據(jù)就是在搞大數(shù)據(jù),因為“大數(shù)據(jù)”只是個簡稱,說全一點應(yīng)該是“大數(shù)據(jù)挖掘”,沒有經(jīng)過挖掘的大數(shù)據(jù)只是沒有開采出來的原油,一定用處也沒有。

就如企業(yè)常常面對存儲的海量數(shù)據(jù)發(fā)生的感嘆,我們?nèi)绾螐臄?shù)據(jù)的搬用工到數(shù)據(jù)的淘金者。



數(shù)據(jù)的搬運工

大數(shù)據(jù)的特性

百度百科對于大數(shù)據(jù)(Big Data)的定義為“無法用現(xiàn)有的軟件工具提取、存儲、搜索、共享、分析和處理的海量的、復雜的數(shù)據(jù)集合?!睆倪@里我們可以提煉出大數(shù)據(jù)的特性,也就常說的4個V(即Volume、Variety、Value、Velocity)。

一、是數(shù)據(jù)體量巨大(Volume)。截至目前,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB(1PB=210TB),而歷史上全人類說過的所有的話的數(shù)據(jù)量大約是5EB(1EB=210PB)。當前,典型個人計算機硬盤的容量為TB量級,而一些大企業(yè)的數(shù)據(jù)量已經(jīng)接近EB量級。

二、是數(shù)據(jù)類型繁多(Variety)。這種類型的多樣性也讓數(shù)據(jù)被分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。相對于以往便于存儲的以文本為主的結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)越來越多,包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等,這些多類型的數(shù)據(jù)對數(shù)據(jù)的處理能力提出了更高要求。

三、是價值密度低(Value)。價值密度的高低與數(shù)據(jù)總量的大小成反比。以視頻為例,一部1小時的視頻,在連續(xù)不間斷的監(jiān)控中,有用數(shù)據(jù)可能僅有一二秒。如何通過強大的機器算法更迅速地完成數(shù)據(jù)的價值“提純”成為目前大數(shù)據(jù)背景下亟待解決的難題。

四、是處理速度快(Velocity)。這是大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘的最顯著特征。根據(jù)IDC的“數(shù)字宇宙”的報告,預(yù)計到2020年,全球數(shù)據(jù)使用量將達到35.2ZB。在如此海量的數(shù)據(jù)面前,處理數(shù)據(jù)的效率就是企業(yè)的生命。

數(shù)據(jù)挖掘的故事

本世紀初”啤酒與尿布”可以算是“數(shù)據(jù)挖掘”的代名詞。啤酒與尿布,這兩個風馬牛不相及的東西如何與數(shù)據(jù)挖掘扯上關(guān)系?


1983年,當一般的零售商還在進行信息化建設(shè)的時候,沃爾瑪已經(jīng)開始于休斯公司合作,花費2400萬美元發(fā)射了一顆人造衛(wèi)星,此后先后投入6億元建立起電腦與衛(wèi)星系統(tǒng),還發(fā)明了條形碼、無線掃描器、計算機跟蹤存貨等技術(shù)。借助于整套的高科技網(wǎng)絡(luò),沃爾瑪?shù)母鞑块T溝通、各業(yè)務(wù)流程可迅速、準確的運行,數(shù)據(jù)庫系統(tǒng)很快積累了海量的經(jīng)營數(shù)據(jù),包括大量的顧客消費行為記錄。一年一度的圣誕節(jié)要到了,沃爾瑪按照慣例又一次籌劃節(jié)日的營銷策略。這一次他們使用了新的“購物籃分析”軟件,對海量的顧客消費行為進行分析,一個意外發(fā)現(xiàn)讓他們瞠目結(jié)舌,跟尿布一起購買最多的商品竟然是啤酒!

緊接著,沃爾瑪派出市場調(diào)查人員和分析師對這一個結(jié)果進行深入研究,證實它揭示了一個隱藏在“尿布與啤酒”背后的美國人的一種行為模式:一些年齡在25-35歲的年輕父親在下班后經(jīng)常要到超時去給嬰兒買尿布,而他們30%-40%的人會順手給自己買幾瓶啤酒。

證實這樣的發(fā)現(xiàn)是符合實際以后,沃爾瑪立即采取行動,將賣場內(nèi)原先相隔很遠的婦嬰用品區(qū)與酒類飲料區(qū)空間拉近,并定向調(diào)整這兩個產(chǎn)品的價格和促銷活動,結(jié)果是尿布與啤酒的銷量雙雙大增。

以上的案例告訴我們,數(shù)據(jù)挖掘可以發(fā)掘埋藏在海量數(shù)據(jù)中有價值的信息。


數(shù)據(jù)挖掘

如何成為大數(shù)據(jù)企業(yè)?

從理論上來說,每個企業(yè)都可能擁有大數(shù)據(jù),但是并非每個企業(yè)都能夠成為大數(shù)據(jù)企業(yè)。

大數(shù)據(jù)因其體量之“大”而得名,然而體量并非大數(shù)據(jù)的唯一特征,甚至也不是大數(shù)據(jù)最為重要的特征。巨大的體量凸顯的是技術(shù)需求。而對于管理者而言,刻意追求巨大體量的數(shù)據(jù)并不具有多少現(xiàn)實意義,大數(shù)據(jù)更重要的特征在于其多樣化的來源和形態(tài)、持續(xù)快速的產(chǎn)生和演變,以及對深度分析能力的高度依賴。因此,企業(yè)對大數(shù)據(jù)的駕馭和掌控,其核心并不在于擁有多大規(guī)模的數(shù)據(jù),而在于是否能夠?qū)碜杂谄髽I(yè)內(nèi)外部多樣化信息源的涌流數(shù)據(jù)進行敏捷持續(xù)的捕捉和整合,并通過深度分析開發(fā)其商務(wù)價值。



企業(yè)BI架構(gòu)流程簡述述

大數(shù)據(jù)的挖掘需要借助工具來進行開展,目前一些智能工廠初選的是開源的Pentaho,Pentaho是世界上最流行的開源商務(wù)智能軟件,以工作流為核心的,強調(diào)面向解決方案而非工具組件的,基于java平臺的商業(yè)智能(Business Intelligence,BI)套件BI,之所以說是套件是因為它包括一個web server平臺和幾個工具軟件:報表,分析,圖表,數(shù)據(jù)集成,數(shù)據(jù)挖掘等,可以說包括了商務(wù)智能的方方面面。它整合了多個開源項目,目標是和商業(yè)BI相抗衡。它偏向于與業(yè)務(wù)流程相結(jié)合的BI解決方案,側(cè)重于大 中型企業(yè)應(yīng)用。它允許商業(yè)分析人員或開發(fā)人員創(chuàng)建報表,儀表盤,分析模型,商業(yè)規(guī)則和BI流程。

整合并規(guī)劃自身數(shù)據(jù)來源,通過Kettle的數(shù)據(jù)抽取、清洗和轉(zhuǎn)換,再通過Cube模型建立,展示在PC瀏覽器、Moblie終端用戶。



結(jié)束語:

在管理視角上,大數(shù)據(jù)既不是一種技術(shù),也不是一種應(yīng)用系統(tǒng),而更應(yīng)該是一種立足于企業(yè)內(nèi)外部數(shù)據(jù)融合以提升管理效率、開拓價值創(chuàng)造模式的管理思維。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容