大數(shù)據(jù)(Big Data)是指“無法用現(xiàn)有的軟件工具提取、存儲、搜索、共享、分析和處理的海量的、復雜的數(shù)據(jù)集合”。業(yè)界通常用 “4V” 來概括大數(shù)據(jù)的特征。
大量化(Volume)指數(shù)據(jù)體量巨大。隨著 IT 技術的迅猛發(fā)展,數(shù)據(jù)量級已從 TB 發(fā)展至 PB 乃至 ZB,可稱海量、巨量乃至超量。當前,典型個人計算機硬盤的容量為 TB 量級,而一些大企業(yè)的數(shù)據(jù)量已經(jīng)接近 EB 量級。
多樣化(Variety)指數(shù)據(jù)類型繁多。相對于以往便于存儲的以文本為主的結構化數(shù)據(jù),非結構化數(shù)據(jù)越來越多,包括網(wǎng)絡日志、音頻、視頻、圖片、地理位置信息等,這些多類型對數(shù)據(jù)處理能力提出了更高的要求。
價值密度低(Value)指大量的不相關信息導致價值密度的高低與數(shù)據(jù)總量的大小成反比。以視頻為例,一部一小時的視頻,在連續(xù)不間斷的監(jiān)控中,有用數(shù)據(jù)可能僅有一兩秒。因此如何通過強大的機器算法更迅速地完成數(shù)據(jù)的價值“提純”,如何對未來確實與模式的可預測分析、深度復雜分析(機器學習、人工智能 VS 傳統(tǒng)商務智能咨詢、報告等),稱為目前大數(shù)據(jù)背景下亟待解決的問題。
快速化(Velocity)指處理速度快。大數(shù)據(jù)時代對時效性要求很高,這是大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘的最顯著特征。因為,在大數(shù)據(jù)環(huán)境下數(shù)據(jù)流通常為高速實時數(shù)據(jù)流,而且需要快速持續(xù)的實時處理;處理工具也在快速演進,軟件工程及人工智能等均可能介入。
大數(shù)據(jù)日益重要,不被利用就是成本。大數(shù)據(jù)作為一種數(shù)據(jù)資產(chǎn)當仁不讓地稱為現(xiàn)代商業(yè)社會的核心競爭力,不被利用就是企業(yè)的成本。因為,數(shù)據(jù)資產(chǎn)可以幫助和指導企業(yè)對整個業(yè)務流程進行有效的運營和優(yōu)化,幫助企業(yè)做出最明確的決策。