大數(shù)據(jù)

什么是大數(shù)據(jù)?

針對大數(shù)據(jù)的定義有很多種,總結(jié)一下,大數(shù)據(jù)是指在海量或者多樣化的數(shù)據(jù)中快速提取有價(jià)值的信息的技術(shù),大數(shù)據(jù)的特點(diǎn)可以總結(jié)為4V,volume(海量)、velocity(快速)、variety(多樣性)、value(有價(jià)值)。

為什么要用大數(shù)據(jù)技術(shù)

數(shù)據(jù)具有客觀性,從古至今,我們都在從數(shù)據(jù)的規(guī)律中提前預(yù)測未來,比如諺語“八月十五云遮月,正月十五雪打燈”,說明大自然中就有許多規(guī)律性的東西,估計(jì)現(xiàn)在的科學(xué)也沒有辦法解釋幾乎半年跨度內(nèi)氣象間的因果關(guān)系,但是幾千年的觀察和積累卻發(fā)現(xiàn)了它。自然、社會(huì)、商業(yè)無不服從某些規(guī)律,大國興衰、王朝更替亦有規(guī)律可循。只是過去囿于技術(shù)條件人們無法記錄下造成某件事情發(fā)生的先兆數(shù)據(jù),如今互聯(lián)網(wǎng)技術(shù)的發(fā)展,云計(jì)算、物聯(lián)網(wǎng)的興起,都為大數(shù)據(jù)技術(shù)的崛起創(chuàng)造了有利條件,我們可以輕松地記錄各類數(shù)據(jù),對數(shù)據(jù)進(jìn)行分析,從而得出有價(jià)值的決策的信息。數(shù)據(jù)已經(jīng)變成一種資產(chǎn),擁有數(shù)據(jù)的企業(yè)/組織也就掌握了未卜先知的能力。

如何使用大數(shù)據(jù)技術(shù)

泛互聯(lián)范式是目前為止,實(shí)現(xiàn)大數(shù)據(jù)戰(zhàn)略的最佳實(shí)踐。在泛互聯(lián)范式中,強(qiáng)調(diào)終端、平臺(tái)、應(yīng)用“三位”加上大數(shù)據(jù)這“一體”,這四個(gè)方面都可以成為盈利的主要來源,但需要明確,主要靠哪部分盈利。
圍繞數(shù)據(jù)資產(chǎn),有6種商業(yè)模式:

  1. 租售數(shù)據(jù):即出售廣泛收集、精心過濾、時(shí)效性強(qiáng)的數(shù)據(jù)。
  2. 租售信息:一般聚焦某個(gè)行業(yè),廣泛收集相關(guān)數(shù)據(jù),深度整合萃取信息,加上專用傳播渠道,進(jìn)行盈利
  3. 數(shù)字媒體服務(wù):獲得及時(shí)、海量有效的數(shù)據(jù),進(jìn)行精準(zhǔn)營銷和信息聚合
  4. 數(shù)據(jù)使能:通過在線分析交易數(shù)據(jù)、財(cái)務(wù)數(shù)據(jù),預(yù)判未來交易量和財(cái)務(wù)風(fēng)險(xiǎn)
  5. 數(shù)據(jù)空間:比如網(wǎng)盤
  6. 大數(shù)據(jù)技術(shù)提供商:比如語音數(shù)據(jù)處理、視頻數(shù)據(jù)處理、語義識(shí)別、圖像數(shù)據(jù)處理

大數(shù)據(jù)項(xiàng)目結(jié)構(gòu)

Hadoop是大數(shù)據(jù)項(xiàng)目中廣泛使用的開源分布式計(jì)算平臺(tái),它的核心是HDFS(Hadoop Distributed File System)和MapReduce。HDFS具有高容錯(cuò)性,并且是基于Java語言開發(fā),這使得Hadoop可以部署在低廉的計(jì)算機(jī)集群中,同時(shí)不限于某個(gè)操作系統(tǒng);MapReduce用于整合分布式文件系統(tǒng)上的數(shù)據(jù),保證高速分析處理數(shù)據(jù)。
常見的Hadoop項(xiàng)目結(jié)構(gòu)圖如下:


圖1-1 Hadoop項(xiàng)目結(jié)構(gòu)圖

大數(shù)據(jù)工具

  1. Common:Common是為Hadoop其他子項(xiàng)目提供支持的常用工具,它主要包括FileSystem、RPC和串行化庫。它們?yōu)樵诹畠r(jià)硬件上搭建云計(jì)算環(huán)境提供基本的服務(wù),并且會(huì)為運(yùn)行在該平臺(tái)上的軟件開發(fā)提供所需的API。
  2. Avro: Avro是用于數(shù)據(jù)序列化的系統(tǒng)。它提供了豐富的數(shù)據(jù)結(jié)構(gòu)類型、快速可壓縮的二進(jìn)制數(shù)據(jù)格式、存儲(chǔ)持久性數(shù)據(jù)的文件集、遠(yuǎn)程調(diào)用RPC的功能和簡單的動(dòng)態(tài)語言集成功能。
  3. MapReduce:MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算。映射(Map)、化簡(Reduce)的概念和它們的主要思想都是從函數(shù)式編程語言中借鑒而來。它極大地方便了編程人員--即使在不了解分布式并行編程的情況下,也可以將自己的程序運(yùn)行在分布式系統(tǒng)上。
  4. HDFS: HDFS是一個(gè)分布式文件系統(tǒng)。因?yàn)镠DFS具有高容錯(cuò)性的特點(diǎn),所以它可以設(shè)計(jì)部署在低廉的硬件上。
  5. Chukwa: Chukwa是開源的數(shù)據(jù)收集系統(tǒng),用于監(jiān)控和分析大型分布式系統(tǒng)的數(shù)據(jù)。Chukwa是在Hadoop的HDFS和MapReduce框架之上搭建的,它繼承了Hadoop的可擴(kuò)展性和健壯性。Chukwa通過HDFS來存儲(chǔ)數(shù)據(jù),并依賴MapReduce任務(wù)處理數(shù)據(jù)。
  6. Hive: Hive是一個(gè)建立在Hadoop基礎(chǔ)之上的數(shù)據(jù)倉庫,它提供了一些用于對Hadoop文件中的數(shù)據(jù)集進(jìn)行數(shù)據(jù)整理、特殊查詢和分析存儲(chǔ)的工具。
  7. HBase: Hbase是一個(gè)分布式的、面向列的開源數(shù)據(jù)庫。Hbase是一個(gè)適合于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫,且Hbase是基于列而不是基于行的模式。
  8. Pig: Pig是一個(gè)對大型數(shù)據(jù)集進(jìn)行分析、評(píng)估的平臺(tái)。Pig最突出的優(yōu)勢是它的結(jié)構(gòu)能夠經(jīng)受住高度并行化的檢驗(yàn),這個(gè)特性使得它能夠處理大型的數(shù)據(jù)集。
  9. ZooKeeper: ZooKeeper是一個(gè)為分布式應(yīng)用所設(shè)計(jì)的開源協(xié)調(diào)服務(wù)。它主要為用戶提供同步、配置管理、分組和命名等服務(wù),減輕分布式應(yīng)用程序所承擔(dān)的協(xié)調(diào)任務(wù)。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容