驅(qū)動(dòng)大數(shù)據(jù)的技術(shù)發(fā)展

據(jù)估計(jì),每天會(huì)創(chuàng)建2.5百萬(wàn)兆字節(jié)的數(shù)據(jù),我們需要將這些前所未有的大量數(shù)據(jù)妥善儲(chǔ)存以便日后訪問(wèn)以及對(duì)其進(jìn)行分析。這些數(shù)據(jù)量大到需要使用鮮為人知的單位來(lái)衡量,如ZB,PB和EB。隨著公司搜集到的數(shù)據(jù)越來(lái)越多,并希望能方便的訪問(wèn)這些數(shù)據(jù),這對(duì)技術(shù)和基礎(chǔ)設(shè)施的要求更高了。21世紀(jì)初,行業(yè)分析師Doug Laney提出了一個(gè)大數(shù)據(jù)的構(gòu)成定義,這個(gè)“三V”定義現(xiàn)在已經(jīng)得到了廣泛認(rèn)可?!?b>三V”定義使用三個(gè)標(biāo)記來(lái)描述什么是大數(shù)據(jù) – 不僅是對(duì)數(shù)據(jù)量的描述。


數(shù)量- 公司通常存儲(chǔ)大量交易信息、社交媒體生成信息以及機(jī)器對(duì)機(jī)器和傳感器數(shù)據(jù)。如果沒(méi)有技術(shù)來(lái)處理如此大量的數(shù)據(jù),那么如何高效地存儲(chǔ)這些數(shù)據(jù)就成了一個(gè)問(wèn)題。

速度- 我們可以通過(guò)RFID標(biāo)簽,傳感器和其他新技術(shù)來(lái)高速傳輸數(shù)據(jù)流。如何實(shí)時(shí)存儲(chǔ)和構(gòu)建數(shù)據(jù)流是處理大數(shù)據(jù)的另一個(gè)挑戰(zhàn)。

多樣化- 數(shù)據(jù)有著各種各樣的格式 - 從傳統(tǒng)數(shù)據(jù)庫(kù)到非結(jié)構(gòu)化視頻,電子郵件,音頻和交易數(shù)據(jù)。所有這些類(lèi)型的數(shù)據(jù)都必須被整合和結(jié)構(gòu)化。

在這里我還是要推薦下我自己建的大數(shù)據(jù)學(xué)習(xí)交流群:532218147,群里都是學(xué)大數(shù)據(jù)開(kāi)發(fā)的,如果你正在學(xué)習(xí)大數(shù)據(jù) ,小編歡迎你加入,大家都是軟件開(kāi)發(fā)黨,不定期分享干貨(只有大數(shù)據(jù)開(kāi)發(fā)相關(guān)的),包括我自己整理的一份2018最新的大數(shù)據(jù)進(jìn)階資料和高級(jí)開(kāi)發(fā)教程,歡迎進(jìn)階中和進(jìn)想深入大數(shù)據(jù)的小伙伴。

大數(shù)據(jù)的這三大特點(diǎn)向某些公司提出了挑戰(zhàn),它們需要結(jié)構(gòu)化,可訪問(wèn)而且實(shí)惠的方式存儲(chǔ)數(shù)據(jù)。這些挑戰(zhàn)使得企業(yè)難以正確分析和利用大數(shù)據(jù)。這對(duì)企業(yè)來(lái)說(shuō)是一個(gè)損失,就其性質(zhì)而言,大數(shù)據(jù)通常包含與客戶(hù)行為有關(guān)的有用信息。有了這么多的原始信息,有用的模式可以用來(lái)預(yù)測(cè)未來(lái)的客戶(hù)行為。這只是大數(shù)據(jù)能帶給公司潛力的眾多方式之一。幸好新技術(shù)和處理數(shù)據(jù)的方式已經(jīng)出現(xiàn),可以滿足公司不斷增長(zhǎng)的妥善存儲(chǔ)和利用大數(shù)據(jù)的需求。一些新穎的技術(shù)對(duì)于大數(shù)據(jù)存儲(chǔ)和利用很有用。


面向列的數(shù)據(jù)庫(kù)- 傳統(tǒng)數(shù)據(jù)庫(kù)更注重行數(shù)而不是列,雖然傳統(tǒng)數(shù)據(jù)庫(kù)在聯(lián)機(jī)事務(wù)處理速度和更新速度方面非常高效,但他們的短板隨著數(shù)據(jù)量不斷增長(zhǎng)逐漸顯露,變得更加不穩(wěn)定,查詢(xún)時(shí)間可能變得非常長(zhǎng)。面向列的數(shù)據(jù)庫(kù)有更快查詢(xún)時(shí)間并可以高度壓縮數(shù)據(jù),它的缺點(diǎn)是通常只允許批量更新,導(dǎo)致更新時(shí)間較長(zhǎng)。


無(wú)SQL數(shù)據(jù)庫(kù)和無(wú)模式數(shù)據(jù)庫(kù)- 這包括了如鍵值對(duì)存儲(chǔ)方式和文本存儲(chǔ)方式的數(shù)據(jù)庫(kù)類(lèi)型,這樣的數(shù)據(jù)庫(kù)專(zhuān)注于訪問(wèn)可能是結(jié)構(gòu)化,非結(jié)構(gòu)化或半結(jié)構(gòu)化的大量數(shù)據(jù)。這些數(shù)據(jù)庫(kù)超越了傳統(tǒng)數(shù)據(jù)庫(kù)的許多限制,例如讀寫(xiě)一致性,從而在操作中獲得可擴(kuò)展性以及分布式處理的特點(diǎn)。


MapReduce- MapReduce允許針對(duì)大量服務(wù)器提供廣泛的作業(yè)執(zhí)行擴(kuò)展能力。實(shí)現(xiàn)MapReduce由兩個(gè)主要任務(wù)組成:Map任務(wù)和Reduce任務(wù),Map任務(wù)將輸入數(shù)據(jù)集轉(zhuǎn)換成鍵值對(duì)的新集合,Reduce任務(wù)將Map任務(wù)的輸出組合為一組精簡(jiǎn)的鍵值對(duì)。


Hadoop - 這是一個(gè)非常受歡迎的Map Reduce實(shí)現(xiàn),是完全開(kāi)源的大數(shù)據(jù)處理平臺(tái)。它將處理分布到服務(wù)器集群上,Hadoop能夠處理多種數(shù)據(jù)源,既可以通過(guò)匯總數(shù)據(jù)來(lái)執(zhí)行大規(guī)模處理,也可以通過(guò)讀取數(shù)據(jù)庫(kù)來(lái)運(yùn)行處理器密集型機(jī)器學(xué)習(xí)作業(yè)。Hadoop特別適用于處理大量不斷變化的數(shù)據(jù),包括基于位置的天氣數(shù)據(jù)和交通傳感器數(shù)據(jù),社交媒體數(shù)據(jù)或機(jī)器事務(wù)數(shù)據(jù)。與使用高端的硬件設(shè)備處理大數(shù)據(jù)的方法相反,Hadoop的彈性來(lái)自其檢測(cè)和處理應(yīng)用層故障的能力。


PLATFORA - 作為MapReduce的一個(gè)低級(jí)實(shí)現(xiàn),Hadoop需要大量的開(kāi)發(fā)人員知識(shí)來(lái)操作。PLATFORA自動(dòng)將用戶(hù)的查詢(xún)轉(zhuǎn)換為Hadoop作業(yè),并創(chuàng)建一個(gè)抽象層來(lái)組織Hadoop中存儲(chǔ)的數(shù)據(jù)集。


大規(guī)模并行處理(MPP) -也稱(chēng)為“松散耦合”或“無(wú)共享”系統(tǒng),MPP是由200及以上個(gè)處理器協(xié)同處理的程序,每個(gè)處理器都使用自己的操作系統(tǒng)和內(nèi)存,運(yùn)行著該程序的不同部分。處理器將使用消息接口進(jìn)行通信。


Hive- Hive使傳統(tǒng)商業(yè)智能應(yīng)用程序能夠查詢(xún)Hadoop集群中的數(shù)據(jù)。最初由Facebook開(kāi)發(fā),它已經(jīng)開(kāi)源了一段時(shí)間。Hive使任何人都能對(duì)存儲(chǔ)在Hadoop集群中的數(shù)據(jù)進(jìn)行查詢(xún),就像用戶(hù)操作傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)一樣。這使得Hadoop對(duì)商業(yè)智能應(yīng)用的用戶(hù)來(lái)說(shuō)更加熟悉。


數(shù)據(jù)流分析- 數(shù)據(jù)流分析技術(shù)可以過(guò)濾和分析來(lái)自不同實(shí)時(shí)數(shù)據(jù)源以及各種數(shù)據(jù)格式的大量數(shù)據(jù)。它非常了解數(shù)據(jù)并對(duì)流數(shù)據(jù)進(jìn)行實(shí)時(shí)分析計(jì)算。企業(yè)可以通過(guò)成本效益的流分析來(lái)在企業(yè)界取得成功。流分析用于股票交易分析,金融服務(wù)和數(shù)據(jù)保護(hù)服務(wù)等主要行業(yè)。


分布式文件系統(tǒng)- 它允許客戶(hù)端節(jié)點(diǎn)通過(guò)網(wǎng)絡(luò)訪問(wèn)文件,多個(gè)用戶(hù)可以共享和存儲(chǔ)文件和資源。然而,客戶(hù)端節(jié)點(diǎn)可以通過(guò)網(wǎng)絡(luò)協(xié)議訪問(wèn)不易被訪問(wèn)的磁盤(pán)空間。因此,它為服務(wù)器和客戶(hù)端創(chuàng)建了一定的文件系統(tǒng)訪問(wèn)權(quán)限。


以上大多數(shù)這些技術(shù)或多或少都利用了云計(jì)算。由于難以處理大數(shù)據(jù),云計(jì)算成為了使各規(guī)模的公司能利用傳統(tǒng)被浪費(fèi)的數(shù)據(jù)潛力的關(guān)鍵。云計(jì)算能提高速度并減少開(kāi)銷(xiāo),使得小公司也能存儲(chǔ)、分析并利用這些數(shù)據(jù)。


由于計(jì)算機(jī)和互聯(lián)網(wǎng)的容量不斷提高,越來(lái)越多的數(shù)據(jù)需要以易于分析和訪問(wèn)的方式存儲(chǔ),傳統(tǒng)的存儲(chǔ)方法無(wú)法以高效且經(jīng)濟(jì)的方式實(shí)現(xiàn)。新的思路、方法和技術(shù)正在推動(dòng)商業(yè)用戶(hù)存儲(chǔ)和處理大數(shù)據(jù)的能力。由于分析和利用非結(jié)構(gòu)化數(shù)據(jù)的困難,許多企業(yè)不使用非結(jié)構(gòu)化數(shù)據(jù),隨著處理大數(shù)據(jù)技術(shù)的不斷發(fā)展并大到更高的效率,企業(yè)便更容易地利用這些數(shù)據(jù)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容