大數(shù)據(jù)分析與高速數(shù)據(jù)分析- 陳世敏

一、大數(shù)據(jù)背景與趨勢(shì)

1.計(jì)算機(jī)體系結(jié)構(gòu)與硬件系統(tǒng)巨大發(fā)展

a.CPU.內(nèi)存.GPU.硬盤

2.數(shù)據(jù)管理系統(tǒng)發(fā)展

a.關(guān)系型數(shù)據(jù)庫(kù)

三大數(shù)據(jù)庫(kù):

ORACLE.MS-SQLserver.IBM-DB2

B.早期 針對(duì)事務(wù)處理系統(tǒng)(transaction processing )大量并發(fā)需求,少量讀寫操作

90s Data Warehouse :數(shù)據(jù)倉(cāng)庫(kù) 讀取大量數(shù)據(jù)分析操作

2000年代 多種發(fā)展:數(shù)據(jù)流處理,GIS,多媒體數(shù)據(jù)庫(kù),Web后端

2010年代 大數(shù)據(jù)

3.大數(shù)據(jù)的概念與挑戰(zhàn)

1.大數(shù)據(jù)分析重要性

EMC Digital Universe with R&A by IDC 2014

2013:每個(gè)人產(chǎn)生的數(shù)據(jù)量4.4ZB/person (1ZB=10^21字節(jié) )數(shù)據(jù)的利用率2%

2020:每個(gè)人產(chǎn)生數(shù)據(jù)量:60~70ZB/person 。數(shù)據(jù)利用率20%

大數(shù)據(jù)分析已經(jīng)引起了廣泛關(guān)注。

2.大數(shù)據(jù)概念:

1.數(shù)據(jù)量巨大Volume;

數(shù)據(jù)種類繁多Variety;

數(shù)據(jù)產(chǎn)生速度,更新速度快Velocity。

2.與傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)對(duì)比:傳統(tǒng)先設(shè)計(jì)系統(tǒng)后采集數(shù)據(jù);大數(shù)據(jù)先有數(shù)據(jù),然后需要分析。

處理需求更加豐富;數(shù)據(jù)密度降維

3.大數(shù)據(jù)與云計(jì)算:云計(jì)算提供平臺(tái)

4.大數(shù)據(jù)處理平臺(tái):關(guān)系型;云平臺(tái);云平臺(tái)+SQL;No-SQL:

圖數(shù)據(jù)處理:Google Pregel,Apache Giraph,Graphlab,Neo4j;

5.研究生春季課程:大數(shù)據(jù)分析與大規(guī)模數(shù)據(jù)分析

二、高速數(shù)據(jù)更新

1.不同類型系統(tǒng)的Velocity

Velocity是事務(wù)處理系統(tǒng)、數(shù)據(jù)流系統(tǒng)的主要設(shè)計(jì)目標(biāo);

數(shù)據(jù)分析

? ? ? ? ? ? ? ? ? ? 數(shù)據(jù)分析

新數(shù)據(jù)—》存儲(chǔ)數(shù)據(jù)



數(shù)據(jù)倉(cāng)庫(kù)

數(shù)據(jù)更新方式:夜間離線更新;需要在線更新。

目標(biāo):支持在線更新的同時(shí)保持好的讀性能。

傳統(tǒng)數(shù)據(jù)更新操作問(wèn)題:數(shù)據(jù)分析是順序讀取,數(shù)據(jù)更新是隨機(jī)讀寫。

TPC www.tpc.org 測(cè)試

Our approach:使用SSD緩存在線更新。

SSD在線更新

日志記錄分析及重要性

從各種硬件設(shè)備軟件系統(tǒng)收集日志記錄。

用于支持安全管理,故障排查,用戶行為分析等重要應(yīng)用。

目標(biāo):存儲(chǔ)處理大量日志數(shù)據(jù):存儲(chǔ)10PB;提高日志獲取能力:1.2GB/s(100TB/day)

基于時(shí)間窗口的連接操作:找匹配

挑戰(zhàn):日志獲取是分布的,希望同一段時(shí)間的日志記錄在同一個(gè)機(jī)器節(jié)點(diǎn)上。

解決方案
核心環(huán)節(jié)

增量更新

數(shù)據(jù)的新鮮性

增量計(jì)算:數(shù)據(jù)量增大-》計(jì)算量增大

Mapreduce編程模型

Mapreduce/Hadoop 模型

Mapreduce Word Count舉例

MapReduce增量計(jì)算:粗粒度、細(xì)粒度

小結(jié)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容