一、大數(shù)據(jù)背景與趨勢(shì)
1.計(jì)算機(jī)體系結(jié)構(gòu)與硬件系統(tǒng)巨大發(fā)展
a.CPU.內(nèi)存.GPU.硬盤
2.數(shù)據(jù)管理系統(tǒng)發(fā)展
a.關(guān)系型數(shù)據(jù)庫(kù)
三大數(shù)據(jù)庫(kù):
ORACLE.MS-SQLserver.IBM-DB2
B.早期 針對(duì)事務(wù)處理系統(tǒng)(transaction processing )大量并發(fā)需求,少量讀寫操作
90s Data Warehouse :數(shù)據(jù)倉(cāng)庫(kù) 讀取大量數(shù)據(jù)分析操作
2000年代 多種發(fā)展:數(shù)據(jù)流處理,GIS,多媒體數(shù)據(jù)庫(kù),Web后端
2010年代 大數(shù)據(jù)
3.大數(shù)據(jù)的概念與挑戰(zhàn)
1.大數(shù)據(jù)分析重要性
EMC Digital Universe with R&A by IDC 2014
2013:每個(gè)人產(chǎn)生的數(shù)據(jù)量4.4ZB/person (1ZB=10^21字節(jié) )數(shù)據(jù)的利用率2%
2020:每個(gè)人產(chǎn)生數(shù)據(jù)量:60~70ZB/person 。數(shù)據(jù)利用率20%
大數(shù)據(jù)分析已經(jīng)引起了廣泛關(guān)注。
2.大數(shù)據(jù)概念:
1.數(shù)據(jù)量巨大Volume;
數(shù)據(jù)種類繁多Variety;
數(shù)據(jù)產(chǎn)生速度,更新速度快Velocity。
2.與傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)對(duì)比:傳統(tǒng)先設(shè)計(jì)系統(tǒng)后采集數(shù)據(jù);大數(shù)據(jù)先有數(shù)據(jù),然后需要分析。
處理需求更加豐富;數(shù)據(jù)密度降維
3.大數(shù)據(jù)與云計(jì)算:云計(jì)算提供平臺(tái)
4.大數(shù)據(jù)處理平臺(tái):關(guān)系型;云平臺(tái);云平臺(tái)+SQL;No-SQL:
圖數(shù)據(jù)處理:Google Pregel,Apache Giraph,Graphlab,Neo4j;
5.研究生春季課程:大數(shù)據(jù)分析與大規(guī)模數(shù)據(jù)分析
二、高速數(shù)據(jù)更新
1.不同類型系統(tǒng)的Velocity
Velocity是事務(wù)處理系統(tǒng)、數(shù)據(jù)流系統(tǒng)的主要設(shè)計(jì)目標(biāo);
數(shù)據(jù)分析
? ? ? ? ? ? ? ? ? ? 數(shù)據(jù)分析
新數(shù)據(jù)—》存儲(chǔ)數(shù)據(jù)
數(shù)據(jù)倉(cāng)庫(kù)
數(shù)據(jù)更新方式:夜間離線更新;需要在線更新。
目標(biāo):支持在線更新的同時(shí)保持好的讀性能。
傳統(tǒng)數(shù)據(jù)更新操作問(wèn)題:數(shù)據(jù)分析是順序讀取,數(shù)據(jù)更新是隨機(jī)讀寫。
TPC www.tpc.org 測(cè)試
Our approach:使用SSD緩存在線更新。

日志記錄分析及重要性
從各種硬件設(shè)備軟件系統(tǒng)收集日志記錄。
用于支持安全管理,故障排查,用戶行為分析等重要應(yīng)用。
目標(biāo):存儲(chǔ)處理大量日志數(shù)據(jù):存儲(chǔ)10PB;提高日志獲取能力:1.2GB/s(100TB/day)
基于時(shí)間窗口的連接操作:找匹配
挑戰(zhàn):日志獲取是分布的,希望同一段時(shí)間的日志記錄在同一個(gè)機(jī)器節(jié)點(diǎn)上。


增量更新
數(shù)據(jù)的新鮮性
增量計(jì)算:數(shù)據(jù)量增大-》計(jì)算量增大
Mapreduce編程模型
Mapreduce/Hadoop 模型

MapReduce增量計(jì)算:粗粒度、細(xì)粒度
