簡單概述企業(yè)級大數(shù)據(jù)云平臺該如何規(guī)劃

一、大數(shù)據(jù)云平臺應(yīng)當(dāng)具備

Real time 實(shí)時(shí)

海量實(shí)時(shí)計(jì)算

數(shù)據(jù)實(shí)時(shí)錄入

動(dòng)態(tài)實(shí)時(shí)標(biāo)簽

平臺實(shí)時(shí)監(jiān)控

數(shù)據(jù)實(shí)時(shí)應(yīng)用

Efficient 高效

一鍵高效部署

數(shù)據(jù)高效整合

資源高效分配

模型高效計(jì)算

Control 監(jiān)控

硬件監(jiān)控

系統(tǒng)監(jiān)控

數(shù)據(jù)監(jiān)控

安全監(jiān)控

權(quán)限監(jiān)控

Value 價(jià)值

數(shù)據(jù)安全高

軟硬件成本低

執(zhí)行時(shí)間少

數(shù)據(jù)價(jià)值大

二、分布式數(shù)據(jù)系統(tǒng)

以數(shù)據(jù)價(jià)值和平臺服務(wù)為導(dǎo)向,集成數(shù)據(jù)接入、整合、存儲(chǔ)、計(jì)算和監(jiān)控的分布式數(shù)據(jù)系統(tǒng)。

三、體現(xiàn)核心優(yōu)勢

數(shù)據(jù)接入

快速地整合同步存儲(chǔ)在不同類型數(shù)據(jù)庫中的數(shù)據(jù),解決生產(chǎn)環(huán)境中ORACLE、MYSQL、文本、日志等主流數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的同步問題。

數(shù)據(jù)存儲(chǔ)

建立分布式存儲(chǔ)、分布式內(nèi)存計(jì)算、分布式索引等技術(shù),解決傳統(tǒng)數(shù)據(jù)庫面臨的數(shù)據(jù)增長問題,可不停機(jī)情況下動(dòng)態(tài)擴(kuò)容。所有數(shù)據(jù)自動(dòng)備份,不再需要混合架構(gòu),不再需要多數(shù)據(jù)庫集群。

平臺管理

為了更好地讓開發(fā)及業(yè)務(wù)人員操作方便,提供數(shù)據(jù)查詢、算法倉庫、數(shù)據(jù)脫敏、監(jiān)控預(yù)警、系統(tǒng)管理等可視化配置界面。

計(jì)算平臺

集成交互式SQL、實(shí)時(shí)數(shù)據(jù)檢索、機(jī)器學(xué)習(xí)、內(nèi)存計(jì)算、流式計(jì)算、全文檢索等技術(shù),實(shí)現(xiàn)多數(shù)據(jù)源、多數(shù)據(jù)場景及多數(shù)據(jù)模型的聯(lián)合計(jì)算平臺,比傳統(tǒng)型數(shù)據(jù)倉庫和開源版分布式架構(gòu)計(jì)算效率提升5-10倍。

四、技術(shù)提升點(diǎn)

批量數(shù)據(jù)導(dǎo)入效率

多線程并發(fā)抽取,縮短抽取時(shí)間,抽取效率提升約100%。如:400張表(5G數(shù)據(jù)容量),單線程串行抽取耗時(shí)約2個(gè)小時(shí),8-16線程并發(fā)抽取耗時(shí)約1小時(shí)10分鐘;

數(shù)據(jù)庫整庫抽取,數(shù)據(jù)源統(tǒng)一配置修改,提升部署效率(五分鐘即可完成整庫的數(shù)據(jù)抽取任務(wù)與定時(shí)調(diào)度任務(wù)的部署)。

流數(shù)據(jù)效率

支持按時(shí)間與按大小分隔當(dāng)前輸出日志,實(shí)現(xiàn)準(zhǔn)實(shí)時(shí)的讀寫分離,提升日志提取實(shí)時(shí)率。可將日志實(shí)時(shí)同步率由T+1提升至毫秒級。

數(shù)據(jù)同步

支持Oracle數(shù)據(jù)庫到Hdfs、Hbase的實(shí)時(shí)數(shù)據(jù)同步,同步時(shí)間可達(dá)到毫秒級,對Oracle源系統(tǒng)性能影響在0.01%以下;

支持Mysql數(shù)據(jù)庫到Hdfs、Hbase的實(shí)時(shí)數(shù)據(jù)同步,同步時(shí)間可達(dá)到毫秒級,對Mysql源系統(tǒng)性能不受任何影響;

支持Nosql、內(nèi)存數(shù)據(jù)庫、網(wǎng)絡(luò)爬蟲、文件數(shù)據(jù)、第三方數(shù)據(jù)的同步及導(dǎo)入功能。

SQOOP功能

處理原sqoop組件無法抽取的oracle含有clob與blob字段的數(shù)據(jù)表的問題。抽取數(shù)據(jù)覆蓋率提升至98%;

自動(dòng)化重啟因?yàn)閖obFailed引起的抽取報(bào)錯(cuò)的數(shù)據(jù)表的抽取進(jìn)程。數(shù)據(jù)抽取容錯(cuò)率提升10%;

同時(shí)支持Hive與hbase兩種導(dǎo)入格式,可配置具體抽取方案。抽取數(shù)據(jù)的準(zhǔn)確率提升至97%。

Flume功能

支持多臺服務(wù)器日志,以及同臺服務(wù)器多份日志的同時(shí)收集功能;

提供小文件的自動(dòng)合并功能。優(yōu)化HDFS文件存儲(chǔ),與任務(wù)執(zhí)行效率,存儲(chǔ)優(yōu)化約節(jié)約90%的文件存儲(chǔ)空間,降低90%的mapReduce任務(wù)數(shù)。

Hcinload功能

支持Oracle、Mysql、MongoDB、DB2、Txt、Csv、Http等多數(shù)據(jù)源批量、實(shí)時(shí)同步功能,并實(shí)現(xiàn)多數(shù)據(jù)源、多數(shù)據(jù)格式同時(shí)并發(fā)的實(shí)時(shí)導(dǎo)入;

支持百度統(tǒng)計(jì)、GA、微信等第三發(fā)平臺的數(shù)據(jù)對接和導(dǎo)入;

支持WEB、APP端采集的網(wǎng)頁數(shù)據(jù)、網(wǎng)站行為數(shù)據(jù)、APP數(shù)據(jù)的采集、實(shí)時(shí)同步功能。

Yarn

提升mapReduce運(yùn)行效率;

提升資源調(diào)度效率;

提高磁盤容錯(cuò)率;

提升metadata的穩(wěn)定性。

HDFS

提升hadoop原生系統(tǒng)穩(wěn)定性,有連續(xù)有效運(yùn)行時(shí)間超過700天的實(shí)施案例。

優(yōu)化HDFS中文件塊的存儲(chǔ)規(guī)則,系統(tǒng)整體容錯(cuò)性提升10%、任務(wù)運(yùn)行效率約提升15%、網(wǎng)絡(luò)傳輸消耗約降低15%。

HIVE

提供穩(wěn)定的hive-jdbc程序調(diào)用接口,解決原h(huán)ive-jdbc接口12次調(diào)用約有一次失敗的問題,容錯(cuò)率提升8%;

與Hbase進(jìn)行整合,hive-sql的數(shù)據(jù)結(jié)果準(zhǔn)確度提升至95%;

根據(jù)不同情況分配不同的mapReduce設(shè)置參數(shù),提升hive-sql運(yùn)行效率,運(yùn)行效率約提升20%。

Hbase

提升高效的key-value形式的數(shù)據(jù)調(diào)用效率,支撐大并發(fā)的前臺應(yīng)用??芍С置棵胧f并發(fā)調(diào)用下的毫秒級數(shù)據(jù)返回;

提供較高數(shù)據(jù)完整性與一致性的數(shù)據(jù)存放,與hive整合,提供hive調(diào)用hbase數(shù)據(jù)功能,數(shù)據(jù)準(zhǔn)確率提升至97%,hive-sql的數(shù)據(jù)結(jié)果準(zhǔn)確度提升至95%;

根據(jù)需求提供高效的hbase二級索引功能。提高復(fù)雜查詢需求的查詢效率。約提升查詢效率40%。

Hcupload

支持60M/S的HDFS、HIVE、Hbase、Mysql、Redis等多數(shù)據(jù)載體的數(shù)據(jù)寫入效率;

按時(shí)間、大小、行業(yè)及職能等不同方式分隔當(dāng)前數(shù)據(jù),實(shí)現(xiàn)實(shí)時(shí)數(shù)據(jù)分類后上傳;

提供小文件的自動(dòng)合并功能。

ZooKeeper

優(yōu)化zookeeper主從選舉機(jī)制;

提升分布式數(shù)據(jù)更新效率與一致性。

Gum

適用所有類型樣本分布規(guī)律,包括非高斯分布、不均勻密度、復(fù)雜高維空間的模型支持;

提升算法在不同類型樣本下的魯棒性、抗噪音和異常值,算法適用性和穩(wěn)定性提升10倍;

算法準(zhǔn)確率提升85%;

算法運(yùn)行時(shí)間平均縮短46%。

五、核心能力目標(biāo)

日均10億條數(shù)據(jù)實(shí)時(shí)處理能力;

累計(jì)5PB數(shù)據(jù)存儲(chǔ)與計(jì)算能力;

上千臺分布式集群連續(xù)3年不間斷運(yùn)行能力

更 多 精 彩 內(nèi) 容 請 關(guān) 注 公 眾 號(weikefangan),謝謝!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容