7. 相關(guān)標(biāo)準(zhǔn)(五)-大數(shù)據(jù)系統(tǒng)基本要求

5、GB/T 38673-2020 信息技術(shù) 大數(shù)據(jù) 大數(shù)據(jù)系統(tǒng)基本要求
(1)了解本標(biāo)準(zhǔn)的范圍、術(shù)語(yǔ)和定義,熟悉大數(shù)據(jù)系統(tǒng)框架、功能要求、非功能要求。

3. 術(shù)語(yǔ)和定義

GB/T 35295-2017 界定的以及下列術(shù)語(yǔ)和定義適用于本文件。為了便于使用,以下重復(fù)列出了GB/T 35295-2017 中的某些術(shù)語(yǔ)和定義。

3.1 大數(shù)據(jù)系統(tǒng) big data system

實(shí)現(xiàn)大數(shù)據(jù)參考體系結(jié)構(gòu)的全部或部分功能的系統(tǒng)。
〔GB/T 35295--2017,定義 2.1.14]

3.2 分布式計(jì)算 distributed computing

一種覆蓋存儲(chǔ)層和處理層的、用于實(shí)現(xiàn)多類型程序設(shè)計(jì)算法模型的計(jì)算模式。
注:分布式計(jì)算結(jié)果通常加載到分析環(huán)境。MapReduce 是數(shù)據(jù)分布式計(jì)算中默認(rèn)的處理構(gòu)件。
[GB/T 35295-2017,定義2.1.22J

3.3 集群 cluster

一組相互獨(dú)立的、通過高速網(wǎng)絡(luò)互聯(lián)的計(jì)算機(jī)或服務(wù)器。

3.4 租戶 tenant

對(duì)一組物理和虛擬資源進(jìn)行共享訪問的一個(gè)或多個(gè)云服務(wù)用戶。

5. 大數(shù)據(jù)系統(tǒng)框架

GB/T 35589-2017 定義了大數(shù)據(jù)參考架構(gòu),如圖1所示。大數(shù)據(jù)參考模型是一個(gè)通用的大數(shù)據(jù)系統(tǒng)概念模型,它表示了通用的、與技術(shù)無(wú)關(guān)的大數(shù)據(jù)系統(tǒng)的邏輯功能構(gòu)件及構(gòu)件之間的互操作接口,作為開發(fā)各種具體類型大數(shù)據(jù)應(yīng)用系統(tǒng)架構(gòu)的通用技術(shù)參考框架。

大數(shù)據(jù)參考架構(gòu).png

本標(biāo)準(zhǔn)參考大數(shù)據(jù)參考架構(gòu)邏輯功能構(gòu)件劃分,將大數(shù)據(jù)系統(tǒng)劃分為數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)訪問、數(shù)據(jù)可視化、資源管理、系統(tǒng)管理9個(gè)模塊。大數(shù)據(jù)系統(tǒng)框架如圖2所示。

大數(shù)據(jù)系統(tǒng)框架.png

6. 功能要求

6.1 數(shù)據(jù)收集模塊

數(shù)據(jù)收集模塊要求如下:
a)應(yīng)提供數(shù)據(jù)導(dǎo)人功能,支持結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)導(dǎo)入;
b)應(yīng)支持離線數(shù)據(jù)導(dǎo)入和實(shí)時(shí)數(shù)據(jù)導(dǎo)入;
c)應(yīng)支持全量數(shù)據(jù)導(dǎo)人和增量數(shù)據(jù)導(dǎo)人;
d)應(yīng)提供自動(dòng)定時(shí)導(dǎo)人數(shù)據(jù)功能;
e)宜提供開放的數(shù)據(jù)導(dǎo)人 API;
f)宜提供圖形界面實(shí)現(xiàn)數(shù)據(jù)導(dǎo)人功能。

6.2 數(shù)據(jù)預(yù)處理模塊

數(shù)據(jù)預(yù)處理模塊要求如下:
a)應(yīng)提供數(shù)據(jù)抽取功能,支持對(duì)結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行抽?。?br> b)應(yīng)提供數(shù)據(jù)清洗功能,支持對(duì)不一致數(shù)據(jù)、無(wú)效數(shù)據(jù)、缺失數(shù)據(jù)和重復(fù)數(shù)據(jù)的處理;
c)應(yīng)提供結(jié)構(gòu)化數(shù)據(jù)的列轉(zhuǎn)換、行轉(zhuǎn)換和表轉(zhuǎn)換功能;
d)應(yīng)提供數(shù)據(jù)加載功能,支持將經(jīng)過清洗和轉(zhuǎn)換的數(shù)據(jù)加載到數(shù)據(jù)分析模塊;
e)宜提供清洗前后的數(shù)據(jù)比對(duì)功能;
f)宜支持非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)轉(zhuǎn)換功能。

6.3 數(shù)據(jù)存儲(chǔ)模塊

數(shù)據(jù)存儲(chǔ)模塊要求如下:
a) 應(yīng)提供數(shù)據(jù)存儲(chǔ)功能,支持結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)。
b)應(yīng)提供與關(guān)系型數(shù)據(jù)庫(kù)、其他文件系統(tǒng)之間交換數(shù)據(jù)或文件的功能。
c)支持分布式文件存儲(chǔ),實(shí)現(xiàn)以下功能:

1)應(yīng)支持文件系統(tǒng)基本操作,包括上傳、下載、讀寫、復(fù)制、移動(dòng)、刪除、重命名、權(quán)限修改等;
2)應(yīng)提供數(shù)據(jù)塊多副本存儲(chǔ)、恢復(fù)功能;
3)宜支持文件快速檢索功能,支持?jǐn)?shù)據(jù)資源的統(tǒng)一檢素、編目、增加和刪除操作;
4)宜支持?jǐn)?shù)據(jù)壓縮存儲(chǔ)功能。

d)支持分布式列式數(shù)據(jù)存儲(chǔ),實(shí)現(xiàn)以下功能:

1)應(yīng)支持以鍵值形式存儲(chǔ)數(shù)據(jù)的功能;
2)宜支持基于表、列族和列的用戶權(quán)限管理功能,權(quán)限管理操作包括讀、寫、創(chuàng)建等。

e)支持分布式結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ),實(shí)現(xiàn)以下功能:

1)宜支持結(jié)構(gòu)化數(shù)據(jù)的分布式存儲(chǔ),保證數(shù)據(jù)存儲(chǔ)的可擴(kuò)展性和一致性;
2)宜提供 API 實(shí)現(xiàn)數(shù)據(jù)的各類查詢操作;
3) 宜支持多表關(guān)聯(lián)。

f)支持分布式圖數(shù)據(jù)存儲(chǔ),實(shí)現(xiàn)以下功能:

1)宜支持由節(jié)點(diǎn)及邊組成的數(shù)據(jù)模型;
2)宜支持圖查詢,支持單節(jié)點(diǎn)、多節(jié)點(diǎn)多層關(guān)系的擴(kuò)線查詢;
3)宜支持圖遍歷,支持最短路徑、最優(yōu)路徑遍歷查詢;
4)宜支持圖分析。

6.4 數(shù)據(jù)處理模塊

數(shù)據(jù)處理模塊要求如下:
a)支持批處理框架,實(shí)現(xiàn)以下功能:

1)應(yīng)支特結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)的離線分析;
2)應(yīng)支持多節(jié)點(diǎn)離線任務(wù)聯(lián)動(dòng)執(zhí)行;
3)應(yīng)支持分散-聚集的處理方式;
4)宜支持多種開發(fā)語(yǔ)言接口。

b)支持流處理框架,實(shí)現(xiàn)以下功能:

1)應(yīng)提供實(shí)時(shí)計(jì)算功能,并將計(jì)算結(jié)果輸出到消息隊(duì)列或持久化;
2)應(yīng)支持采用滑動(dòng)窗口方式的實(shí)時(shí)分析任務(wù),時(shí)間窗口大小可調(diào);
3)應(yīng)提供容錯(cuò)機(jī)制,出現(xiàn)故障時(shí),可對(duì)故障進(jìn)行處理;
4) 宜提供用戶級(jí)別的訪問控制功能,支持對(duì)消息處理任務(wù)進(jìn)行創(chuàng)建、瀏覽、中止、恢復(fù)等操作,并記錄操作日志。

c)宜支持圖計(jì)算框架,實(shí)現(xiàn)以下功能:

1)內(nèi)置圖數(shù)據(jù)查詢類 API,支持同步或異步計(jì)算模型編寫迭代算法;
2)在線圖分析和查詢功能;
3)基于屬性圖模型的圖數(shù)據(jù)表達(dá),包含節(jié)點(diǎn)/邊上的標(biāo)簽和屬性類型定義;
4)內(nèi)置常用圖指標(biāo)計(jì)算功能,用以描述圖的拓?fù)浣Y(jié)構(gòu)特征。

d)宜支持內(nèi)存計(jì)算,實(shí)現(xiàn)以下功能:

1)通過分布式內(nèi)存計(jì)算和DAG 執(zhí)行引擎提供數(shù)據(jù)處理能力;
2)支持多種數(shù)據(jù)類型,包括結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)處理。

e)宜支持批流融合計(jì)算框架,實(shí)現(xiàn)以下功能:

1)批流融合統(tǒng)一查詢 SQL. 語(yǔ)言;
2)多場(chǎng)景下的流式 SQI.,如位置信息分析等;
3)常用時(shí)間窗口,包括跳躍窗口、滑動(dòng)窗口等。

f)宜支持按照任務(wù)間的依賴關(guān)系自動(dòng)調(diào)度任務(wù)。
g)宜支持以有向無(wú)環(huán)圖形式描述作業(yè)內(nèi)多任務(wù)的依賴關(guān)系。
h)宜提供對(duì)復(fù)雜任務(wù)的調(diào)度能力。

6.5 數(shù)據(jù)分析模塊

數(shù)據(jù)分析模塊要求如下:
a)支持?jǐn)?shù)據(jù)查詢,實(shí)現(xiàn)以下功能:

1)應(yīng)提供通過標(biāo)準(zhǔn)的數(shù)據(jù)庫(kù)連接接口進(jìn)行查詢的功能;
2)應(yīng)提供通過 REST API 查詢接日進(jìn)行查詢的功能;
3)應(yīng)提供建立數(shù)據(jù)素引的功能,達(dá)到查詢加速的效果;
4)應(yīng)支持精確查詢和模糊查詢功能。

b)支持機(jī)器學(xué)習(xí),實(shí)現(xiàn)以下功能:

1)應(yīng)提供數(shù)據(jù)集管理功能,可將數(shù)據(jù)劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集;
2)應(yīng)提供機(jī)器學(xué)習(xí)模型導(dǎo)人和導(dǎo)出功能;
3)應(yīng)提供常用機(jī)器學(xué)習(xí)算法;
4)宜支特集成第三方機(jī)器學(xué)習(xí)算法。

c)支持統(tǒng)計(jì)分析,實(shí)現(xiàn)以下功能:

1)應(yīng)提供基本數(shù)值統(tǒng)計(jì) ,如最大值、最小值、求和、總數(shù)等統(tǒng)計(jì)量;
2)應(yīng)提供數(shù)據(jù)集中趨勢(shì)統(tǒng)計(jì),如平均數(shù)、中位數(shù)、眾數(shù)等統(tǒng)計(jì)量;
3)宜提供數(shù)據(jù)離散程度統(tǒng)計(jì),如極差、方差、標(biāo)準(zhǔn)差等統(tǒng)計(jì)量;
4)宜提供隨機(jī)變量關(guān)系的統(tǒng)計(jì),如協(xié)方差、相關(guān)系統(tǒng)等統(tǒng)計(jì)量。

d)支持離線數(shù)據(jù)分析,實(shí)現(xiàn)以下功能:

1)應(yīng)支持結(jié)構(gòu)化查詢語(yǔ)言;
2)應(yīng)支持分布式計(jì)算或并行計(jì)算等計(jì)算框架;
3)宜支持對(duì)海量工作任務(wù)的切分和分布式調(diào)度。

e)支持流數(shù)據(jù)分析,實(shí)現(xiàn)以下功能:

1)應(yīng)提供按時(shí)間切片進(jìn)行批量處理的功能;
2)應(yīng)支持基于事件觸發(fā)或者采樣的流式處理;
3)宜支持實(shí)時(shí)流上的數(shù)據(jù)統(tǒng)計(jì);
4)宜支持流式數(shù)據(jù)的排序;
5)宜支持與靜態(tài)表之間的關(guān)聯(lián):
6)宜支持多個(gè)數(shù)據(jù)流的關(guān)聯(lián)處理。

f)宜支持交互式聯(lián)機(jī)分析,實(shí)現(xiàn)以下功能:

1)通過結(jié)構(gòu)化查詢語(yǔ)言對(duì)數(shù)據(jù)進(jìn)行分布式的聯(lián)機(jī)分析,如 OLAP 等;
2)通過結(jié)構(gòu)化查詢語(yǔ)言對(duì)數(shù)據(jù)進(jìn)行即席查詢;
3)利用可視化中間件對(duì)數(shù)據(jù)分析結(jié)果進(jìn)行顯示;
4)在交互式分析過程中定義計(jì)算公式和參數(shù)配置;
5)在交互式分析過程中自動(dòng)保存和回退;
6)在交互式分析過程中對(duì)分析結(jié)果的保存和發(fā)布;
7)基于在線聯(lián)機(jī)分析的交互式數(shù)據(jù)分析。

g)宜支持可視化的流程編排操作,實(shí)現(xiàn)以下功能:

1)通過拖拽方式進(jìn)行流程編排和修訂;
2)支持工作流調(diào)度觸發(fā)機(jī)制,可配置觸發(fā)時(shí)間或觸發(fā)事件;
3)支持流程編排結(jié)果的持久化保存。

6.6 數(shù)據(jù)可視化模塊

可視化模塊要求如下:
a)應(yīng)支持使用常規(guī)圖表展示數(shù)據(jù),如表格、桂狀圖、餅圖、折線圖、熱力圖等;
b)宜支持第三方數(shù)據(jù)可視化工具的 API。

6.7 數(shù)據(jù)訪問模塊

數(shù)據(jù)訪問模塊應(yīng)支持相應(yīng)的訪問接口,以便于第三方應(yīng)用程序使用大數(shù)據(jù)系統(tǒng)的數(shù)據(jù)。

6.8 資源管理模塊

資源管理模塊要求如下:
a)應(yīng)提供 CPU、內(nèi)存等資源的調(diào)度和配置功能;
b)應(yīng)提供對(duì)全局資源的集中管理功能;
e)應(yīng)支持靜態(tài)資源分配策略和動(dòng)態(tài)資源分配策略;
d)應(yīng)支持資源的彈性與搶占,即有空閑資源時(shí),租戶可使用超過其配置上限的資源,系統(tǒng)繁忙時(shí),若租戶使用的資源未達(dá)到其原始配置,則可搶占其他租戶使用資源的超出部分;
e)宜提供設(shè)置任務(wù)優(yōu)先級(jí)的功能,并按任務(wù)優(yōu)先級(jí)對(duì)資源進(jìn)行調(diào)度;
f)宜支持多層次的隊(duì)列資源管理,隊(duì)列資源實(shí)現(xiàn)隔離,即不為隊(duì)列分配超過其資源上限的資源;
g)宜提供根據(jù)作業(yè)需求動(dòng)態(tài)分配計(jì)算資源,自動(dòng)管理回收資源功能。

6.9 系統(tǒng)管理模塊

系統(tǒng)管理模塊要求如下:
a)應(yīng)提供配置管理功能,包括對(duì)大數(shù)據(jù)集群軟硬件資源的配置管理,支持配置管理的分角色、分
組管理及自動(dòng)化;
b)應(yīng)提供租戶管理功能,包括租戶的角色、權(quán)限、資源等功能;
c)應(yīng)提供監(jiān)控告警管理功能,包括多維度、可視化的大數(shù)據(jù)系統(tǒng)的監(jiān)控、告警等;
d)應(yīng)提供服務(wù)管理功能,包括對(duì)大數(shù)據(jù)系統(tǒng)組件服務(wù)的管理;
e)宜提供健康檢查管理功能?支持以圖形界面方式實(shí)現(xiàn)集群健康檢查。

7. 非功能要求

7.1 可靠性要求

7.1.1 高可用

高可用要求如下:
a)應(yīng)提供系統(tǒng)自動(dòng)故障探測(cè)及管理功能;
b)應(yīng)確保系統(tǒng)組件不存在單點(diǎn)故障風(fēng)險(xiǎn);
c)集群任意節(jié)點(diǎn)發(fā)生故障時(shí),不應(yīng)出現(xiàn)服務(wù)中斷、數(shù)據(jù)丟失或數(shù)據(jù)不一致的情況;
d)集群任意單元發(fā)生故障時(shí),系統(tǒng)操作應(yīng)不受影響;
e)應(yīng)保證系統(tǒng)長(zhǎng)期無(wú)故障不間斷運(yùn)行。

7.1.2 數(shù)據(jù)冗余存儲(chǔ)與分布

數(shù)據(jù)冗余存儲(chǔ)與分布要求如下:
a)應(yīng)提供元數(shù)據(jù)多副本存儲(chǔ)功能,任意節(jié)點(diǎn)發(fā)生故障時(shí)不影響系統(tǒng)繼續(xù)提供服務(wù)的能力;
b)應(yīng)提供基于分區(qū)容錯(cuò)的主副本規(guī)劃功能,具有提前規(guī)劃各副本數(shù)據(jù)物理分布的能力。

7.1.3 數(shù)據(jù)備份和恢復(fù)

數(shù)據(jù)備份和恢復(fù)要求如下:
a)應(yīng)提供分布式文件存儲(chǔ)備份和恢復(fù)功能;
b)應(yīng)提供分布式結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)備份和恢復(fù)功能;
c)應(yīng)提供分布式列式存儲(chǔ)備份和恢復(fù)功能;
d)宜支持?jǐn)?shù)據(jù)全量備份和增量備份;
e)宜支持?jǐn)?shù)據(jù)自動(dòng)備份和手動(dòng)備份。

7.1.4 故障恢復(fù)與遷移

故障恢復(fù)與遷移要求如下:
a)任意節(jié)點(diǎn)發(fā)生故障后,系統(tǒng)應(yīng)提供將修復(fù)后的節(jié)點(diǎn)接回系統(tǒng)的能力;
b)故障恢復(fù)與遷移過程不應(yīng)影響系統(tǒng)用戶數(shù)據(jù)的完整性與一致性;
c)故障恢復(fù)與遷移過程不應(yīng)影響系統(tǒng)整體服務(wù)能力。

7.2 兼容性要求

大數(shù)據(jù)系統(tǒng)應(yīng)兼容不同品牌的操作系統(tǒng)。

7.3 安全性要求

7.3.1 用戶管理

用戶管理要求如下:
a)應(yīng)對(duì)登錄用戶進(jìn)行身份標(biāo)識(shí)和鑒別,保證用戶身份標(biāo)識(shí)唯一性;
b)用戶身份鑒別信息應(yīng)滿足一定的復(fù)雜度要求,并定期更換;
c)應(yīng)提供登錄失敗處理措施,如結(jié)束會(huì)話、限制非法登錄次數(shù)、登錄詐接超時(shí)自動(dòng)銀出等措旆、

7.3.2 權(quán)限管理

權(quán)限管理要求如下:
a) 應(yīng)以系統(tǒng)組件為單位配置角色和用戶;
b)應(yīng)按照權(quán)限最小化的原則為用戶配置權(quán)限;
c)應(yīng)支持按照數(shù)據(jù)表級(jí)、數(shù)據(jù)列級(jí)的粒度為用戶分配權(quán)限;
d)應(yīng)支持按照不同操作類型(如增、刪、改、查、執(zhí)行等)為用戶分配權(quán)限。

7.3.3 日志管理

日志管理要求如下:
a)應(yīng)提供記錄系統(tǒng)操作日志功能,記錄用戶的重要操作;
b)應(yīng)保證系統(tǒng)操作日志無(wú)法刪除、修改或被覆蓋;
c)操作日志應(yīng)包括日期、時(shí)間、操作者信息、操作類型、操作描述和操作結(jié)果等;
d)應(yīng)提供對(duì)系統(tǒng)操作日志進(jìn)行統(tǒng)計(jì)、查詢、分析及生成報(bào)表的功能。

7.3.4 數(shù)據(jù)安全

數(shù)據(jù)安全要求如下:
a)應(yīng)提供數(shù)據(jù)存儲(chǔ)加解密功能,支持?jǐn)?shù)據(jù)庫(kù)級(jí)數(shù)據(jù)加密;
b)應(yīng)提供系統(tǒng)敏感數(shù)據(jù)加密傳輸功能,并且加密密鑰可被替換;
c)宜支持?jǐn)?shù)據(jù)列級(jí)的數(shù)據(jù)加密。

7.4 可擴(kuò)展性要求

系統(tǒng)可擴(kuò)展性要求如下:
a)應(yīng)提供集群在線擴(kuò)容和減容功能;
b)應(yīng)提供集群離線擴(kuò)容和減容功能。

7.5 維護(hù)性要求

系統(tǒng)可維護(hù)性要求如下:
a)應(yīng)提供安裝部署管理功能,對(duì)大數(shù)據(jù)集群中管理節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)軟件進(jìn)行安裝部署;
b)應(yīng)提供查看系統(tǒng)版本信息的功能;
c)應(yīng)提供系統(tǒng)在線升級(jí)功能,支持單組件升級(jí)、升級(jí)過程中回滾等;
d)應(yīng)提供錯(cuò)誤診斷功能,發(fā)生錯(cuò)誤時(shí)可提供準(zhǔn)確的診斷信息以便于定位錯(cuò)誤;
e)應(yīng)提供各類計(jì)算任務(wù)運(yùn)行進(jìn)度、狀態(tài)的實(shí)時(shí)跟蹤及上報(bào)功能;
f)宜提供系統(tǒng)降級(jí)功能,支持單組件降級(jí)、降級(jí)過程中回退等。

7.6 易用性要求

系統(tǒng)易用性要求如下:
a)應(yīng)提供圖形界面的系統(tǒng)安裝配置工具,以便于系統(tǒng)部署;
b)應(yīng)提供完整的產(chǎn)品文檔,包括但不限于安裝部署手冊(cè)、管理員使用手冊(cè)、應(yīng)用開發(fā)指南、用戶操作手冊(cè)等。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容