Apache Atlas
Atlas為一些組織提供了開放的元數(shù)據(jù)管理(management)與治理(governance)能力。這些組織正使用數(shù)據(jù)集中型(intensive)平臺,比如Apache Hadoop,云平臺,移動和物聯(lián)網(wǎng)(IoT)系統(tǒng),而這些平臺或系統(tǒng)都需要與傳統(tǒng)系統(tǒng)集成、交換數(shù)據(jù),并用于分析和數(shù)據(jù)驅(qū)動決策。通過這些能力,一個組織可以構(gòu)建他們數(shù)據(jù)資產(chǎn)的目錄(catalog),分類和管理他們的資產(chǎn),同時為數(shù)據(jù)科學(xué)家、分析師、數(shù)據(jù)治理團隊提供圍繞數(shù)據(jù)資產(chǎn)的協(xié)作能力。
為什么是Atlas?
Atlas以提供一組可伸縮和可擴展的核心基礎(chǔ)元數(shù)據(jù)管理與治理服務(wù)集作為目標(biāo)。它使得企業(yè)能夠有效和高效地滿足個人數(shù)據(jù)平臺的合規(guī)要求,同時確保與整個數(shù)據(jù)生態(tài)系統(tǒng)的集成。Apache Atlas的組織是圍繞著兩項指導(dǎo)原則進(jìn)行的:
- 元數(shù)據(jù)事實通過自動化,合作,開發(fā)標(biāo)準(zhǔn)來實現(xiàn)(Metadata truth through automation, collaboration and open standards):在一個組織中Atlas應(yīng)該提供數(shù)據(jù)資產(chǎn)的完全可見性。
1.現(xiàn)代組織有很多保存數(shù)據(jù)的IT系統(tǒng),而它們又采用了范圍廣泛的各種技術(shù)。作為開源項目的Atlas將幫助組織建立起元數(shù)據(jù)標(biāo)準(zhǔn),并幫助各個技術(shù)提供者共同圍繞著消除數(shù)據(jù)倉庫壁壘而進(jìn)行統(tǒng)一治理。這些數(shù)據(jù)倉壁壘正式組織努力消除的。
2.通過API,鉤子(hook)和橋接器(bridge),Atlas促進(jìn)了通過開放標(biāo)準(zhǔn),進(jìn)行元數(shù)據(jù)交換的易用性。這些開發(fā)標(biāo)準(zhǔn)還提高了多個元數(shù)據(jù)制造者之間的內(nèi)部互操作性。
3.Atlas聚焦于元數(shù)據(jù)的自動化處理與治理。它在數(shù)據(jù)資產(chǎn)創(chuàng)建時捕獲它們的細(xì)節(jié),在這些資產(chǎn)被處理和拷貝時獲取它們的血緣關(guān)系(lineage)。
4.基于可延展的類型系統(tǒng),Atlas能夠?qū)⒈姸鄶?shù)據(jù)資產(chǎn)聚合在一起,并通過不同的視角和專業(yè)知識使得這些數(shù)據(jù)資產(chǎn)相互協(xié)作,或?qū)@些資產(chǎn)進(jìn)行創(chuàng)新性的使用。 - 開放中的發(fā)展(Developed in the open):Atlas由Hortonworks公司在數(shù)據(jù)治理倡議的雨傘下孵化出來的。該倡議由許多垂直領(lǐng)域行業(yè)共同提出,這些行業(yè)有金融服務(wù),醫(yī)療保健,油氣產(chǎn)品,零售,制藥。來自于Aetna,JPMorgan Chase,Merck,SAS,Schlumberger的工程師們,協(xié)同Hortonworks一起孵化了Atlas——一個基于Hadoop生態(tài)系統(tǒng)的開放性元數(shù)據(jù)治理平臺。在經(jīng)歷了2年以上的成熟期后,由于有這樣偉大的開始,Hortonworks,IBM,ING以及許多其他的組織正不斷擴展Altas,以解決橫跨各個行業(yè)的數(shù)據(jù)治理難題。這種方式是幫助產(chǎn)品加速成熟和為數(shù)據(jù)驅(qū)動企業(yè)帶來時間價值(time-to-value)的開源社區(qū)創(chuàng)新方運作的一個良好例證。
Atlas現(xiàn)狀
下圖1展示了Apache Atlas剛進(jìn)入孵化器時的初始架構(gòu)形態(tài)。

由孵化器工程定義的核心能力包括以下:
- 數(shù)據(jù)分類(Data Classification)- 在一個數(shù)據(jù)平臺內(nèi),比如Hadoop,參加一種可理解的數(shù)據(jù),并為內(nèi)外數(shù)據(jù)源提供這種數(shù)據(jù)分類
- 中心化審計(Centralized Auditing)- 提供一個框架,用以捕獲和報告對應(yīng)Hadoop中數(shù)據(jù)的訪問與修改
- 搜索與家系(Search and lineage)- 允許預(yù)定義的或?qū)iT性的對數(shù)據(jù)和元數(shù)據(jù)的探索,同時維護(hù)好一個數(shù)據(jù)源或顯示數(shù)據(jù)是構(gòu)建出來過程或信息
- 安全與策略引擎(Security and Policy Engine) - 保護(hù)好數(shù)據(jù)并在遵循合規(guī)策略的前提下合理訪問數(shù)據(jù)。
Atlas社區(qū)通過以下組件來滿足上述各項需求:
- 靈活的知識存儲和類型系統(tǒng)
- 自動為數(shù)據(jù)資產(chǎn)編制目錄表,同事通過鉤子(hook)和橋接器(bridge)來形成家系
- 利用API和簡單UI來提供對元數(shù)據(jù)的訪問
- 與Apache Ranger整合,以提供實時的、基于標(biāo)簽(tag)的訪問控制,和基于角色強訪問控制能力。
請繼續(xù)關(guān)注更多
目前Atlas聚焦于Apache Hadoop平臺。然而,Atlas被設(shè)計用于與其他工具,或Hadoop生態(tài)系統(tǒng)內(nèi)外的處理過程交換元數(shù)據(jù),因此允許平臺無關(guān)性的治理控制能力將有效的解決合規(guī)需求。
項目現(xiàn)在正在進(jìn)行中的工作是擴展Atlas操作的平臺,這不僅能提供元數(shù)據(jù)發(fā)現(xiàn)和自動化治理核心能力,同時還還創(chuàng)建了一個開放性的交互生態(tài)系統(tǒng)。該生態(tài)系統(tǒng)通過消息交換,或連接不同Apache Atlas實例,或連接其他類型元數(shù)據(jù)工具,以整合形成一個組織企業(yè)級視角的數(shù)據(jù)資產(chǎn),并能管理和使用它們。
Atlas由于那些無私貢獻(xiàn)的人們而變成更好。如果元數(shù)據(jù)管理和治理也是你興趣所在或?qū)I(yè)擅長,那么我們想請你考慮加入社區(qū),成為Atlas社區(qū)的一份子。