本文來自于 Doris Summit 2022 演講實錄,演講人:陳明雨
十年對于數(shù)據(jù)庫意味著什么?
身處在日新月異的時代,我們見慣了技術的興起與繁榮、變遷與衰落,甚至是朝榮夕滅。信息技術以前所未有的速度更迭,給周遭事物帶來了顛覆性地變化。數(shù)據(jù)庫亦是如此,無數(shù)數(shù)據(jù)庫悄然湮沒在技術更迭的浪潮里,直到在浩渺如海的代碼片段中都找不到些許印記。而有的則歷久而彌新,經(jīng)受了時間的考驗,彰顯出強大的生命力,并以更加繁茂的姿態(tài)扎根生長。
十年對于數(shù)據(jù)庫而言,可能是一段從誕生到消逝的完整軟件生命周期,也可能是邁過里程碑之后的全新旅程。
所以從 MySQL 1.0 版本誕生,到具備顛覆性意義的 MySQL 5.7 版本正式發(fā)布,時間跨度剛好是十年,而十年之后的故事,大家已經(jīng)都知道了。
所以從 Benoit、Thierry、Marcin 聯(lián)合創(chuàng)建 Snowflake,到在紐交所成功上市、成為軟件行業(yè)有史以來最大規(guī)模的IPO,再到全面開啟云數(shù)據(jù)倉庫時代,時間跨度也差不多十年。
而對于 Apache Doris,十年意味著什么?
留個懸念,在回答這個問題之前,我們不妨來回顧下社區(qū)發(fā)展歷程。
盡管最早的歷史可以追溯到 2008 年的百度鳳巢廣告系統(tǒng),但彼時非 SQL 的單機查詢引擎加 KV 存儲系統(tǒng)在產(chǎn)品形態(tài)上與 OLAP 還有著較大的差異。
正式確立 OLAP 數(shù)據(jù)庫這一形態(tài)是在 2013 年。通過自研全列式存儲引擎 OLAP Engine 并基于 Apache Impala 改造了全新的 MPP 查詢引擎,自此,Doris 真正成為了具備大數(shù)據(jù)量下高效支持數(shù)據(jù)分析能力的 OLAP 數(shù)據(jù)庫,并在百度內(nèi)部大規(guī)模應用,成為了百度內(nèi)部統(tǒng)一的 OLAP 分析平臺。
往往一個內(nèi)部項目的發(fā)展會有兩種演進模式,一種是隨著需求的增加系統(tǒng)架構日益臃腫,當面對較為靈活的需求,常因改動成本過大而被徹底重構。另一種則是長期服務某一固定場景、需求逐漸收斂乃至停滯,最終被快速革新的外部技術徹底取代。而開源則是內(nèi)部項目的一場新生,在更廣闊的應用場景、更多樣的開發(fā)者群體以及更高效的研發(fā)模式加持下開啟新的篇章。
于是在數(shù)個版本的迭代與優(yōu)化后,2017年 Doris 的前身在 GitHub 上開源,2018 年進入 Apache 基金會孵化,并正式更名為 Apache Doris。(GitHub 地址:https://github.com/apache/doris)
時至 2022 年,正是 Apache Doris 在 OLAP 領域深耕的十年之際。
# 我們該如何回顧過去的 2022 年?
2022 年,外部世界正處在前所未有的變化之中,無數(shù)魔幻時刻在現(xiàn)實中發(fā)生。需要慶幸的是,技術和開源的力量幫助我們穿越了許多不確定性。而這一年勢必成為 Apache Doris 發(fā)展歷程中有著濃墨重彩的一年,我們從幾個角度來回顧一下 Apache Doris 過去一年的發(fā)展:
社區(qū)重要指標
過去一年中:
社區(qū)累計貢獻者的數(shù)量從 200 余位增長至近 420 位,同比增長超過 100%?,目前仍在持續(xù)上升中。
每月活躍貢獻者的數(shù)量從 50 位增長至 100 位,同樣呈現(xiàn)翻倍增長的趨勢。
GitHub Star 數(shù)量從 3.6k 增長至 6.8k,多次登上 GitHub Trengding 日/周/月度榜單前列。
全部 Commits 數(shù)量從 3.7k 增長至 7.6k,過去一年新提交代碼量超越了以往多年累加總和。
從這些數(shù)據(jù)中,我們可以感受到 2022 年是 Apache Doris 全面爆發(fā)的一年,各個維度數(shù)據(jù)指標幾乎都有了 100% 的增長。這一年的努力也使?Apache Doris 成為了全球大數(shù)據(jù)和數(shù)據(jù)庫領域最為活躍的開源社區(qū)之一,上方 GitHub Contribution 增長趨勢圖更是證明了這一點。而這一切,正是由社區(qū)所有的用戶和開發(fā)者共同創(chuàng)造的。
另外值得紀念的是,在 2022 年 6 月, Apache Doris 迎來了開源以來最重要的里程碑之一,正式從 Apache 孵化器畢業(yè)、成為了?Apache 頂級項目。
開源用戶規(guī)模
得益于社區(qū)成立的專職工程師團隊,為 Apache Doris 社區(qū)用戶提供義務的技術支持,2022 年我們在用戶連接與溝通方面變得更加順暢,可以更直面用戶、去傾聽用戶真實的聲音。
在過去的一年里,Apache Doris 已經(jīng)在互聯(lián)網(wǎng)、金融、電信、教育、汽車、制造、物流、能源、政務等數(shù)十個行業(yè)應用落地,尤其是在以海量數(shù)據(jù)著稱的互聯(lián)網(wǎng)行業(yè)。在中國市值或估值排行前 50 的互聯(lián)網(wǎng)公司中,有 80% 企業(yè)在長期使用 Apache Doris 來解決自身業(yè)務中的數(shù)據(jù)分析問題,其中包含了百度、美團、小米、騰訊、京東、字節(jié)跳動、網(wǎng)易、新浪、360、 米哈游、知乎等頭部知名企業(yè)。
在全球范圍內(nèi),Apache Doris 已經(jīng)得到了超過 1000 家企業(yè)用戶的認可,并且這一數(shù)字仍在快速增長中。這 1000 多家企業(yè)用戶中,絕大多數(shù)與社區(qū)有著直接聯(lián)系,并通過各種方式參與到社區(qū)建設中來。他們中的許多企業(yè)用戶也參與到本次 Doris Summit 的議題分享中,將自身基于真實業(yè)務場景的實踐經(jīng)驗分享給大家。
版本更新迭代
如果說過去版本將使用和運維的簡易性作為第一追求的話,那么 2022 年發(fā)布版本則是在性能、穩(wěn)定性、易用性等多方面特性的全面進化。
4 月份社區(qū)發(fā)布了自開源以來的首個 1 位版本—— Apache Doris 1.0,在 1.0 版本中,意義非凡的向量化執(zhí)行初次與大家見面,標志著 Apache Doris 開始邁入極速數(shù)據(jù)分析時代。
6 月份發(fā)布的 1.1 版本,我們對向量化引擎進行了進一步完善和優(yōu)化,并將其作為正式功能默認開啟。與此同時,社區(qū)建立了 LTS 版本發(fā)布機制,以每月發(fā)布一個 3 位版本的速度,對 1.1 版本進行快速地 Bug 修復和功能優(yōu)化,力求滿足更多社區(qū)用戶在穩(wěn)定性方面的高要求。
在綜合考慮版本迭代節(jié)奏和用戶需求后,我們決定將眾多新特性在 1.2 版本中發(fā)布。同時期社區(qū)的穩(wěn)定性和質(zhì)量保障工作也取得了顯著的成效,測試 Case 得到了極大程度地豐富,并在 Master 分支上構建了流水線。通過一系列質(zhì)量手段,Apache Doris 的代碼質(zhì)量和穩(wěn)定性得到進一步提升,這也使得版本發(fā)布有著更加嚴格的準出標準。
12 月初 1.2 版本正式面世。這一版本的發(fā)布不僅使查詢性能有了近十倍的提升,同時我們還推出了過去半年時間里研發(fā)的諸多重磅功能,包括 Unique Key 模型 Merge-on-Write 的數(shù)據(jù)更新模式、支持無縫對接多種數(shù)據(jù)湖的 Multi-Catalog 多源數(shù)據(jù)目錄、Java UDF 、Array 數(shù)組類型和 JSONB 類型等,讓 Apache Doris 在更多數(shù)據(jù)分析場景具備了更強的適應性和可能性。
我們也針對系統(tǒng)穩(wěn)定性進行了大量的工作,一方面,利用 SQL Smith 等自動化測試工具以及各個知名開源項目的測試用例,構建了數(shù)以百萬計的測試用例集;另一方面,通過社區(qū)準入流水線和完善的回歸測試框架,保證了代碼合入的質(zhì)量。因此1.2 版本不論從功能、性能還是穩(wěn)定性方面,都是一次厚積薄發(fā)后的全面進化,也是對所有開發(fā)者在 2022 年辛苦付出的最好回報。
核心特性演進
核心特性方面,社區(qū)的研發(fā)力量主要圍繞四個方面開展工作,分別是性能、實時性、半結構化數(shù)據(jù)支持與 Lakehouse。
查詢性能提升。從 1.0 版本面世到 1.2 版本發(fā)布,Apache Doris 在性能方面取得了極為顯著的成績。在單表場景上,Apache Doris 榮登 Clickhouse 公司推出的 Clickbench 數(shù)據(jù)庫性能榜單,并取得了前三名的優(yōu)秀成績。在多表關聯(lián)場景上,得益于向量化執(zhí)行引擎及各種查詢優(yōu)化技術,相對 2021 年底發(fā)布的 0.15 版本 ,Apache Doris 在 SSB 和 TPC-H 等標準測試數(shù)據(jù)集下均取得了數(shù)倍乃至數(shù)十倍的性能提升。這一系列性能方面的優(yōu)化,已經(jīng)成功讓 Apache Doris 躋身全球數(shù)據(jù)庫性能最優(yōu)陣列中!
實時場景優(yōu)化。?在 1.2 版本中,我們在原有 Unique Key 數(shù)據(jù)模型上實現(xiàn)了Merge-On-Write 的數(shù)據(jù)更新方式,查詢性能在高頻更新時有?5-10 倍的提升,實現(xiàn)了在可更新數(shù)據(jù)上的低延遲實時分析體驗。另外還實現(xiàn)了輕量 Schema Change 功能,對于數(shù)據(jù)的加減列不再需要轉(zhuǎn)換歷史數(shù)據(jù),可通過 Flink CDC 等工具快速便捷地同步上游事務數(shù)據(jù)庫中的 DML 或 DDL 操作,使數(shù)據(jù)同步工作能夠更加流暢統(tǒng)一。
半結構化數(shù)據(jù)支持。?目前 Apache Doris 支持了 Array 和 JSONB 類型,其中 Array 類型不僅能更方便地存儲復雜的數(shù)據(jù)結構,還可以通過 Array 函數(shù)滿足用戶行為分析等場景的業(yè)務需求。而 JSONB 是一種二進制 JSON 存儲方式,它不但比純文本 Text JSON 的訪問性能快 4 倍,同時也有更低的內(nèi)存消耗。通過 JSONB 可以方便地導入各種 JSON 格式的日志數(shù)據(jù)結構,并能取得優(yōu)異的查詢效率。這也是 Apache Doris 在日志分析領域所做的探索之一。
Lakehouse。在最新發(fā)布的 1. 2 版本中,我們引入了全新的 Catalog 概念,正式將 Apache Doris 邁入湖倉一體時代。通過簡單的命令便可以方便地連接到各自外部數(shù)據(jù)源并自動同步元數(shù)據(jù),實現(xiàn)統(tǒng)一的分析體驗。通過 Native Format Reader、延遲物化、異步 IO、數(shù)據(jù)預取等多項針對外部數(shù)據(jù)源的性能優(yōu)化,并充分利用自身的高性能執(zhí)行引擎和查詢優(yōu)化器,在對外表訪問性能上,Apache Doris 可以達到 Trino/Presto 的?3- 5 倍、Hive 的?10-100 倍。
2023 RoadMap
承前而啟后,2023 年,Apache Doris 社區(qū)在以上幾方面特性持續(xù)完善的同時,也將開啟更多有意義的工作。全年的 RoadMap 以及明年 Q1 的具體計劃,可以參考以下的全景圖:
穩(wěn)定的版本發(fā)布和迭代速度對于開源軟件至關重要。在 2023 年,我們將以每季度一個 2 位版本的節(jié)奏,開始 Apache Doris 2.x 版本的迭代。同時,針對每個 2 位版本,我們也將以每月一個 3 位版本的速度進行功能維護和優(yōu)化。
從功能角度來看,后續(xù)研發(fā)工作將會圍繞以下幾個主要方向展開:
高性能
高性能是 Apache Doris 不斷追求的目標,過去一年在 Clickbench、TPC-H 等公開測試數(shù)據(jù)集上的優(yōu)異表現(xiàn),已經(jīng)證明了其在執(zhí)行層以及算子優(yōu)化方面做到了業(yè)界領先。未來我們也會不斷優(yōu)化各個場景下的性能表現(xiàn),回饋用戶極速的數(shù)據(jù)分析體驗,具體包括:
更復雜SQL性能提升:?2022 年我們已經(jīng)啟動全新查詢優(yōu)化器的設計與開發(fā),而這一成果在 2023 年一季度就將與大家見面。全新查詢優(yōu)化器提供了豐富的規(guī)則模型,實現(xiàn)了更智能的代價選擇,可以更高效地支撐復雜查詢,能夠完整執(zhí)行 TPC-DS 全部 99 個SQL。同時全新查詢優(yōu)化器還具備全查詢場景的自適應優(yōu)化,便于用戶在面對不同分析負載和業(yè)務場景時都獲得一致性的使用體驗。
更高的點查詢并發(fā):?高并發(fā)一直是 Apache Doris 所擅長的場景,而 2023 年我們將會進一步加強這一能力,通過 Short-Circuit Plan、Prepare Statement、Query Cache 等一系列技術,實現(xiàn)單機數(shù)萬 QPS 的超高并發(fā)支持,并具備隨集群規(guī)模的拓展進而線性提升并發(fā)的能力。
更靈活的多表物化視圖:?在過去版本中,通過強一致的單表物化視圖,Apache Doris 加速了固定維度數(shù)據(jù)的分析效率。而全新的多表物化視圖將會解耦 Base 表與 MV 表的生命周期,通過異步刷新和靈活的增量計算方式,滿足多表關聯(lián)以及更復雜 SQL 的預計算加速需求,這一特性將在接下來的 2023 年第一季度與大家見面!
高性價比
成本和效率對企業(yè)而言是贏得市場競爭的關鍵,對數(shù)據(jù)庫而言亦是如此。過去 Apache Doris 憑借在易用性方面的諸多設計幫助用戶大幅節(jié)約了計算與存儲資源成本,后續(xù)我們也會引入一系列云原生能力,在不影響業(yè)務效率的同時進一步降低成本,具體包括:
更低的存儲成本:?我們將探索與云上對象存儲系統(tǒng)和文件系統(tǒng)的結合,幫助用戶進一步降低存儲成本,包括更完善的冷熱數(shù)據(jù)分離能力,將冷數(shù)據(jù)智能轉(zhuǎn)移至更廉價的對象存儲或文件系統(tǒng)中。結合單一遠程副本、冷數(shù)據(jù) Cache 以及冷熱智能轉(zhuǎn)換等技術,保證業(yè)務查詢效率不受影響的同時實現(xiàn)存儲成本大幅降低,這一功能將于 2023 年第一季度發(fā)布。
更彈性的計算資源:?剝離存儲與計算狀態(tài),引入僅用于計算的 Elastic Compute Node 。由于不存儲數(shù)據(jù),彈性計算節(jié)點具備更加快速的彈性伸縮能力,便于用戶在業(yè)務高峰期進行快速擴容,進一步提升在海量數(shù)據(jù)計算場景(如數(shù)據(jù)湖分析)的分析效率,這一功能已經(jīng)處于最終調(diào)試階段,即將與大家見面。后續(xù)我們還將通過對集群內(nèi)存和 CPU 運行指標的監(jiān)控和自動策略配置,實現(xiàn)自動的節(jié)點擴縮容(Auto-scaling)。
混合負載
隨著用戶規(guī)模的極速擴張,越來越多的用戶將 Apache Doris 用于構建企業(yè)內(nèi)部的統(tǒng)一分析平臺。這一方面需要 Apache Doris 去承擔更大規(guī)模的數(shù)據(jù)處理和分析,另一方面也需要 Apache Doris 同時去應對更多分析負載的挑戰(zhàn),從過去的實時報表和 Ad-hoc 等典型 OLAP 場景,擴展到 ELT/ETL 、日志檢索與分析等更多場景的統(tǒng)一。為了能更好適配這些場景,許多工作已經(jīng)進入緊鑼密鼓的研發(fā)中,并將于 2023 年陸續(xù)與大家見面,具體包括:
更靈活的 Pipeline 執(zhí)行引擎* *:**與傳統(tǒng)的火山模型相比,Pipeline 模型無需手動設置并發(fā)度,可以實現(xiàn)不同管道之間的并行計算,充分利用多核的計算能力,實現(xiàn)更靈活的執(zhí)行調(diào)度,提升在混合負載場景下的綜合性能表現(xiàn)。
Workload Manager:?在性能提升的同時,也亟需完善的資源隔離和劃分的能力。我們將會基于 Pipeline 執(zhí)行引擎實現(xiàn)更細粒度和更靈活的負載管理、資源隊列以及共享隔離等功能,兼顧多種混合負載場景下的查詢性能與穩(wěn)定性。
輕量級容錯:?輕量級容錯能力也是我們后續(xù)持續(xù)完善的地方,既能利用 MPP 的高效率又能對錯誤進行容忍,以更好適應用戶在 ETL/ELT 場景的挑戰(zhàn)。
函數(shù)兼容與多語言UDF:?與此同時,后續(xù)也將支持 Hive/Trino/Spark 函數(shù)的兼容性以及多語言的 UDF,來幫助用戶更靈活地進行數(shù)據(jù)加工,也可以更方便地從其他數(shù)據(jù)庫系統(tǒng)遷移到 Apache Doris。
多模數(shù)據(jù)分析
在過去 Apache Doris 更多是是擅長于結構化數(shù)據(jù)分析,隨著對半結構化、非結構化數(shù)據(jù)分析需求的增加,從 1.2 版本起我們增加了 Array 和 JSONB 類型以實現(xiàn)數(shù)據(jù)的 Native 支持,后續(xù)版本仍將持續(xù)加強這一能力,為日志分析場景提供性價比更高、性能更強的解決方案,具體包括:
更豐富的復雜數(shù)據(jù)類型* *:**除 Array/JSONB 類型以外,2023 年第一季度我們將增加對 Map/Struct 類型的支持,包括高效寫入、存儲、分析函數(shù)以及類型之間的相互嵌套,以更好滿足多模態(tài)數(shù)據(jù)分析的支持。后續(xù)將支持更加豐富的數(shù)據(jù)類型,包括 IP、GEO 地理信息等數(shù)據(jù)類型,并會探索在時序數(shù)據(jù)場景的高效數(shù)據(jù)分析。
更高效的文本分析算法:?對于文本數(shù)據(jù),我們將引入更多的文本分析算法,包括自適應 Like、高性能子串匹配、高性能正則匹配,Like 語句的謂詞下推、Ngram Bloomfilter 等,同時基于倒排索引實現(xiàn)全文檢索能力,在日志分析場景提供比 ES 更高性能和性價比的分析能力。這些功能都已經(jīng)處于就緒階段,將在 2023 年初與大家見面。
動態(tài) Schema 表:?傳統(tǒng)數(shù)據(jù)庫在設計之初 Schema 是靜態(tài)的,Schema 變更時需要執(zhí)行 DDL ,而這一操作往往具有阻塞性。在越來越多的現(xiàn)代數(shù)據(jù)分析場景中,表結構會隨時間推移而變化,因此我們引入了 Dynamic Table,可以根據(jù)數(shù)據(jù)寫入自動適應 Schema ,不再需要執(zhí)行 DDL,由過去的人工干預數(shù)據(jù)結構進化為數(shù)據(jù)自驅(qū)動,極大提升了靈活數(shù)據(jù)分析的便捷性。這一功能將在 2022 年第一季度正式發(fā)布。
Lakehouse
隨著數(shù)據(jù)湖技術的發(fā)展,分析性能成為發(fā)揮數(shù)據(jù)湖效用、挖掘數(shù)據(jù)價值最大的掣肘?;谝豢詈唵我子煤透咝阅艿牟樵兎治鲆嬖跀?shù)據(jù)湖之上構建分析服務,成為新的技術趨勢。在過去一年,通過在數(shù)據(jù)湖上的諸多性能優(yōu)化、結合自身的高性能執(zhí)行引擎和查詢優(yōu)化器以及,Apache Doris 實現(xiàn)了數(shù)據(jù)湖上極速易用的分析體驗,性能較 Presto/Trino 有 3-5 倍的提升。在 2023 年,我們將會繼續(xù)完善這一能力,具體包括:
更簡易的數(shù)據(jù)對接:?在 1.2 版本中我們發(fā)布了 Multi-Catalog,支持了多種異構數(shù)據(jù)源的元數(shù)據(jù)自動映射與同步,實現(xiàn)了數(shù)據(jù)湖的無縫對接,后續(xù)將對 Delta Lake 的支持以及 Iceberg、Hudi 等更多數(shù)據(jù)格式的支持。
更完整的數(shù)據(jù)湖能力支持:?提供數(shù)據(jù)湖上數(shù)據(jù)的增量更新與查詢,還會支持將分析結果寫回數(shù)據(jù)湖、外表寫入內(nèi)表,實現(xiàn)數(shù)據(jù)分析流程的全閉環(huán)。同時還將支持多版本 Snapshot 讀取和刪除,并進一步在 Apache Doris 為數(shù)據(jù)湖數(shù)據(jù)提供物化視圖。
實時性與存儲引擎優(yōu)化
數(shù)據(jù)價值會隨著時間推移而降低,因此實時性對于高時效性要求的用戶而言至關重要。在 1.1 版本中我們在 Compaction 和 Flink 實時寫入方面進行了諸多優(yōu)化,同時 1.2 版本的 Merge-on-Write 數(shù)據(jù)更新模式進一步使 Apache Doris 在實時更新與極速查詢得以統(tǒng)一。2023 年我們將會持續(xù)強化對存儲引擎的優(yōu)化,具體包括:
更穩(wěn)定的數(shù)據(jù)寫入:?通過一系列 Compaction 操作和批量數(shù)據(jù)寫入方面的優(yōu)化,節(jié)省資源開銷,降低寫放大問題,并結合全新的內(nèi)存管理框架提升寫入過程的內(nèi)存穩(wěn)定性,進而提升系統(tǒng)穩(wěn)定性。
更完善的數(shù)據(jù)更新支持:?過去部分列更新是通過 Agg 模型上的 Replace_if_not_null 來實現(xiàn)的,后續(xù)我們將會增加 Unique Key 模型上的部分列更新支持,并完整實現(xiàn) Delete、Update、 Merge 等數(shù)據(jù)更新的操作。
更統(tǒng)一的數(shù)據(jù)模型:?當前 Apache Doris 的三種數(shù)據(jù)模型在各個場景均有豐富的應用,后續(xù)我們將嘗試統(tǒng)一現(xiàn)有幾種數(shù)據(jù)模型,使用戶在使用體驗上更加統(tǒng)一。
易用性和穩(wěn)定性
除了功能方面的豐富與完善,更簡單、更易用、更穩(wěn)定同樣也是 Apache Doris 一直追求的目標,2023 年我們將在以下幾方面出發(fā),讓用戶具有更簡易和放心的使用體驗:
簡化建表:?目前 Apache Doris 在建表時分區(qū)已經(jīng)支持了時間函數(shù),后續(xù)我們將進一步消除 Bucket 設置,幫助用戶最大程度簡化建表建模。
安全性:?目前已經(jīng)實現(xiàn)基于 RBAC 模型的權限管理機制,使用戶權限更安全可靠;并對 ID-federation、行列級別權限,數(shù)據(jù)脫敏等進行了優(yōu)化,后續(xù)將進一步完善。
可觀測性:?Profile 是定位查詢性能問題的重要手段,后續(xù)我們將加強對 Profile 的監(jiān)控并提供可視化 Profile 工具,幫助用戶更快定位問題。
更好的 BI 兼容性和更完善的數(shù)據(jù)集成遷移方案:?當前各 BI 工具可以通過 MySQL 協(xié)議連接到 Apache Doris,后續(xù)我們將對主流 BI 軟件進一步適配,保證更佳的查詢體驗。隨著 DBT、Airbyte 等新興數(shù)據(jù)集成和遷移工具的興起,越來越多用戶使用此類系統(tǒng)將數(shù)據(jù)同步至 Apache Doris ,后續(xù)我們也會提供對此些系統(tǒng)的官方支持。
開啟下一個十年!
或許有讀者或聽眾還記得我在開頭提的問題,對于 Apache Doris,十年意味著什么?
有兩層含義,上一個十年和下一個十年。
上一個十年,是 Apache Doris 起源的十年。從誕生到開源、從默默無聞到被越來越多人熟知和使用,開源賦予了 Apache Doris 更加旺盛的生命力和創(chuàng)造力。
而下一個十年,則是一場新的旅程。
正如我在本次 Doris Summit 分享的主題,New Journey of Apache Doris。如果說過去 Apache Doris 更多是服務于在線報表場景和 Ad-hoc 分析的 OLAP 引擎的話,那么在所有社區(qū)和開發(fā)者的努力下,當前 Apache Doris 已經(jīng)具備了更為廣闊的定位,即極速、易用、實時、統(tǒng)一的多模分析型數(shù)據(jù)庫。
這其中的統(tǒng)一,既包含了架構的統(tǒng)一、也包含了業(yè)務和數(shù)據(jù)的統(tǒng)一。用戶可以通過 Apache Doris 構建多種不同場景的數(shù)據(jù)分析服務、同時支撐在線與離線的業(yè)務負載、高吞吐的交互式分析與高并發(fā)的點查詢;通過一套架構實現(xiàn)湖和倉的統(tǒng)一、在數(shù)據(jù)湖和多種異構存儲之上提供無縫且極速的分析服務;也可通過對日志/文本等半結構化乃至非結構化的多模數(shù)據(jù)進行統(tǒng)一管理和分析、來滿足更多樣化數(shù)據(jù)分析的需求。
這是我們希望 Apache Doris 能夠帶給用戶的價值,不再讓用戶在多套系統(tǒng)之間權衡,僅通過一個系統(tǒng)解決絕大部分問題,降低復雜技術棧帶來的開發(fā)、運維和使用成本,最大化提升生產(chǎn)力。
“我們已經(jīng)出發(fā)了太久,以至于忘記了為什么出發(fā)?!?/p>
希望通過這一定位的轉(zhuǎn)變迎接下一個十年的挑戰(zhàn),或許技術趨勢會有變化,架構將會革新,但我們解決用戶數(shù)據(jù)分析問題的初衷不會改變。
希望繼續(xù)帶著上一個十年出發(fā)的初心,開啟下一個十年的旅程。