性能測試解讀:Kyligence vs Spark SQL

全球各種大數(shù)據(jù)技術(shù)涌現(xiàn)的今天,為了充分利用大量數(shù)據(jù)獲得競爭優(yōu)勢,企業(yè)需要高性能的數(shù)據(jù)分析平臺,可靠并及時地提供對海量數(shù)據(jù)的分析見解。對于數(shù)據(jù)驅(qū)動型企業(yè),在海量數(shù)據(jù)上交互式分析的能力是非常重要的能力之一。本測試側(cè)重在多維分析場景,對比Spark SQL 與 Kyligence 產(chǎn)品在大規(guī)模數(shù)據(jù)集上的查詢響應(yīng)的性能差異和特點(diǎn)。

測試產(chǎn)品介紹

Spark SQL 本質(zhì)上是基于 DAG 的 MPP,提供 SQL 或類 SQL 的查詢接口,通過將 SQL 查詢請求轉(zhuǎn)換成邏輯計劃、物理執(zhí)行,然后進(jìn)行分布式的執(zhí)行。在查詢執(zhí)行的過程中,充分利用完全基于內(nèi)存的并行計算做到低延遲查詢(通常是秒級到分鐘級,數(shù)據(jù)量越大查詢響應(yīng)越慢)。

Kyligence Enterprise 是企業(yè)級智能大數(shù)據(jù)OLAP,基本思路是對數(shù)據(jù)作多維索引,查詢時只掃描索引而不訪問原始數(shù)據(jù)達(dá)到提速。作為充分利用了預(yù)計算技術(shù)的產(chǎn)品,Kyligence Enterprise 擅長提供多維分析的亞秒級響應(yīng)能力。特別是在數(shù)據(jù)量呈倍數(shù)增長時,查詢性能依然具有很顯著的優(yōu)勢。

確定測試基準(zhǔn)

在測試基準(zhǔn)的選擇上,我們考慮了實(shí)際用戶的分析場景和查詢特征,最終決定根據(jù)TPC-H基準(zhǔn)進(jìn)行測試。TPC-H是一個抽象了商品銷售場景的決策支持系統(tǒng)測試基準(zhǔn),它定義了8張表、22條查詢。測試查詢普遍比較復(fù)雜,良好地代表了廣泛的業(yè)務(wù)場景中,最常見的分析主題,比如定價和促銷分析、供應(yīng)流量和銷售渠道分析、營收和利潤分析、客戶滿意度分析、市場份額分析等。

查詢集中的Query 1,總結(jié)了已經(jīng)開票的、寄出的、退回的業(yè)務(wù)交易量。

查詢Query 3,分析了具有最高價值的n個未發(fā)貨交易單。

查詢Query 4,確定了訂單排序系統(tǒng)的工作情況,并評估了客戶滿意度。

更多查詢和數(shù)據(jù)集的信息,可以了解TCP-HBenchmark標(biāo)準(zhǔn)。

準(zhǔn)備測試數(shù)據(jù)和環(huán)境

我們使用TPC-H數(shù)據(jù)工具生成了不同規(guī)模的測試數(shù)據(jù)集,在20臺物理機(jī)中使用一個資源隊列進(jìn)行測試。

測試查詢前,KyligenceEnterprise產(chǎn)品通過預(yù)計算生成了不同大小的 TPC-H 數(shù)據(jù)文件,以 parquet 格式存儲在安裝節(jié)點(diǎn)的 HDFS 上供查詢測試使用。每條查詢都執(zhí)行了多次,最終取其平均值作為實(shí)驗(yàn)結(jié)果。整個測試過程中,關(guān)閉了KyligenceEnterprise 4.0 的查詢緩存機(jī)制。

數(shù)據(jù)集

以下為每個測試數(shù)據(jù)集中,各個表的行數(shù)。

硬件環(huán)境

測試集群的硬件配置。

測試結(jié)果和解讀

在5億數(shù)據(jù)的TPC-H 數(shù)據(jù)集上,Kyligence? Enterprise 4.0的查詢性能普遍優(yōu)于Spark SQL 2.4。22條測試查詢中,Kyligence 產(chǎn)品支持60% 查詢在3秒以內(nèi)返回結(jié)果,90% 查詢可以在10秒以內(nèi)返回結(jié)果,最大查詢延遲也只有12.81秒。這些數(shù)據(jù)反映了,在億級大數(shù)據(jù)上, Kyligence產(chǎn)品能夠支持秒級的的交互式分析場景。

對比來看,Kyligence? Enterprise 4.0 的查詢性能明顯優(yōu)于 Spark SQL 2.4,其中有55% 的查詢提升在10倍以上,96% 查詢有提升 (query 22稍慢于Spark SQL 2.4,但性能相差不足1秒),性能優(yōu)勢非常明顯,單條查詢的性能最大提升81.81倍(query 1);單條查詢時間最多縮短150秒(query 18)。

當(dāng)數(shù)據(jù)集繼續(xù)增加到 10億、50億、100億時,即使集群資源不擴(kuò)充,Kyligence Enterprise 4.0的查詢延遲的總時間相對平穩(wěn)。面對數(shù)據(jù)量倍數(shù)增長到100億時,Spark SQL 作為在內(nèi)存中完成數(shù)據(jù)中間處理過程的分析引擎,需要的資源也需要相應(yīng)增長,否則就如圖展現(xiàn)出由于內(nèi)存資源不足導(dǎo)致查詢報錯。

結(jié)論和展望

通過本次TPC-H 查詢性能的基準(zhǔn)測試,我們可以得出Kyligence產(chǎn)品在多維分析場景下更有性能優(yōu)勢:

在5億數(shù)據(jù)集上, Kyligence Enterprise4.0的查詢性能遠(yuǎn)遠(yuǎn)優(yōu)于Spark SQL 2.4。測試的22條查詢中,60% 查詢可以在3秒以內(nèi)返回結(jié)果,90%查詢可以在10秒以內(nèi)返回結(jié)果,平均查詢性能為Spark SQL2.4的24.47倍。

當(dāng)數(shù)據(jù)集繼續(xù)增加到 10億、50億、100億時,即使集群資源不擴(kuò)充,KyligenceEnterprise 4.0的查詢總延遲時間相對平穩(wěn),平均每條查詢的延遲時間保持在秒級。

根據(jù)上述結(jié)論,我們?nèi)菀卓闯?Kyligence 產(chǎn)品非常擅長滿足海量數(shù)據(jù)上的多維分析的場景,并且具有交互式和高性價比的特點(diǎn)。當(dāng)企業(yè)的信息生態(tài)系統(tǒng)中數(shù)據(jù)持續(xù)增長時,選擇 Kyligence 產(chǎn)品更是確保了技術(shù)投入的持續(xù)可用,不會因?yàn)閿?shù)據(jù)量增長而導(dǎo)致 TCO 不斷增長。SparkSQL作為 Spark 的一個處理結(jié)構(gòu)化數(shù)據(jù)的程序模塊,更適合抽取部分?jǐn)?shù)據(jù)、周期性的轉(zhuǎn)換數(shù)據(jù),對部分?jǐn)?shù)據(jù)進(jìn)行靈活的簡單分析。

關(guān)于 Kyligence

Apache Kylin 在 PB 級別數(shù)據(jù)上帶來了開創(chuàng)性的即時分析能力,并被全球超過1000多家企業(yè)所使用。由 Apache Kylin 核心團(tuán)隊創(chuàng)立的 Kyligence 公司的使命以自動化數(shù)據(jù)管理、發(fā)現(xiàn)、交互及洞察來為其客戶提升生產(chǎn)效率。

Kyligence 獲得了來自紅點(diǎn)、思科、寬帶資本、順為資本、斯道資本(富達(dá)國際自有投資機(jī)構(gòu))及 Coatue Management 等投資機(jī)構(gòu)的多輪投資,其全球客戶包括歐萊雅、Xactly、招商銀行及華為等。公司以雙總部運(yùn)營,中國總部位于上海,美國總部位于美國加利福尼亞硅谷圣何塞。

聯(lián)系我們

網(wǎng)站:https://kyligence.io/

郵件:info@kyligence.io

電話: +86 21-61060928

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容