[業(yè)界]數(shù)據(jù)倉庫(批處理/ETL,交互式分析,BI查詢,交互式BI查詢)領(lǐng)域

如何選擇滿足需求的SQL on Hadoop系統(tǒng) - 文章
http://weibo.com/p/1001603864171165928729
特別是目前Spark社區(qū)把Spark SQL朝向DataFrame發(fā)展,目標是提供一個類似R或者Pandas的接口,把這個作為主要的發(fā)展方向。DataFrame這個功能使得Spark成為機器學習和數(shù)據(jù)科學領(lǐng)域不可或缺的一個組件,但是在數(shù)據(jù)倉庫(ETL,交互式分析,BI查詢)領(lǐng)域感覺已經(jīng)不打算作為他們主要的發(fā)展目標了。

總的來說,目前來看Hive依然是批處理/ETL 類應(yīng)用的首選。Hive on Spark能夠降低Hive的延遲,但是還是達不到交互式BI查詢的需求。目前交互式BI查詢最好的選擇是Impala。Spark SQL/DataFrame是Spark用戶使用SQL或者DataFrame API構(gòu)建Spark pipeline的一種選擇,并不是一個通用的支持交互式查詢的引擎,更多的會用在基于Spark的機器學習任務(wù)的數(shù)據(jù)處理和準備的環(huán)節(jié)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容