spark.1

Spark的組成:
SparkCore:將分布式數(shù)據(jù)抽象為彈性分布式數(shù)據(jù)集(RDD),實(shí)現(xiàn)了應(yīng)用任務(wù)調(diào)度,RPC,序列化和壓縮,并為運(yùn)行在其上的上層組件提供API
SparkSQL:Spark SQL是Saprk來(lái)操作結(jié)構(gòu)化數(shù)據(jù)的程序包,可以讓我們使用SQL語(yǔ)句的方式來(lái)查詢(xún)數(shù)據(jù),Spark支持多種數(shù)據(jù)源,包含hive表,parquest以及json等內(nèi)容。
SparkStreaming:Spark提供的實(shí)時(shí)數(shù)據(jù)進(jìn)行流式計(jì)算的組件。
MLlib:機(jī)器學(xué)習(xí)算法的實(shí)現(xiàn)庫(kù)。
GraphX:提供一個(gè)分布式圖計(jì)算框架,能高效進(jìn)行圖計(jì)算。
BlinkDB:用于在海量數(shù)據(jù)上進(jìn)行交互式SQL的近似查詢(xún)引擎。
Tachyon:以?xún)?nèi)存為中心高容錯(cuò)的分布式文件系統(tǒng)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容