什么是RDD RDD(Resilient Distributed Datasets),彈性分布式數(shù)據(jù)集,是Spark的基本數(shù)據(jù)結(jié)構(gòu)。它是一個(gè)不可變的分布式對(duì)象集合。RDD中的...
什么是RDD RDD(Resilient Distributed Datasets),彈性分布式數(shù)據(jù)集,是Spark的基本數(shù)據(jù)結(jié)構(gòu)。它是一個(gè)不可變的分布式對(duì)象集合。RDD中的...
前言 在我們提交spark程序時(shí),應(yīng)該如何為Spark集群配置--num-executors, - executor-memory和--execuor-cores 呢? 一...
什么是Checkpointing Checkpointing可以將RDD從其依賴(lài)關(guān)系中抽出來(lái),保存到可靠的存儲(chǔ)系統(tǒng)(例如HDFS,S3等), 即它可以將數(shù)據(jù)和元數(shù)據(jù)保存到檢查...
前言 之前已經(jīng)完成了hadoop集群的安裝,測(cè)試了HDFS的使用,現(xiàn)在準(zhǔn)備在此基礎(chǔ)上,繼續(xù)安裝Hive。 主要步驟 安裝mysql 安裝hive 配置hive 安裝mysql...
Spark中的多任務(wù)處理 Spark的一個(gè)非常常見(jiàn)的用例是并行運(yùn)行許多作業(yè)。 構(gòu)建作業(yè)DAG后,Spark將這些任務(wù)分配到多個(gè)Executor上并行處理。但這并不能幫助我們?cè)?..
前言 學(xué)習(xí)Spark源代碼的過(guò)程中遇到了Typed transformations和Untyped transformations兩個(gè)概念,整理了以下相關(guān)的筆記。對(duì)于這兩個(gè)概...
數(shù)據(jù)壓縮 概況 本章描述了幾種數(shù)據(jù)壓縮選項(xiàng),它能夠幫助你減少磁盤(pán)空間的使用,在某種情況下,還可以提高I/O性能。 多值壓縮(MVC) 算法壓縮(ALC) 行壓縮 行標(biāo)題壓縮 ...
關(guān)于SparkSession 任何Spark程序的第一步都是先創(chuàng)建SparkSession。在Spark-Shell或者其他交互模式中,SparkSession已經(jīng)預(yù)先被創(chuàng)建...