前言 之前本來有一個個人博客,但是因為太懶沒有維護,就來投奔CSDN了。這幾天突然一時興起,讓好好弄一下自己的個人博客,因為CSDN的廣告實在是....一言難盡...搜索了一...
前言 之前本來有一個個人博客,但是因為太懶沒有維護,就來投奔CSDN了。這幾天突然一時興起,讓好好弄一下自己的個人博客,因為CSDN的廣告實在是....一言難盡...搜索了一...
前言 在使用Spark-shell做一些測試時候會產(chǎn)生大量無用的INFO級別的日志,因此想把它們給禁用掉。具體方法如下。 解決方法 - 使用自定義的Log4j.propert...
前言 Driver OutOfMemoryError或Driver Unresponsive是一個非常嚴重的問題,因為它會使我們的Spark應(yīng)用程序崩潰。 但這類問題也經(jīng)常發(fā)...
前言 如果你程序中的聚合速度較慢,請先查看 Spark Stragglers/任務(wù)執(zhí)行緩慢部分。 主要癥狀 在執(zhí)行 groupby 操作時,任務(wù)執(zhí)行緩慢 聚合操作的后序操作也...
什么是RDD RDD(Resilient Distributed Datasets),彈性分布式數(shù)據(jù)集,是Spark的基本數(shù)據(jù)結(jié)構(gòu)。它是一個不可變的分布式對象集合。RDD中的...
前言 在我們提交spark程序時,應(yīng)該如何為Spark集群配置--num-executors, - executor-memory和--execuor-cores 呢? 一...
什么是Checkpointing Checkpointing可以將RDD從其依賴關(guān)系中抽出來,保存到可靠的存儲系統(tǒng)(例如HDFS,S3等), 即它可以將數(shù)據(jù)和元數(shù)據(jù)保存到檢查...
前言 學習Spark源代碼的過程中遇到了Typed transformations和Untyped transformations兩個概念,整理了以下相關(guān)的筆記。對于這兩個概...
Spark中的多任務(wù)處理 Spark的一個非常常見的用例是并行運行許多作業(yè)。 構(gòu)建作業(yè)DAG后,Spark將這些任務(wù)分配到多個Executor上并行處理。但這并不能幫助我們在...
訪問 http://github.global.ssl.fastly.net.ipaddress.com/#ipinfo 獲取github的IP地址 在/etc/hosts中...
寫了一個簡單腳本用來解決Mac上訪問github慢的問題,基本思路如下: 訪問 http://github.global.ssl.fastly.net.ipaddress.c...
查看了Anaconda 鏡像使用幫助 我們可以通過以下命令為Anaconda添加倉庫 然后可以運行 conda install pymongo安裝pymongo包交互的包測試...
Homebrew是Mac的軟件包管理器,我們可以通過它安裝大多數(shù)開源軟件。但是在使用brew update更新的時候竟然要等待很久。猜測可能是因為brew的官方源被墻或或者響...
前言 之前已經(jīng)完成了hadoop集群的安裝,測試了HDFS的使用,現(xiàn)在準備在此基礎(chǔ)上,繼續(xù)安裝Hive。 主要步驟 安裝mysql 安裝hive 配置hive 安裝mysql...
@[TOC] 前言 在Mac上搭建Hadoop環(huán)境(1) — 虛擬機的安裝及SSH免密設(shè)置中,我們已經(jīng)配置好了節(jié)點之間基本的網(wǎng)絡(luò)環(huán)境,接下來,只要在master(MBP)上下...
前言 準備在自己的MBP上搭建一個小的Hadoop集群玩玩,順便看看會遇到什么坑。初步打算設(shè)置三個節(jié)點,其中將MBP設(shè)置為master節(jié)點,另外用虛擬機創(chuàng)建兩個slave節(jié)點...
雖然在Pyspark中,驅(qū)動程序是一個python進程,但是它創(chuàng)建的SparkSession對象以及其他DataFrames或者RDDs等都是利用Python封裝過的 JVM...
關(guān)于SparkSession 任何Spark程序的第一步都是先創(chuàng)建SparkSession。在Spark-Shell或者其他交互模式中,SparkSession已經(jīng)預(yù)先被創(chuàng)建...
解決方法 訪問 http://github.global.ssl.fastly.net.ipaddress.com/#ipinfo 獲取github的IP地址github.g...
Spark Application’s Configuration 提示:有關(guān)如何配置Spark和用戶程序的詳細信息,請參閱官方文檔中的Spark Configuration...