這篇內(nèi)容基于我去年的一些感悟?qū)懙模墙衲瓴旁赟tuq 的微信群做的分享。從技術(shù)角度而言,對Spark的掌握和使用還是顯得很手生的。但是今天一位做數(shù)據(jù)分析相關(guān)的朋友說,受這篇...
Spark專用名詞 RDD ---- resillient distributed dataset 彈性分布式數(shù)據(jù)集 Operation ---- 作用于RDD的各種操作分為...
這篇文章對大數(shù)據(jù)未來的發(fā)展趨勢做了一個推演,如能對大家有所啟發(fā)更好,否則權(quán)當做一篇碎片化時代產(chǎn)生的快速消費品一看而過即可。 大數(shù)據(jù)第一重 這是大數(shù)據(jù)的第一階段,也是大數(shù)據(jù)當前...
Spark讀取配置 我們知道,有一些配置可以在多個地方配置。以配置executor的memory為例,有以下三種方式: spark-submit的--executor-mem...
上次在做內(nèi)部培訓的時候,我講了這么一句: 一個Job里的Stage都是串行的,前一個Stage完成后下一個Stage才會進行。 顯然上面的話是不嚴謹?shù)摹?看如下的代碼: 這里...
2016年1月4號 Spark 1.6 發(fā)布。提出了一個新的內(nèi)存管理模型: Unified Memory Management。這篇文章會詳細分析新的內(nèi)存管理模型,方便大家做...
剛開始學習Spark,首先看一下Spark集群啟動之后都會產(chǎn)生哪些進程,方便查看集群是否啟動正常。首先介紹下我的Spark集群是以Hadoop的HDFS作為分布式文件存儲系統(tǒng)...
本章要點 單例類型可用于方法串接和帶對象參數(shù)的方法。 類型投影對所有外部類型的對象都包含了其內(nèi)部類的實例。 類型別名給類型指定一個短小的名稱。 結(jié)構(gòu)類型等效于“鴨子類型”。 ...
本章要點 類、特質(zhì)、方法和函數(shù)都可以有類型參數(shù) 將類型參數(shù)放置在名稱之后,以方括號括起來。 類型界定的語法為 T <: UpperBound、 T >: LowerBound...
本章要點 你可以為類、方法、字段、局部變量、參數(shù)、表達式、類型參數(shù)以及各種類型定義添加注解。 對于表達式和類型,注解跟在被注解的條目之后 注解的形式有: @Annotatio...
本章要點 match表達式是一個更好的switch,不會有意外掉入到下一個分支的問題。 如果沒有模式能夠匹配,會拋出MatchError??梢杂胏ase _ 模式來避免。 模...
本章要點 在Scala中函數(shù)是“頭等公民”,就和數(shù)字一樣; 你可以創(chuàng)建匿名函數(shù),通常還會把它們交給其他函數(shù); 函數(shù)參數(shù)可以給出需要稍后執(zhí)行的行為; 許多集合方法都接受函數(shù)參數(shù)...
本章要點 所有集合都擴展自Iterable特質(zhì) 集合有三大類:序列、集、映射 對于幾乎所有集合類,Scala都同時提供了可變的和不可變的版本 Scala列表要么是空的,要么擁...