這篇內(nèi)容基于我去年的一些感悟?qū)懙模墙衲瓴旁赟tuq 的微信群做的分享。從技術(shù)角度而言,對(duì)Spark的掌握和使用還是顯得很手生的。但是今天一位做數(shù)據(jù)分析相關(guān)的朋友說(shuō),受這篇...
Spark專(zhuān)用名詞 RDD ---- resillient distributed dataset 彈性分布式數(shù)據(jù)集 Operation ---- 作用于RDD的各種操作分為...
這篇文章對(duì)大數(shù)據(jù)未來(lái)的發(fā)展趨勢(shì)做了一個(gè)推演,如能對(duì)大家有所啟發(fā)更好,否則權(quán)當(dāng)做一篇碎片化時(shí)代產(chǎn)生的快速消費(fèi)品一看而過(guò)即可。 大數(shù)據(jù)第一重 這是大數(shù)據(jù)的第一階段,也是大數(shù)據(jù)當(dāng)前...
Spark讀取配置 我們知道,有一些配置可以在多個(gè)地方配置。以配置executor的memory為例,有以下三種方式: spark-submit的--executor-mem...
上次在做內(nèi)部培訓(xùn)的時(shí)候,我講了這么一句: 一個(gè)Job里的Stage都是串行的,前一個(gè)Stage完成后下一個(gè)Stage才會(huì)進(jìn)行。 顯然上面的話是不嚴(yán)謹(jǐn)?shù)摹?看如下的代碼: 這里...
2016年1月4號(hào) Spark 1.6 發(fā)布。提出了一個(gè)新的內(nèi)存管理模型: Unified Memory Management。這篇文章會(huì)詳細(xì)分析新的內(nèi)存管理模型,方便大家做...
剛開(kāi)始學(xué)習(xí)Spark,首先看一下Spark集群?jiǎn)?dòng)之后都會(huì)產(chǎn)生哪些進(jìn)程,方便查看集群是否啟動(dòng)正常。首先介紹下我的Spark集群是以Hadoop的HDFS作為分布式文件存儲(chǔ)系統(tǒng)...
本章要點(diǎn) 單例類(lèi)型可用于方法串接和帶對(duì)象參數(shù)的方法。 類(lèi)型投影對(duì)所有外部類(lèi)型的對(duì)象都包含了其內(nèi)部類(lèi)的實(shí)例。 類(lèi)型別名給類(lèi)型指定一個(gè)短小的名稱(chēng)。 結(jié)構(gòu)類(lèi)型等效于“鴨子類(lèi)型”。 ...
本章要點(diǎn) 類(lèi)、特質(zhì)、方法和函數(shù)都可以有類(lèi)型參數(shù) 將類(lèi)型參數(shù)放置在名稱(chēng)之后,以方括號(hào)括起來(lái)。 類(lèi)型界定的語(yǔ)法為 T <: UpperBound、 T >: LowerBound...
本章要點(diǎn) 你可以為類(lèi)、方法、字段、局部變量、參數(shù)、表達(dá)式、類(lèi)型參數(shù)以及各種類(lèi)型定義添加注解。 對(duì)于表達(dá)式和類(lèi)型,注解跟在被注解的條目之后 注解的形式有: @Annotatio...
本章要點(diǎn) match表達(dá)式是一個(gè)更好的switch,不會(huì)有意外掉入到下一個(gè)分支的問(wèn)題。 如果沒(méi)有模式能夠匹配,會(huì)拋出MatchError??梢杂胏ase _ 模式來(lái)避免。 模...
本章要點(diǎn) 在Scala中函數(shù)是“頭等公民”,就和數(shù)字一樣; 你可以創(chuàng)建匿名函數(shù),通常還會(huì)把它們交給其他函數(shù); 函數(shù)參數(shù)可以給出需要稍后執(zhí)行的行為; 許多集合方法都接受函數(shù)參數(shù)...
本章要點(diǎn) 所有集合都擴(kuò)展自Iterable特質(zhì) 集合有三大類(lèi):序列、集、映射 對(duì)于幾乎所有集合類(lèi),Scala都同時(shí)提供了可變的和不可變的版本 Scala列表要么是空的,要么擁...