Spark 1.3及其前的版本 你的一個 spark streaming application 已經(jīng)好好運行了一段時間了,這個時候你因為某種原因要停止它。你應(yīng)該怎么做?直接...
本文原始地址 分類 每個人每天都會進行很多次的分類操作。比如,當(dāng)你看到一個陌生人,你的大腦中的分類器就會根據(jù)TA的體貌特征、衣著舉止,判斷出TA是男是女,是窮是富等等。這就是...
本文原始地址 剖析Spark工作的運行 我們來看下當(dāng)我們運行一個Spark工作時,會發(fā)生什么。在最高級別上,有兩個獨立的實體:驅(qū)動(driver)和執(zhí)行器(executors...
本文原始地址 剖析Spark工作的運行 我們來看下當(dāng)我們運行一個Spark工作時,會發(fā)生什么。在最高級別上,有兩個獨立的實體:驅(qū)動(driver)和執(zhí)行器(executors...
本文原始地址 Persistence 回到本章開頭的例子,我們可以把“年度-氣溫”的中間數(shù)據(jù)集緩存在內(nèi)存中: 調(diào)用cache()不會立刻把RDD緩存到內(nèi)存中,只是對這個RDD...
目前,spark shuffle write有三種方法:hash shuffle、sort shuffle和tungsten-sort shuffle。從1.2版本開始默認(rèn)為...
本文原始地址 Persistence 回到本章開頭的例子,我們可以把“年度-氣溫”的中間數(shù)據(jù)集緩存在內(nèi)存中: 調(diào)用cache()不會立刻把RDD緩存到內(nèi)存中,只是對這個RDD...
高能預(yù)告,以下內(nèi)容會消耗一定流量(約10M) 高能預(yù)告,以下內(nèi)容會消耗一定流量(約10M) HERE WE GO
本文翻譯自O(shè)'Reilly出版Tom White所著《Hadoop: The Definitive Guide》第4版第19章,向作者致敬。該書英文第4版已于2015年4月出...
本文原始地址 A Scala Standalone Application 在Spark shell中運行了一個小程序之后,你可能想要把它打包成自包含應(yīng)用,這樣就可以多次運行...
本文原始地址 Resilient Distributed Datasets RDD是每個spark程序的核心,本節(jié)我們來看看更多細(xì)節(jié)。 Creation 創(chuàng)建RDD有三種方式...
公元前222年,秦軍攻下遼東,俘虜了燕王喜,燕國滅亡。 司馬遷在《史記·燕召公世家第四》中說:“燕國迫近蠻貉等域外部族,疆土又和齊、晉等國交錯著,艱難地生存在強國之間,最為弱...