Apache Tez—對(duì)MapReduce數(shù)據(jù)處理的歸納
http://www.infoq.com/cn/news/2013/09/TEZ
用【數(shù)據(jù)流來表現(xiàn)數(shù)據(jù)處理的理念】并不算新鮮——這正是Cascading的基礎(chǔ),而且許多使用Oozie的應(yīng)用也實(shí)現(xiàn)了這一目的。
相比之下,Tez的優(yōu)勢(shì)在于,將這一切都放在了一個(gè)單一的框架中,并針對(duì)資源管理(基于Apache Hadoop YARN)、數(shù)據(jù)傳輸和執(zhí)行,對(duì)該框架進(jìn)行了優(yōu)化。此外,Tez的設(shè)計(jì)還提供了對(duì)可熱插拔的頂點(diǎn)管理模塊的支持,用來收集來自任務(wù)的相關(guān)信息,并在【運(yùn)行時(shí)改變數(shù)據(jù)流圖,從而為了性能和資源使用進(jìn)行優(yōu)化】。
那些年,追過的開源軟件和技術(shù) - SDK.CN - 中國領(lǐng)先的開發(fā)者服務(wù)平臺(tái)
https://www.sdk.cn/news/2842
Cascading/Scalding****:Cascading是Twitter收購的一個(gè)公司技術(shù),主要是提供數(shù)據(jù)管道的一些抽象接口,然后又推出了基于Cascading的Scala版本就叫Scalding。Coursera是用Scalding作為MapReduce的編程接口放在Amazon的EMR運(yùn)行。
SMAQ:海量數(shù)據(jù)的存儲(chǔ)計(jì)算和查詢模型(譯) - 星星的日志 - 網(wǎng)易博客
http://duanple.blog.163.com/blog/static/709717672011016103028473/
// 與關(guān)系型數(shù)據(jù)庫的集成
對(duì)于Hadoop系統(tǒng)來說,通過使用Cascading API中的cascading.jdbc和 cascading-dbmigrate也能實(shí)現(xiàn)類似的功能。
//Hive
與Pig和Cascading的需要進(jìn)行編譯相比,Hive的一個(gè)長處是提供即席查詢。對(duì)于那些已經(jīng)成熟的商務(wù)智能系統(tǒng)來說,Hive是一個(gè)更自然的起點(diǎn),因?yàn)樗峁┝艘粋€(gè)對(duì)于非技術(shù)用戶更加友好的接口。Cloudera的Hadoop發(fā)行版里集成了Hive,而且通過HUE項(xiàng)目提供了一個(gè)更高級(jí)的用戶接口,使得用戶可以提交查詢并且監(jiān)控MapReduce job的執(zhí)行。
// Cascading, the API Approach
Cascading提供了一個(gè)對(duì)Hadoop的MapReduce API的包裝以使它更容易被java應(yīng)用程序使用。它只是一個(gè)為了讓MapReduce集成到更大的系統(tǒng)中時(shí)更簡(jiǎn)單的一個(gè)包裝層。Cascading包括如下幾個(gè)特性:
旨在簡(jiǎn)化MapReduce job定義的數(shù)據(jù)處理API
一個(gè)控制MapReduce job在Hadoop集群上運(yùn)行的API
訪問基于Jvm的腳本語言,比如Jython, Groovy, or JRuby.
與HDFS之外的數(shù)據(jù)源的集成,包括Amazon S3,web服務(wù)器
提供MapReduce過程測(cè)試的驗(yàn)證機(jī)制
Cascading的關(guān)鍵特性是它允許開發(fā)者將MapReduce job以流的形式進(jìn)行組裝,通過將選定的一些pipes連接起來。因此很適用于將Hadoop集成到一個(gè)更大的系統(tǒng)中。 Cascading本身并不提供高級(jí)查詢語言,由它而衍生出的一個(gè)叫Cascalog的開源項(xiàng)目完成了這項(xiàng)工作。Cascalog通過使用ClojureJVM語言實(shí)現(xiàn)了一個(gè)類似于Datalog的查詢語言。盡管很強(qiáng)大,Cascalog仍然只是一個(gè)小范圍內(nèi)使用的語言,因?yàn)樗炔幌馠ive那樣提供一個(gè)類SQL的語言,也不像Pig那樣是過程性的。下面是使用Cascalog完成的wordcout的例子: (defmapcatop split [sentence] (seq (.split sentence "[\s](file://s/)+"))) (?<- (stdout) [?word ?count] (sentence ?s) (split ?s :> ?word) (c/count ?count))
Cascading - 基于Hadoop的數(shù)據(jù)管理和分析框架 - OPEN 開發(fā)經(jīng)驗(yàn)庫
http://www.open-open.com/lib/view/open1339233814849.html


Hadoop集群數(shù)據(jù)處理API:Cascading - OPEN 開發(fā)經(jīng)驗(yàn)庫
http://www.open-open.com/lib/view/open1324608886921.html
Cascading是一個(gè)架構(gòu)在 Hadoop上的API,用來創(chuàng)建復(fù)雜和容錯(cuò)數(shù)據(jù)處理工作流。它抽象了集群拓?fù)浣Y(jié)構(gòu)和配置來快速開發(fā)復(fù)雜分布式的應(yīng)用,而不用考慮背后的MapReduce。 Cascading目前依賴于 Hadoop提供存儲(chǔ)和執(zhí)行架構(gòu),但是Cascading API為開發(fā)者隔離了Hadoop的技術(shù)細(xì)節(jié),提供了不需要改變初始流程工作流定義就可以在不同的計(jì)算框架內(nèi)運(yùn)行的能力。 Cascading使用了“pipe and filters”(管道和過濾)來定義數(shù)據(jù)處理進(jìn)程。它支持分隔,合并,分組和排序操作,這是開發(fā)者唯一需要考慮的操作。Nathan Marz提供了一個(gè)范例: Goodbye MapReduce, Hello Cascading. Cascading對(duì)于使用Hadoop開發(fā)復(fù)雜應(yīng)用是一個(gè)不錯(cuò)的解決方案。 這篇文章詳細(xì)解釋了Cascading整個(gè)架構(gòu)和技術(shù)細(xì)節(jié): A technical overview of the Cascading system
60款頂級(jí)大數(shù)據(jù)開源工具 - OPEN 開發(fā)經(jīng)驗(yàn)庫
http://www.open-open.com/lib/view/open1447487551725.html
4. Cascading
Cascading是一款基于Hadoop的應(yīng)用程序開發(fā)平臺(tái)。提供商業(yè)支持和培訓(xùn)服務(wù)。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。
相關(guān)鏈接:http://www.cascading.org/projects/cascading/
硬啃 :讀完這100篇論文,你就能成大數(shù)據(jù)高手!
http://mp.weixin.qq.com/s?src=3×tamp=1480386554&ver=1&signature=-r8lH53x44tEKlPJ1Dmi1mDLtKAj-miVvtTacKN46zKfCxCNX742JjR7VbUXLMu3NHK0RWV7R7Cal2BK8MerOORNeCqel4nHdXQgShUFyF-tpQXihxx67Hu5CLIoSzz4m4kYEsoA8q2AQYsBjzcHtA==
Cascading【91】 –這是一個(gè)架構(gòu)在Hadoop上的API函數(shù)庫,用來創(chuàng)建復(fù)雜的可容錯(cuò)的數(shù)據(jù)處理工作流(注:文獻(xiàn)【91】是關(guān)于Hadoop上的Cascading的概論和技術(shù)隨筆)。
一些大數(shù)據(jù)的案例 - 大數(shù)據(jù)和機(jī)器學(xué)習(xí)研究 - 博客頻道 - CSDN.NET
http://blog.csdn.net/lizhe_dashuju/article/details/17324509
- Cascading5.1 背景 Cascading是一個(gè)開源的Java庫,為MapReduce提供抽象層。用Java寫Hadoop的MapReduce是有難度的:cascading用簡(jiǎn)單字段名和數(shù)據(jù)元組模型代替MapReduce的key-value;cascading引入了【比Map和Reduce更抽象的層次,如Function, Fileter, Aggregator和Buffer?!?br>
5.2 使用情況
Cascading以字段名和元組的方式,把多個(gè)MapReduce的處理簡(jiǎn)化成一個(gè)管道鏈接起來的形式處理數(shù)據(jù)。從例子來看非常簡(jiǎn)潔,需要的代碼很少。
盤點(diǎn)九大熱門開源大數(shù)據(jù)技術(shù) - IT經(jīng)理網(wǎng)
http://www.ctocio.com/bigdata/7080.html

作為Hadoop的開源軟件抽象層,Cascading允許用戶使用任何基于JVM的語言在Hadoop集群上創(chuàng)建并執(zhí)行數(shù)據(jù)處理工作流。Cascading能隱藏MapReduce任務(wù)底層的復(fù)雜性。Chris Wensel設(shè)計(jì)Cascading的目的是成為MapReduce的一個(gè)備用API。Cascading經(jīng)常被用于廣告定向統(tǒng)計(jì)、日志文件分析、生物信息學(xué)分析、機(jī)器學(xué)習(xí)、預(yù)測(cè)分析、web內(nèi)容文本挖掘以及ETL應(yīng)用。Cascading的商業(yè)支持由Concurrent公司提供,該公司由Cascading的設(shè)計(jì)者Wensel創(chuàng)建。使用Cascading的知名網(wǎng)站包括Twitter和Etsy。Cascading在GNU下開源。