1、ETL數(shù)據(jù)架構(gòu)層次 2、建表規(guī)范 3、命名規(guī)范 4、作業(yè)開發(fā)規(guī)范 注釋: 作業(yè)說明是一種注釋,位于作業(yè)最開始部分。作業(yè)說明有助于提高代碼的可...
Spark RDD 編程指南(官方文檔中文版+補(bǔ)充) 1.總覽 Spark 提供的主要抽象是彈性分布式數(shù)據(jù)集(RDD),它是跨集群節(jié)點(diǎn)劃分的元素...
目錄 [toc] 版本 Scala 版本:2.11.8 spark 版本:spark-2.4.4-bin-hadoop2.7.tgz 一、創(chuàng)建S...
關(guān)于DataX 增量更新實(shí)現(xiàn) 注:參考來源文章 增量更新總體思路:從目標(biāo)數(shù)據(jù)庫讀取一個(gè)最大值的記錄,可以是DataTime 或者 RowVers...
文檔參考:https://docs.scala-lang.org/tutorials/scala-with-maven.html new pro...
1.理論基礎(chǔ) 需要注意的是: 一個(gè)source可以對接多個(gè)channel 一個(gè)sink只能對接一個(gè)channel 實(shí)現(xiàn)一個(gè)數(shù)據(jù)流的需求關(guān)鍵點(diǎn)就在...
1. Flume 簡介 Flume 是一個(gè)分布式的海量日志采集,聚合,轉(zhuǎn)移工具。 大數(shù)據(jù)常用數(shù)據(jù)處理框架 這里只是給flume一個(gè)定位,清楚fl...
準(zhǔn)備要導(dǎo)入的數(shù)據(jù) mysql創(chuàng)建表并插入數(shù)據(jù) 準(zhǔn)備要導(dǎo)出的數(shù)據(jù) customer.csv 上傳到hdfs 任意目錄 啟動(dòng)相關(guān)服務(wù) 首先保證SQO...
準(zhǔn)備工作 1.檢查各項(xiàng)服務(wù)是否已正常啟動(dòng) [x] hdfs啟動(dòng)【start-dfs.sh】 [x] yarn啟動(dòng)【start-yarn.sh】 ...