數(shù)據(jù)整合是吧在不同數(shù)據(jù)源的數(shù)據(jù)收集、整理、清洗、轉(zhuǎn)換(有點(diǎn)像ETL)后,加載到一個(gè)新的數(shù)據(jù)源,為數(shù)據(jù)使用者提供統(tǒng)一數(shù)據(jù)視圖的數(shù)據(jù)集成方式。
數(shù)據(jù)整合
數(shù)據(jù)整合是共享或者合并來自于兩個(gè)或者更多應(yīng)用的數(shù)據(jù),創(chuàng)建一個(gè)具有更多功能的企業(yè)應(yīng)用的過程。傳統(tǒng)的商業(yè)應(yīng)用有很強(qiáng)的面向?qū)ο笮浴此麄円揽砍掷m(xù)的數(shù)據(jù)結(jié)構(gòu)為商業(yè)實(shí)體和過程建模。當(dāng)這種情況發(fā)生時(shí),邏輯方式是通過數(shù)據(jù)共享或合并進(jìn)行整合,而其他情況下,來自于一個(gè)應(yīng)用的數(shù)據(jù)可能是重新構(gòu)造才能和另一個(gè)應(yīng)用的數(shù)據(jù)結(jié)構(gòu)匹配,然后被直接寫進(jìn)另一個(gè)數(shù)據(jù)庫。
下面我們將介紹一個(gè)目前比較成熟穩(wěn)定的數(shù)據(jù)整合工具:Kettle
Kettle 介紹
Kettle是一款國外開源的ETL工具,純java編寫,可以在Window、Linux、Unix上運(yùn)行,綠色無需安裝,數(shù)據(jù)抽取高效穩(wěn)定。
Kettle 中文名稱叫水壺,該項(xiàng)目的主程序員MATT 希望把各種數(shù)據(jù)放到一個(gè)壺里,然后以一種指定的格式流出。
Kettle這個(gè)ETL工具集,它允許你管理來自不同數(shù)據(jù)庫的數(shù)據(jù),通過提供一個(gè)圖形化的用戶環(huán)境來描述你想做什么,而不是你想怎么做。
Kettle中有兩種腳本文件,transformation和job,transformation完成針對數(shù)據(jù)的基礎(chǔ)轉(zhuǎn)換,job則完成整個(gè)工作流的控制。
Kettle目前包含五個(gè)產(chǎn)品:Spoon、Pan、Chef、Kithcen、Encr。
SPOON: 是一個(gè)圖形用戶界面,允許你通過圖形界面來設(shè)計(jì)ETL轉(zhuǎn)換過程(Transformation)和任務(wù)。
PAN: 轉(zhuǎn)換(trasform)執(zhí)行器;允許你批量運(yùn)行由Spoon設(shè)計(jì)的ETL轉(zhuǎn)換 (如使用一個(gè)時(shí)間調(diào)度器)。Pan是一個(gè)后臺執(zhí)行的程序,沒有圖形界面。
CHEF: 允許你創(chuàng)建任務(wù)(Job)。 任務(wù)通過允許每個(gè)轉(zhuǎn)換,任務(wù),腳本等等,更有利于自動化更新數(shù)據(jù)倉庫的復(fù)雜工作。任務(wù)通過允許每個(gè)轉(zhuǎn)換,任務(wù),腳本等等。任務(wù)將會被檢查,看看是否正確地運(yùn)行了。
KITHCEN: 作業(yè)(job)執(zhí)行器;允許你批量使用由Chef設(shè)計(jì)的任務(wù) (如使用一個(gè)時(shí)間調(diào)度器)。KITCHEN也是一個(gè)后臺運(yùn)行的程序。
ENCR: 用來加密連接數(shù)據(jù)庫密碼與集群時(shí)使用的密碼
Kettle 下載和部署
1、我們可以進(jìn)入 Kettle官網(wǎng) 進(jìn)行下載,進(jìn)入之后,下拉頁面,看到如圖所示;

查看所有版本,我們可以看到最新版本以及所有舊版本的Kettle

此處選擇7.1版本

2、Kettle 環(huán)境配置
由于Kettle是使用Java語言編寫的,所有Kettel的運(yùn)行需要有Java環(huán)境,安裝JDK,請參考:Linux環(huán)境下JDK安裝和配置 和 Windows環(huán)境下JDK安裝和配置
3、運(yùn)行Kettle
進(jìn)入到Kettle目錄,如果Kettle部署在windows環(huán)境雙擊Spoon.bat文件啟動Kettle,如果是在Linux環(huán)境下,則運(yùn)行spoon.sh文件啟動。出現(xiàn)如下界面,則我們的Kettle就安裝成功了。


至此,Kettle的下載、環(huán)境配置和安裝就基本完成了。