一、Sqoop(SQL to Hadoop)簡介
???????Sqoop是Hadoop和關(guān)系數(shù)據(jù)庫服務(wù)器之間傳送數(shù)據(jù)的一種工具。它是用來從關(guān)系數(shù)據(jù)庫如:MySQL,Oracle到Hadoop的HDFS,并從Hadoop的文件系統(tǒng)導(dǎo)出數(shù)據(jù)到關(guān)系數(shù)據(jù)庫。
二、Sqoop是怎么樣工作的?
下圖描述了Sqoop的工作流程:

sqoop工作流程.jpg
三、Sqoop導(dǎo)入
???????導(dǎo)入工具從RDBMS到HDFS導(dǎo)入單個表。表中的每一行被視為HDFS的記錄。所有記錄被存儲在文本文件的文本數(shù)據(jù)或者在Avro和序列文件的二進(jìn)制數(shù)據(jù)。
四、Sqoop導(dǎo)出
???????導(dǎo)出工具從HDFS導(dǎo)出一組文件到一個RDBMS。作為輸入到Sqoop文件包含記錄,這被稱為在表中的行。那些被讀取并解析成一組記錄和分隔使用用戶指定的分隔符。