ORC文件--包含snappy、zlib兩種壓縮格式,不需要配置compress參數(shù) CREATE EXTERNAL TABLE tbl_orc_snappy_comma(s...
ORC文件--包含snappy、zlib兩種壓縮格式,不需要配置compress參數(shù) CREATE EXTERNAL TABLE tbl_orc_snappy_comma(s...
hadoop core-site.xml 中通常有核心的配置項(xiàng),比如: 如圖,當(dāng)resources目錄下添加了Hadoop core-site.xml 且包含配置項(xiàng)“fs.d...
通用轉(zhuǎn)換 針對(duì)通用的轉(zhuǎn)換,如加密等很多表同步都使用到的,可以加入插件??梢詤⒖糲om.alibaba.datax.core.transport.transformer下面的插...
一、Kafka 是什么? Apache Kafka 本質(zhì)上是一種消息中間件,用來可靠傳遞消息事件,用來管理消息隊(duì)列(Message Queue),具有如下特點(diǎn): 分布式的,支...
一、Redis 管道技術(shù) 1.1 背景 想象一下,現(xiàn)在需要向 Redis 中添加大量的 KV 對(duì),可以通過直接調(diào)用大量的 set 命令來完成,比如: 然而這種方法存在一個(gè)問題...
有時(shí)在 hive 中創(chuàng)建表之后,在查看表結(jié)構(gòu)(describe TABLE_NAME)或者建表語句(show create table TABLE_NAME)時(shí)會(huì)遇到注釋中的...
在對(duì)RDDPair(一種特殊的 RDD,即RDD[(key, Row)])進(jìn)行操作時(shí)經(jīng)常會(huì)用到 reduceByKey() 和 groupByKey() 兩個(gè)算子。下面看看兩...
https://www.cnblogs.com/laowangc/p/8949850.html 一、HDFS讀取文件流程: 詳解讀取流程: Client調(diào)用FileSyste...
今年 Flink 火的一塌糊涂,一些大廠比如阿里巴巴也都開始使用 Flink 構(gòu)建實(shí)時(shí)數(shù)據(jù)倉(cāng)庫。 一、什么是 Flink ? 1.1 批處理和流處理 數(shù)據(jù)集分為有界數(shù)據(jù)集和無...
Flink V1.9 官方中文文檔地址:https://ci.apache.org/projects/flink/flink-docs-release-1.9/zh/。 一、...