作者 |TMH_ITBOY原文| https://blog.csdn.net/LLJJYY001/article/details/113994130 前言 Hive作為大數(shù)...
作者 |TMH_ITBOY原文| https://blog.csdn.net/LLJJYY001/article/details/113994130 前言 Hive作為大數(shù)...
1、集群的最主要瓶頸 ? 磁盤(pán)IO,網(wǎng)絡(luò)帶寬 2、Hadoop運(yùn)行模式 ? 單機(jī)版、偽分布式模式、完全分布式模式 3、Hadoop生態(tài)圈的組件并做簡(jiǎn)要描述 ? 1)Zooke...
前言 在早期Hadoop剛出來(lái)的時(shí)候是沒(méi)有解決HDFS單點(diǎn)問(wèn)題的,這就意味著當(dāng)NameNode的服務(wù)器宕機(jī)了就會(huì)導(dǎo)致整個(gè)集群癱瘓,這是非常危險(xiǎn)的于是在Hadoop不斷的更新...
前言 在日常開(kāi)發(fā)過(guò)程中使用kafka來(lái)實(shí)限流削峰作用但是往往kafka會(huì)存放多份副本來(lái)防止數(shù)據(jù)丟失,那你知道他的機(jī)制是什么樣的嗎?本篇文章就帶給大家講解下。 一、Kafka...
前言 Hadoop到目前為止發(fā)展已經(jīng)有10余年,版本經(jīng)過(guò)無(wú)數(shù)次的更新迭代,目前業(yè)內(nèi)大家把Hadoop大的版本分為Hadoop1.0、Hadoop2.0、Hadoop3.0 ...
前言 最近在跟一位粉絲聊天,聊起來(lái)了做離線數(shù)倉(cāng)時(shí)該用那些技術(shù)棧。于是根據(jù)我的經(jīng)驗(yàn)和參考一些資料于就有本篇文章。在這里我會(huì)分享三個(gè)案例,僅供參考。 案例一、小型公司 首先我...
前言 在做實(shí)時(shí)數(shù)倉(cāng)時(shí),數(shù)據(jù)量往往比較大的,如果使用Canal來(lái)監(jiān)聽(tīng)MySQL的狀態(tài)當(dāng)Canal 是單節(jié)服務(wù)時(shí),服務(wù)器掛掉是就會(huì)造成數(shù)據(jù)丟失,這時(shí)Canal恰好可以配置HA這...
前言 上篇文章給大家講解了如何安裝一個(gè)Canal,以及講解了一部分的原理,今天我們就來(lái)深度聊一聊Canal的工作流程,以及他是怎么工作的,以及架構(gòu)師怎樣的。 首...
前言 當(dāng)我們做一個(gè)項(xiàng)目時(shí)往往都需要選擇該用什么技術(shù)。這一部分不是我們普通員工想的,而是架構(gòu)師會(huì)根據(jù)客戶的需求選擇出合適的技術(shù)。當(dāng)選擇合適的技術(shù)會(huì)讓我們的開(kāi)發(fā)事半功倍。下面我...
前言 我們?cè)谧鰧?shí)時(shí)數(shù)倉(cāng)時(shí)數(shù)據(jù)往往都是保存到數(shù)據(jù)庫(kù)中例如MySQL,當(dāng)有一條數(shù)據(jù)新增或修改需要馬上將數(shù)據(jù)同步到kafka中或其他的數(shù)據(jù)庫(kù)中,這時(shí)候我們需要借助阿里開(kāi)源出來(lái)的C...
前言 環(huán)境所依賴(lài)的pom文件 一、Avro提供的技術(shù)支持包括以下五個(gè)方面: 優(yōu)秀的數(shù)據(jù)結(jié)構(gòu); 一個(gè)緊湊的,快速的,二進(jìn)制數(shù)據(jù)格式; 一個(gè)容器文件,用來(lái)存儲(chǔ)持久化數(shù)據(jù); RPC...
前言 一、Fetch抓?。℉ive可以避免進(jìn)行MapReduce) Hive中對(duì)某些情況的查詢(xún)可以不必使用MapReduce計(jì)算。例如:SELECT * FROM empl...
前言 我們?cè)趯?xiě)HQL有沒(méi)有遇到過(guò)數(shù)據(jù)量特別大的時(shí)候比如,使用HQL 處理起來(lái)非常復(fù)雜,非常慢,這時(shí)候我們可以使用Hive給加個(gè)索引來(lái)提高我們的速度。多了就不說(shuō)了,我們直接開(kāi)...
前言 今天給大家分享一個(gè)面試中經(jīng)常會(huì)被問(wèn)到的拉鏈表,我在上篇文章中提出來(lái)一個(gè)需求如果不知道的請(qǐng)去→數(shù)倉(cāng)緩慢變化維深層講解[http://mp.weixin.qq.com/s...
前言 舉例說(shuō)明 一、SCD問(wèn)題的幾種解決方案 以下為解決緩慢變化維問(wèn)題的幾種辦法: 保留原始值 改寫(xiě)屬性值 增加維度新行 增加維度新列 添加歷史表 1.1 保留原始值 某一個(gè)...
前言 一、為什么要分層 分層的主要原因是在管理數(shù)據(jù)的時(shí)候,能對(duì)數(shù)據(jù)有一個(gè)更加清晰的掌控,詳細(xì)來(lái)講,主要有下面幾個(gè)原因: 清晰數(shù)據(jù)結(jié)構(gòu): 每一個(gè)數(shù)據(jù)分層都有它的作用域,這樣...
前言 今天給大家分享下數(shù)倉(cāng)中的模型設(shè)計(jì),一個(gè)好的數(shù)倉(cāng)項(xiàng)目首先看一下它的架構(gòu)以及他所用到的模型,它們使用的模型也都是非常巧妙的,好了,我們?cè)挷徽f(shuō)到直接開(kāi)始。 一、維度建?;?..
今天給大家分享一些我自己都在使用的軟件,使用這些軟件無(wú)論是工作還是學(xué)習(xí),我感覺(jué)我的工作效率提升了不知一點(diǎn)點(diǎn),好了廢話就不多說(shuō)了,喜歡的朋友加個(gè)一鍵三連。 一、IDM 下載工具...
前言 1 Flink基礎(chǔ)(適合初入職場(chǎng)) 簡(jiǎn)單介紹一下 Flink Flink相比傳統(tǒng)的Spark Streaming區(qū)別? Flink的組件棧有哪些? Flink 的運(yùn)行必...
前言 Flink Table 和 SQL 內(nèi)置了很多 SQL 中支持的函數(shù);如果有無(wú)法滿足的需要,則可以實(shí)現(xiàn)用戶自定義的函數(shù)(UDF)來(lái)解決。 一、系統(tǒng)內(nèi)置函數(shù) Flin...