1、數(shù)據(jù)倉庫的輸入數(shù)據(jù)源和輸出系統(tǒng)分別是什么? 輸入系統(tǒng):埋點(diǎn)產(chǎn)生的用戶行為數(shù)據(jù)、JavaEE后臺產(chǎn)生的業(yè)務(wù)數(shù)據(jù)、個別公司有爬蟲數(shù)據(jù)。 輸出系統(tǒng)...
每天集群運(yùn)行多少指標(biāo)? 每天跑100多個指標(biāo),有活動時跑200個左右。 任務(wù)掛了怎么辦? 1)運(yùn)行成功或者失敗都會發(fā)郵件、發(fā)釘釘、集成自動打電話...
Sqoop導(dǎo)入導(dǎo)出Null存儲一致性問題 Hive中的Null在底層是以“\N”來存儲,而MySQL中的Null在底層就是Null,為了保證數(shù)據(jù)...
1、什么是Hive,為什么要用Hive,你是如何理解Hive? Hive是基于Hadoop的一個數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)...
1、常用命令 ls、get、create、delete 2、選舉機(jī)制 半數(shù)機(jī)制:集群中半數(shù)以上機(jī)器存活,集群可用。所以Zookeeper適合安裝...
一、基礎(chǔ)摸底 1、你們Kafka集群的硬盤一共多大?有多少臺機(jī)器?日志保存多久?用什么監(jiān)控的? 這里考察應(yīng)試者對kafka實(shí)際生產(chǎn)部署的能力,也...
1、你是怎么理解Spark,它的特點(diǎn)是什么? Spark是一個基于內(nèi)存的,用于大規(guī)模數(shù)據(jù)處理(離線計算、實(shí)時計算、快速查詢(交互式查詢))的統(tǒng)一...
1、什么是Hadoop? Hadoop是一個能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架。以一種可靠、高效、可伸縮的方式進(jìn)行數(shù)據(jù)處理。主要包括三部分內(nèi)...