1、數(shù)據(jù)倉庫的輸入數(shù)據(jù)源和輸出系統(tǒng)分別是什么? 輸入系統(tǒng):埋點產(chǎn)生的用戶行為數(shù)據(jù)、JavaEE后臺產(chǎn)生的業(yè)務(wù)數(shù)據(jù)、個別公司有爬蟲數(shù)據(jù)。 輸出系統(tǒng):報表系統(tǒng)、用戶畫像系統(tǒng)、推薦...
1、數(shù)據(jù)倉庫的輸入數(shù)據(jù)源和輸出系統(tǒng)分別是什么? 輸入系統(tǒng):埋點產(chǎn)生的用戶行為數(shù)據(jù)、JavaEE后臺產(chǎn)生的業(yè)務(wù)數(shù)據(jù)、個別公司有爬蟲數(shù)據(jù)。 輸出系統(tǒng):報表系統(tǒng)、用戶畫像系統(tǒng)、推薦...
1、什么是Hive,為什么要用Hive,你是如何理解Hive? Hive是基于Hadoop的一個數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供類SQL查詢功能...
一、基礎(chǔ)摸底 1、你們Kafka集群的硬盤一共多大?有多少臺機器?日志保存多久?用什么監(jiān)控的? 這里考察應(yīng)試者對kafka實際生產(chǎn)部署的能力,也是為了驗證能力的真實程度,如果...
1、你是怎么理解Spark,它的特點是什么? Spark是一個基于內(nèi)存的,用于大規(guī)模數(shù)據(jù)處理(離線計算、實時計算、快速查詢(交互式查詢))的統(tǒng)一分析引擎。 它內(nèi)部的組成模塊,...
1、什么是Hadoop? Hadoop是一個能夠?qū)Υ罅繑?shù)據(jù)進行分布式處理的軟件框架。以一種可靠、高效、可伸縮的方式進行數(shù)據(jù)處理。主要包括三部分內(nèi)容:Hdfs,MapReduc...