一.Spark架構(gòu) 1.Spark架構(gòu)中的組件 2.spark架構(gòu)揭示了spark的具體流程如下: 二.RDD 1.Spark彈性數(shù)據(jù)集RDD有...
一.Hadoop 1.Hadoop 主要有以下幾個(gè)優(yōu)點(diǎn) 二.HDFS 1.HDFS架構(gòu) 2.Block 3.HDFS的特點(diǎn) (1)優(yōu)點(diǎn) (2)劣...
原博客地址 一.十道海量數(shù)據(jù)處理面試題: 1、海量日志數(shù)據(jù),提取出某日訪問百度次數(shù)最多的那個(gè)IP。 算法思想:分而治之+Hash 2.假設(shè)目前有...
原博客地址 目錄一.雙層桶劃分二.Bloom Filter/Bitmap三Trie樹/數(shù)據(jù)庫/倒排索引四.外排序五.分布式處理之MapReduc...
原博客地址 一.分而治之/Hash映射 + Hash統(tǒng)計(jì) + 堆/快速/歸并排序 0.針對(duì)海量數(shù)據(jù)處理如何著手 分而治之/hash映射 + ha...
簡(jiǎn)述 hadoop 怎么樣實(shí)現(xiàn)二級(jí)排序? 在Reduce階段,先對(duì)Key排序,再對(duì)Value排序最常用的方法是將Value放到Key中,實(shí)現(xiàn)一個(gè)...
jps命令的用處? 這個(gè)命令可以檢查Namenode、Datanode、Task Tracker、 Job Tracker是否正常工作 請(qǐng)列出你...
目錄1.flume 不采集 Nginx 日志,通過 Logger4j 采集日志,優(yōu)缺點(diǎn)是什么?2.flume 和 kafka 采集日志區(qū)別,采集...
目錄1.寫出你對(duì)zookeeper的理解 1.寫出你對(duì)zookeeper的理解 隨著大數(shù)據(jù)的快速發(fā)展,多機(jī)器的協(xié)調(diào)工作,避免主要機(jī)器單點(diǎn)故障的問...