XX公司大數(shù)據(jù)筆試題(A)

XX公司大數(shù)據(jù)筆試題(A)

  1. 大數(shù)據(jù)基礎(chǔ)(HDFS/Hbase/Hive/Spark〉
    1.1. 對出Hadoop集群典型的配置文件名稱,并說明各配置文件的用途。
    1.2 怎么往HDFS上傳文件和目錄,并指定被上傳文件再HDFS上存儲塊大小為4MB?怎么限制被上傳的文件只允許本賬號(假定賬號為user1)可讀寫? 假定要新增賬號user2?對上傳文件可讀,怎么設(shè)置?
    1.3 什么是Hbase Namespace?寫出命令,創(chuàng)建hbase namespace “jk”,并創(chuàng)建表“user2”對上傳文件可讀,怎么設(shè)置?
    1.4 簡單說明HBase出現(xiàn)熱點的原因,給出避免熱點的方法(盡量多舉例)。
    1.5 請說明 Hive 中 Sort By,Order By,Cluster By,Distrbute By 各代表什么意思
    1.6 寫出 HQL 語句,將zz.20170101.tog 文件放入 hive 中 access 表 ‘20170101’ 分區(qū),access的分區(qū)字段是eventday。
    1.7 Hadoop MapReduce和Spark的都是并行計算,有什么相同和區(qū)別?
    1.8 簡單說一下Spark的shuffle過程。
    1.9 什么是數(shù)據(jù)傾斜?如何解決?
  2. 腳本能力
    寫一段程序(Shell或Python),將指定本地目錄/data/log/nginx (包括子目錄)文件傳到指定HDFS目錄/apps/logs/nginx,且只傳輸變化的文件(包括新增文件、文件大小發(fā)生變化的文件)
  3. Spark 編程
    在 HDFS 目錄"/data/log/nginx/2017010"下,存放著多個日志文件 access.0.log, access.1.log,…, access.23.log
    日志文件內(nèi)每一行的格式:來源IP地址,HTTP Request,如下表所示: f-J
    11.1.2.3,POST /appl/index.html
    123.3.56/GET/app2/user?id=3
    23.3.3,POST /appl/submitorder
    其中request的格式為HTTP Method + URL, URL的第一個分段為應(yīng)用名,如app1, app2, app3,…,要求:
    1)寫出spark程序統(tǒng)計各應(yīng)用的的PV和UV(基于IP去重)
    2)要求先將日志文件加載到RDD進(jìn)行處理,然后轉(zhuǎn)換為DataFrame,最后用SparkSQL 統(tǒng)計出上述結(jié)果
  1. Spark可以用java,python或Scala,程序書寫需要完整,符合編程規(guī)范
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • Zookeeper用于集群主備切換。 YARN讓集群具備更好的擴展性。 Spark沒有存儲能力。 Spark的Ma...
    Yobhel閱讀 7,602評論 0 34
  • 【什么是大數(shù)據(jù)、大數(shù)據(jù)技術(shù)】 大數(shù)據(jù),又稱巨量資料,指的是所涉及的數(shù)據(jù)資料量規(guī)模巨大到無法在合理時間內(nèi)通過傳統(tǒng)的應(yīng)...
    kimibob閱讀 2,901評論 0 51
  • 一.簡述如何安裝配置apache 的一個開源的hadoop 1.使用root賬戶登陸 2.修改ip 3.修改hos...
    梔子花_ef39閱讀 5,068評論 0 52
  • 人的一生當(dāng)中會有很多道色彩,每一道色彩必定會有一段它的專屬故事。而我也有屬于我的五彩故事。 我最喜歡的顏色是藍(lán)色,...
    慧覺_1d37閱讀 297評論 1 4
  • 希望,今后能以一朵花的姿態(tài)行走世間,穿越季節(jié)的輪回,在無聲中不頹廢,不失色,花開成景,花落成詩。 有些事,有些人,...
    鄭馨馳閱讀 513評論 3 19

友情鏈接更多精彩內(nèi)容