上一篇文章我們總結(jié)了10個(gè)大數(shù)據(jù)面試入門級(jí)問題,大家是否有收獲,本次我們分析的是10個(gè)已經(jīng)在大數(shù)據(jù)行業(yè)工作的老司機(jī)們面試時(shí)的問題及建議答案,話不多說,趕緊開始今天的學(xué)習(xí)。

基于大數(shù)據(jù)已從業(yè)者的面試問題
如果您在大數(shù)據(jù)世界中有相當(dāng)豐富的工作經(jīng)驗(yàn),那么根據(jù)您以前的經(jīng)驗(yàn),您將在大數(shù)據(jù)面試中被問到一些問題。這些問題可能與您的經(jīng)驗(yàn)或基于場(chǎng)景有關(guān)。所以,準(zhǔn)備好這些最好的大數(shù)據(jù)面試問題和答案 。
11.您有大數(shù)據(jù)經(jīng)驗(yàn)嗎?如果有,請(qǐng)分享一下。
如何處理:??問題沒有具體答案,因?yàn)檫@是一個(gè)主觀問題,答案取決于您以前的經(jīng)驗(yàn)。在大數(shù)據(jù)訪談期間詢問這個(gè)問題,面試官想要了解您以前的經(jīng)驗(yàn),并且還試圖評(píng)估您是否適合項(xiàng)目要求。
那么,你將如何處理這個(gè)問題呢?如果您有以前的經(jīng)驗(yàn),請(qǐng)?jiān)谶^去的職位上開始履行職責(zé),并慢慢向?qū)υ捥砑釉敿?xì)信息。告訴他們您使項(xiàng)目成功的貢獻(xiàn)。一般來說,這個(gè)問題是在面試中提出的第二或第三個(gè)問題。后面的問題是基于這個(gè)問題,所以請(qǐng)仔細(xì)回答。您還應(yīng)該注意不要過度使用以前工作的一個(gè)方面。保持簡(jiǎn)單和重點(diǎn)。
12.您更喜歡好的數(shù)據(jù)還是好的模型?為什么?
如何處理:?這是一個(gè)棘手的問題,但通常在大數(shù)據(jù)面試中被問到。它要求您在好的數(shù)據(jù)或好的模型之間進(jìn)行選擇。作為候選人,您應(yīng)該嘗試根據(jù)自己的經(jīng)驗(yàn)回答這個(gè)問題。許多公司希望遵循嚴(yán)格的數(shù)據(jù)評(píng)估流程,這意味著他們已經(jīng)選擇了數(shù)據(jù)模型。在這種情況下,擁有良好的數(shù)據(jù)可能會(huì)改變游戲規(guī)則。另一種方式也適用于基于良好數(shù)據(jù)選擇的模型。
正如我們已經(jīng)提到的,請(qǐng)根據(jù)您的經(jīng)驗(yàn)回答。但是,不要說擁有良好的數(shù)據(jù)和良好的模型很重要,因?yàn)樵诂F(xiàn)實(shí)生活中很難同時(shí)擁有這兩個(gè)數(shù)據(jù)。
13.您是否會(huì)優(yōu)化算法或代碼以使其運(yùn)行更快?
如何處理:?這個(gè)問題的答案應(yīng)該始終是“是”。真實(shí)世界的性能很重要,它不依賴于您在項(xiàng)目中使用的數(shù)據(jù)或模型。
面試官可能也有興趣知道您是否有任何以前的代碼或算法優(yōu)化經(jīng)驗(yàn)。對(duì)于初學(xué)者來說,這顯然取決于他過去從事過哪些項(xiàng)目。有經(jīng)驗(yàn)的候選人也可以相應(yīng)地分享他們的經(jīng)驗(yàn)。但是,請(qǐng)誠(chéng)實(shí)地對(duì)待您的工作,如果您過去沒有優(yōu)化代碼,那就沒關(guān)系了。只需讓面試官了解您的真實(shí)體驗(yàn),您就可以破解大數(shù)據(jù)訪談。
14.您如何處理數(shù)據(jù)準(zhǔn)備?
如何處理:?數(shù)據(jù)準(zhǔn)備是大數(shù)據(jù)項(xiàng)目的關(guān)鍵步驟之一。大數(shù)據(jù)訪談可能涉及至少一個(gè)基于數(shù)據(jù)準(zhǔn)備的問題。當(dāng)面試官問你這個(gè)問題時(shí),他想知道你在數(shù)據(jù)準(zhǔn)備過程中采取了哪些步驟或預(yù)防措施。
如您所知,需要數(shù)據(jù)準(zhǔn)備才能獲得必要的數(shù)據(jù),然后可以進(jìn)一步用于建模目的。你應(yīng)該把這個(gè)消息傳達(dá)給面試官。您還應(yīng)該強(qiáng)調(diào)要使用的模型類型以及選擇特定模型的原因。最后,但并非最不重要,您還應(yīng)該討論重要的數(shù)據(jù)準(zhǔn)備術(shù)語,如轉(zhuǎn)換變量,異常值,非結(jié)構(gòu)化數(shù)據(jù),識(shí)別差距等。
15.您如何將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)?
如何處理:?非結(jié)構(gòu)化數(shù)據(jù)在大數(shù)據(jù)中非常常見。應(yīng)將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),以確保正確的數(shù)據(jù)分析。您可以通過簡(jiǎn)要區(qū)分兩者來開始回答問題。完成后,您現(xiàn)在可以討論用于將一個(gè)表單轉(zhuǎn)換為另一個(gè)表單的方法。您也可以分享您所做的真實(shí)情況。如果您最近剛畢業(yè),那么您可以分享與您的學(xué)術(shù)項(xiàng)目相關(guān)的信息。
通過正確回答這個(gè)問題,您發(fā)出信號(hào)表明您了解結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的類型,并且具有使用這些數(shù)據(jù)的實(shí)踐經(jīng)驗(yàn)。如果你具體回答這個(gè)問題,你肯定能夠破解大數(shù)據(jù)訪談。
16.哪種硬件配置對(duì)Hadoop作業(yè)最有利?
配置4/8 GB RAM和ECC內(nèi)存的雙處理器或核心機(jī)器是運(yùn)行Hadoop操作的理想選擇。但是,硬件配置因項(xiàng)目特定的工作流程和流程而異,因此需要進(jìn)行自定義。
17.當(dāng)兩個(gè)用戶嘗試訪問HDFS中的同一文件時(shí)會(huì)發(fā)生什么?
HDFS NameNode支持獨(dú)占只寫。因此,只有第一個(gè)用戶將收到文件訪問權(quán)限,第二個(gè)用戶將被拒絕。
18.如何在NameNode關(guān)閉時(shí)恢復(fù)它?
需要執(zhí)行以下步驟才能啟動(dòng)并運(yùn)行Hadoop集群:
使用文件系統(tǒng)元數(shù)據(jù)副本的FsImage啟動(dòng)新的NameNode。?
配置DataNode以及客戶端以使它們確認(rèn)新啟動(dòng)的NameNode。
一旦新的NameNode完成加載從DataNode收到足夠塊報(bào)告的最后一個(gè)檢查點(diǎn)FsImage,它將開始為客戶端提供服務(wù)。?
在大型Hadoop集群的情況下,NameNode恢復(fù)過程會(huì)消耗大量時(shí)間,這在日常維護(hù)的情況下將成為更大的挑戰(zhàn)。
19.您對(duì)Hadoop中的Rack Awareness有何了解?
它是一種應(yīng)用于NameNode的算法,用于決定塊及其副本的放置方式。根據(jù)機(jī)架定義,同一機(jī)架內(nèi)的DataNode之間的網(wǎng)絡(luò)流量最小化。例如,如果我們將復(fù)制因子視為3,則將兩個(gè)副本放在一個(gè)機(jī)架上,而將第三個(gè)副本放在單獨(dú)的機(jī)架中。
20.“HDFS Block”和“Input Split”有什么區(qū)別?
HDFS將輸入數(shù)據(jù)物理地劃分為用于處理的塊,這被稱為HDFS塊。
輸入拆分是映射器用于映射操作的邏輯數(shù)據(jù)劃分。
下集預(yù)告:干貨|50個(gè)大數(shù)據(jù)面試問題及答案第三篇:10個(gè)大數(shù)據(jù)Hadoop面試問題