機(jī)器學(xué)習(xí)高頻面試題(41道)

Q1: What’s the trade-off between bias and variance?

問題1: 什么是偏差(bias)、方差(variable)之間的均衡?

Bias 是由于你使用的學(xué)習(xí)算法過度簡單地?cái)M合結(jié)果或者錯(cuò)誤地?cái)M合結(jié)果導(dǎo)致的錯(cuò)誤。它反映的是模型在樣本上的輸出與真實(shí)值之間的誤差,即模型本身的精準(zhǔn)度,即算法本身的擬合能力。Bias 可能會導(dǎo)致模型欠擬合,使其難以具有較高的預(yù)測準(zhǔn)確性,也很難將你的知識從訓(xùn)練集推廣到測試集。

Variance 是由于你使用的學(xué)習(xí)算法過于復(fù)雜而產(chǎn)生的錯(cuò)誤。它反映的是模型每一次輸出結(jié)果與模型輸出期望之間的誤差,即模型的穩(wěn)定性。反應(yīng)預(yù)測的波動情況。Variance 過高會導(dǎo)致算法對訓(xùn)練數(shù)據(jù)的高緯度變化過于敏感,這樣會導(dǎo)致模型過度擬合數(shù)據(jù)。從而你的模型會從訓(xùn)練集里帶來太多噪音,這會對測試數(shù)據(jù)有一定的好處。

Bias-Variance 的分解,本質(zhì)上是通過在基礎(chǔ)數(shù)據(jù)集中添加偏差、方差和一點(diǎn)由噪聲引起的不可約誤差,來分解算法上的學(xué)習(xí)誤差。從本質(zhì)上講,如果你使模型更復(fù)雜并添加更多變量,你將會失去一些 Bias 但獲得一些 Variance,這就是我們所說的權(quán)衡(tradeoff)。這也是為什么我們在建模的過程中,不希望這個(gè)模型同時(shí)擁有高的偏差和方差。

image

Q2: What is the difference between supervised and unsupervised machine learning?

問題2:監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)有什么不同?

監(jiān)督學(xué)習(xí)需要train有l(wèi)abel的數(shù)據(jù)。例如,為了進(jìn)行classification(一項(xiàng)受監(jiān)督的學(xué)習(xí)任務(wù)),您需要首先標(biāo)記將用于培訓(xùn)模型的數(shù)據(jù),以便將數(shù)據(jù)分類到標(biāo)記的組中。相反的,無監(jiān)督學(xué)習(xí)不需要明確標(biāo)記數(shù)據(jù)。

Q3: How is KNN different from k-means clustering?

問題3: KNN和 k-means 聚類由什么不同?

K-Nearest Neighbors是一種監(jiān)督分類算法,而 k-means聚類是一種無監(jiān)督的聚類算法。 雖然這些機(jī)制起初可能看起來相似,但這實(shí)際上意味著為了使K-Nearest Neighbors工作,你需要標(biāo)記數(shù)據(jù),以便將未標(biāo)記的點(diǎn)分類(因此是最近鄰居部分)。 K均值聚類僅需要一組未標(biāo)記的點(diǎn)和閾值:算法將采用未標(biāo)記的點(diǎn)并逐漸學(xué)習(xí)如何通過計(jì)算不同點(diǎn)之間的距離的平均值將它們聚類成組。

這里的關(guān)鍵區(qū)別在于,KNN需要標(biāo)記點(diǎn),因此是有監(jiān)督的學(xué)習(xí),而k-means不是,因此是無監(jiān)督學(xué)習(xí)。

Q4: Explain how a ROC curve works.

問題4:解釋一下ROC曲線的原理

ROC曲線是真陽率與各種閾值下的假陽率之間的對比度的圖形表示。 它通常用作代表模型靈敏度(真陽性)與跌落之間的平衡或它將觸發(fā)誤報(bào)(假陽性)的概率。

image

Q5: Define precision and recall.

問題5:定義精度和召回率

召回(率)也稱為真陽性率:您的模型聲稱的陽性數(shù)量與整個(gè)數(shù)據(jù)中的實(shí)際陽性數(shù)量相比。 精確度也稱為陽性預(yù)測值,它衡量的是您的模型聲稱與實(shí)際聲稱的陽性數(shù)量相比的準(zhǔn)確陽性數(shù)量。 在您預(yù)測在10個(gè)蘋果的情況下有10個(gè)蘋果和5個(gè)橙子的情況下,可以更容易地想到回憶和精確度。 你有完美的召回(實(shí)際上有10個(gè)蘋果,你預(yù)測會有10個(gè)),但66.7%的精度,因?yàn)樵谀泐A(yù)測的15個(gè)事件中,只有10個(gè)(蘋果)是正確的。

Q6: What is Bayes’ Theorem? How is it useful in a machine learning context?

問題6:什么是貝葉斯定理?它在機(jī)器學(xué)習(xí)環(huán)境中如何有用?

貝葉斯定理描述了當(dāng)你不能準(zhǔn)確知悉一個(gè)事物的本質(zhì)時(shí),你可以依靠與事物特定本質(zhì)相關(guān)的事件出現(xiàn)的多少去判斷其本質(zhì)屬性的概率。 它給出了已知先驗(yàn)知識下事件的后驗(yàn)概率。

在數(shù)學(xué)上,它表示為條件樣本的真陽性率除以總體的假陽性率和條件的真陽性率之和。假設(shè)你在流感測試后有60%的機(jī)會真的感染了流感,但是在感染了流感的人中,50%的測試都是錯(cuò)誤的,總?cè)丝谥挥?%的機(jī)會感染了流感。在做了陽性測試后,你真的有60%的機(jī)會患上流感嗎?

貝葉斯定理說不,它說你有一個(gè)(0.60.05)(條件樣本的真陽性率)/(0.60.05)(條件樣本的真陽性率)+(0.5*0.95)(人群的假陽性率)= 5.94%的機(jī)會感染流感。

image

貝葉斯理論是機(jī)器學(xué)習(xí)一個(gè)分支的幕后操縱大佬,所以在你考慮要準(zhǔn)備一個(gè)機(jī)器學(xué)習(xí)的面試的時(shí)候一定不能忽略這個(gè)知識點(diǎn)。

Q7: Why is “Naive” Bayes naive?

問題7:為什么我們要稱“樸素”貝葉斯?

盡管 Naive Bayes 具有實(shí)際應(yīng)用,特別是在文本挖掘中,但它被認(rèn)為是“天真的”,因?yàn)樗僭O(shè)在實(shí)際數(shù)據(jù)中幾乎不可能看到:條件概率被計(jì)算為組件個(gè)體概率的純乘積。 這意味著特征的絕對獨(dú)立性 – 這種情況在現(xiàn)實(shí)生活中可能永遠(yuǎn)不會遇到。

正如 Quora 上一些評論者所說的那樣,Naive Bayes 分類器發(fā)現(xiàn)你喜歡泡菜和冰淇淋之后,可能會天真地推薦你一個(gè)泡菜冰淇淋。

image

Q8: Explain the difference between L1 and L2 regularization.

問題8:L1、L2正則之間有什么不同?

L2正則,對應(yīng)的是加入2范數(shù),使得對權(quán)重進(jìn)行衰減,從而達(dá)到懲罰損失函數(shù)的目的,防止模型過擬合。保留顯著減小損失函數(shù)方向上的權(quán)重,而對于那些對函數(shù)值影響不大的權(quán)重使其衰減接近于0。相當(dāng)于加入一個(gè)gaussian prior。

L1正則 對應(yīng)得失加入1范數(shù),同樣可以防止過擬合。它會產(chǎn)生更稀疏的解,即會使得部分權(quán)重變?yōu)?,達(dá)到特征選擇的效果。相當(dāng)于加入了一個(gè)laplacean prior。

image

Q9: What’s your favorite algorithm, and can you explain it to me in less than a minute?

問題9:你最喜歡的算法是什么?把它解釋一下。

這種類型的問題測試了你對如何用平衡來傳達(dá)復(fù)雜和技術(shù)上的細(xì)微差別的理解,以及快速和有效地總結(jié)的能力。確保你有選擇,確保你能簡單有效地解釋不同的算法,使一個(gè)五歲的孩子能夠掌握基礎(chǔ)知識!

Q10: What’s the difference between Type I and Type II error?

問題10:第一類誤差和第二類誤差有什么區(qū)別?

第一類誤差指的是假正率,第二類指的是假負(fù)率。簡單來說,第一類誤差意味著假設(shè)為真的情況下,作出了拒絕原假設(shè)的一種錯(cuò)誤推斷。第二類誤差意味著假設(shè)為假的情況下,做出了接受原假設(shè)的一種錯(cuò)誤判斷。

舉個(gè)例子:第一類誤差,你誤判一個(gè)男的他懷孕了。第二類誤差,你誤判了一位其實(shí)已經(jīng)懷孕的女子沒懷孕。

Q11: What’s a Fourier transform?

問題11:什么是傅立葉變換?

傅立葉變換是將一般函數(shù)分解成對稱函數(shù)疊加的一般方法?;蛘?,正如這篇更直觀的教程所說,在一杯冰沙中,我們就是這樣找到配方的。傅立葉變換找到一組循環(huán)速度、振幅和相位,以匹配任何時(shí)間信號。傅立葉變換將信號從時(shí)間域轉(zhuǎn)換為頻率域-這是從音頻信號或其他時(shí)間序列(如傳感器數(shù)據(jù))中提取特征的一種非常常見的方法。

Q12: What’s the difference between probability and likelihood?

問題12:概率和似然有什么區(qū)別?

概率和似然都是指可能性,但在統(tǒng)計(jì)學(xué)中,概率和似然有截然不同的用法。概率描述了已知參數(shù)時(shí)的隨機(jī)變量的輸出結(jié)果;似然則用來描述已知隨機(jī)變量輸出結(jié)果時(shí),未知參數(shù)的可能取值。例如,對于“一枚正反對稱的硬幣上拋十次”這種事件,我們可以問硬幣落地時(shí)十次都是正面向上的“概率”是多少;而對于“一枚硬幣上拋十次,我們則可以問,這枚硬幣正反面對稱的“似然”程度是多少。

概率(密度)表達(dá)給定θ下樣本隨機(jī)向量X=x的可能性,而似然表達(dá)了給定樣本X=x下參數(shù)θ1(相對于另外的參數(shù)θ2)為真實(shí)值的可能性。我們總是對隨機(jī)變量的取值談概率,而在非貝葉斯統(tǒng)計(jì)的角度下,參數(shù)是一個(gè)實(shí)數(shù)而非隨機(jī)變量,所以我們一般不談一個(gè)參數(shù)的概率,而說似然。

image

Q13: What is deep learning, and how does it contrast with other machine learning algorithms?

問題13:什么是深度學(xué)習(xí),它與機(jī)器學(xué)習(xí)算法之間有什么聯(lián)系?

深度學(xué)習(xí)是與神經(jīng)網(wǎng)絡(luò)有關(guān)的機(jī)器學(xué)習(xí)的一個(gè)子集:如何使用反向傳播和神經(jīng)科學(xué)中的某些原理來更精確地建模大量未標(biāo)記或半結(jié)構(gòu)化數(shù)據(jù)。從這個(gè)意義上說,深度學(xué)習(xí)是一種無監(jiān)督的學(xué)習(xí)算法,它通過使用神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)數(shù)據(jù)的表示。

Q14: What’s the difference between a generative and discriminative model?

問題14:生成模型與判別模型有什么區(qū)別?

生成模型將學(xué)習(xí)數(shù)據(jù)類別,而判別模型將簡單地學(xué)習(xí)不同類別數(shù)據(jù)之間的區(qū)別。 判別模型通常優(yōu)于分類任務(wù)的生成模型。

Q15- What cross-validation technique would you use on a time series dataset?

問題15:交叉檢驗(yàn)如何用在時(shí)間序列數(shù)據(jù)上?

與標(biāo)準(zhǔn)的k-folds 交叉檢驗(yàn)不同,數(shù)據(jù)不是隨機(jī)分布的,而是具有時(shí)序性的。如果模式出現(xiàn)在后期,模型仍然需要選擇先前時(shí)間的數(shù)據(jù),盡管前期對模式無影響。我們可以如下這么做:

fold1:training[1], test[2]

fold2:training[1 2], test[3]

fold3:training[1 2 3], test[4]

fold4:training[1 2 3 4], test[5]

fold5:training[1 2 3 4 5], test[6]

Q16- How is a decision tree pruned?

問題16:如何對決策樹進(jìn)行剪枝?

剪枝是在決策樹中,為了降低模型的復(fù)雜度,提高決策樹模型的預(yù)測精度,去除預(yù)測能力較弱的分支后所發(fā)生的現(xiàn)象。修剪可以自下而上和自上而下進(jìn)行,方法包括減少錯(cuò)誤修剪和成本復(fù)雜度修剪。

減少錯(cuò)誤修剪可能是最簡單的版本:替換每個(gè)節(jié)點(diǎn)。如果不降低預(yù)測精度,則保持修剪。雖然很簡單,但這種啟發(fā)式方法實(shí)際上非常接近于一種可以最大限度地優(yōu)化準(zhǔn)確性的方法。

image

Q17: Which is more important to you? Model accuracy, or model performance?

問題17:模型的精度和模型的性能哪個(gè)對你更重要?

這個(gè)問題測試您對機(jī)器學(xué)習(xí)模型性能細(xì)微差別的理解!機(jī)器學(xué)習(xí)面試問題往往著眼于細(xì)節(jié)。有些模型具有更高的準(zhǔn)確度,而在預(yù)測能力方面表現(xiàn)較差 — 這有什么意義?

好吧,這一切都與模型的準(zhǔn)確性僅僅是模型性能的一個(gè)子集有關(guān),在這一點(diǎn)上,有時(shí)是一個(gè)誤導(dǎo)。例如,如果你想在一個(gè)擁有數(shù)百萬樣本的海量數(shù)據(jù)集中檢測欺詐行為,那么一個(gè)更準(zhǔn)確的模型很可能會預(yù)測,如果只有極少數(shù)的案例是欺詐行為,那么根本就不會有欺詐行為。然而,對于預(yù)測模型來說,這是無用的——一個(gè)旨在發(fā)現(xiàn)聲稱根本沒有欺詐的欺詐的模型!這樣的問題可以幫助您證明您理解模型的準(zhǔn)確性并不是模型性能的全部。

Q18: What’s the F1 score? How would you use it?

問題18:什么是F1數(shù),怎么使用它?

F1分?jǐn)?shù)是衡量模型性能的指標(biāo)。它是模型精度和召回的加權(quán)平均值,結(jié)果趨向于1是最好的,結(jié)果趨向于0是最差的。你可以在分類測試中使用它,而真正的否定并不重要。

Q19: How would you handle an imbalanced dataset?

問題19:如何處理一個(gè)不平衡的數(shù)據(jù)集?

例如,當(dāng)您有一個(gè)分類測試,并且90%的數(shù)據(jù)都在一個(gè)類中時(shí),就會產(chǎn)生一個(gè)不平衡的數(shù)據(jù)集。這就導(dǎo)致了問題:如果您對其他類別的數(shù)據(jù)沒有預(yù)測能力,那么90%的精度然而可能會出現(xiàn)偏差!下面是一些克服困難的策略:

1-收集更多數(shù)據(jù),甚至數(shù)據(jù)集中的不平衡。

2-對數(shù)據(jù)集重新取樣以糾正不平衡。

3-在你的數(shù)據(jù)集中嘗試一個(gè)不同的算法。

這里重要的是,您對不平衡數(shù)據(jù)集可能造成的損害以及如何平衡具有敏銳的感知。

image

Q20: When should you use classification over regression?

問題20:什么時(shí)候你應(yīng)該使用分類而不是回歸?

分類產(chǎn)生離散值并將數(shù)據(jù)集轉(zhuǎn)換為嚴(yán)格的類別,而回歸則提供連續(xù)的結(jié)果,使您能夠更好地區(qū)分各個(gè)點(diǎn)之間的差異。如果您希望結(jié)果反映數(shù)據(jù)集中數(shù)據(jù)點(diǎn)對某些明確類別的歸屬性(例如:如果您希望知道某個(gè)名稱是男性還是女性,而不僅僅是它們與男性和女性名稱之間的關(guān)聯(lián)性),則可以使用分類而不是回歸。

Q21: Name an example where ensemble techniques might be useful.

問題21:舉個(gè)例子,說明使用集成學(xué)習(xí)會很有用。

集成學(xué)習(xí)通過組合一些基學(xué)習(xí)算法來優(yōu)化得到更好的預(yù)測性能,通??梢苑乐鼓P偷倪^擬合使模型更具有魯棒性。

你可以列舉一些集成學(xué)習(xí)的例子,如bagging、boosting、stacking等,并且了解他們是如何增加模型預(yù)測能力的。

Q22: How do you ensure you’re not overfitting with a model?

問題22:你如何確保你的模型沒有過擬合?

過度擬合的訓(xùn)練數(shù)據(jù)以及數(shù)據(jù)攜帶的噪音,對于測試數(shù)據(jù)會帶來不確定的推測。有如下三種方法避免過擬合:

1. 保持模型盡可能地簡單:通過考量較少的變量和參數(shù)來減少方差,達(dá)到數(shù)據(jù)中消除部分噪音的效果。

2. 使用交叉檢驗(yàn)的手段如:k-folds cross-validation。

3. 使用正則化的技術(shù)如:LASSO方法來懲罰模型中可能導(dǎo)致過擬合的參數(shù)。

Q23: What evaluation approaches would you work to gauge the effectiveness of a machine learning model?

問題23:如何評估你的機(jī)器學(xué)習(xí)模型的有效性?

首先你需要將數(shù)據(jù)分成訓(xùn)練集和測試集,或者使用給交叉驗(yàn)證方法分割。然后你需要選擇度量模型表現(xiàn)的metrics,如F1數(shù)、準(zhǔn)確率、混淆矩陣等。更重要的是,根據(jù)實(shí)際情況你需要理解模型度量的輕微差別,以便于選擇正確的度量標(biāo)準(zhǔn)。

Q24: How would you evaluate a logistic regression model?

問題24:如何評估一個(gè)LR model?

上述問題的一部分。你必須演示對邏輯回歸的典型目標(biāo)(分類、預(yù)測等)的理解,并提供一些示例和用例。

Q25: What’s the “kernel trick” and how is it useful?

問題25:什么是核技巧,有什么用處?

核技巧使用核函數(shù),確保在高維空間不需要明確計(jì)算點(diǎn)的坐標(biāo),而是計(jì)算數(shù)據(jù)的特征空間中的內(nèi)積。這使其具有一個(gè)很有用的屬性:更容易的計(jì)算高維空間中點(diǎn)的坐標(biāo)。許多算法都可以表示稱這樣的內(nèi)積形式,使用核技巧可以保證低維數(shù)據(jù)在高維空間中運(yùn)用算法進(jìn)行計(jì)算。

image

Q26: How do you handle missing or corrupted data in a dataset?

問題26:如何處理數(shù)據(jù)集中丟失或損壞的數(shù)據(jù)?

您可以在數(shù)據(jù)集中找到丟失/損壞的數(shù)據(jù),然后刪除這些行或列,或者決定用另一個(gè)值替換它們。

在pandas中,有兩種非常有用的方法:isNull()和dropna(),這兩種方法將幫助您查找缺少或損壞數(shù)據(jù)的數(shù)據(jù)列,并刪除這些值。如果要用占位符值(例如0)填充無效值,可以使用fillna()方法。

Q27: Do you have experience with Spark or big data tools for machine learning?

問題27:你是否有使用Spark或大數(shù)據(jù)工具進(jìn)行機(jī)器學(xué)習(xí)的經(jīng)驗(yàn)?

您需要熟悉不同公司的大數(shù)據(jù)含義以及他們想要的不同工具。Spark是目前最受歡迎的大數(shù)據(jù)工具,能夠快速處理海量數(shù)據(jù)集。老實(shí)說,如果你沒有所需工具的經(jīng)驗(yàn),同時(shí)看看工作描述,看看什么工具需要:你會想投資去熟悉它們。

Q28: Pick an algorithm. Write the ****psuedo-code for a parallel implementation.

問題28:選擇一個(gè)算法。為并行實(shí)現(xiàn)編寫psuedo代碼。

這類問題展示了您并行思考的能力,以及如何在處理大數(shù)據(jù)的編程實(shí)現(xiàn)中處理并發(fā)性。請看一下偽代碼框架(如peril-L)和可視化工具(如Web序列圖),以幫助您展示編寫反映并行性的代碼的能力。

Q29: What are some differences between a linked list and an array?

問題29:鏈表和數(shù)組之間有什么區(qū)別?

數(shù)組是有序的對象集合。 鏈表是一系列帶有指針的對象,指示如何按順序處理它們。 與鏈表不同,數(shù)組假定每個(gè)元素具有相同的大小。 鏈表可以更容易地有機(jī)增長:必須預(yù)先定義或重新定義陣列以進(jìn)行有機(jī)增長。 改組鏈接列表涉及改變哪些點(diǎn)指向哪里 – 同時(shí),改組數(shù)組更復(fù)雜并占用更多內(nèi)存。

Q30: Describe a hash table.

問題30:描述哈希表。

哈希表是一種產(chǎn)生關(guān)聯(lián)數(shù)組的數(shù)據(jù)結(jié)構(gòu)。 通過使用散列函數(shù)將鍵映射到某些值。 它們通常用于數(shù)據(jù)庫索引等任務(wù)。

image

Q31: Which data visualization libraries do you use? What are your thoughts on the best data visualization tools?

問題31:你使用哪些數(shù)據(jù)可視化庫? 你對最佳數(shù)據(jù)可視化工具有何看法?

這里重要的是定義您對如何在工具方面正確可視化數(shù)據(jù)和個(gè)人偏好的看法。 流行的工具包括R的ggplot,Python的seaborn和matplotlib,以及Plot.ly和Tableau等工具。

這些機(jī)器學(xué)習(xí)面試問題涉及如何將您的一般機(jī)器學(xué)習(xí)知識應(yīng)用于特定公司的要求。 您將被要求創(chuàng)建案例研究,并通過您的機(jī)器學(xué)習(xí)技能擴(kuò)展您所申請的公司和行業(yè)的知識。

image

Q32: How would you implement a recommendation system for our company’s users?

問題32:您如何為我們公司的用戶實(shí)施推薦系統(tǒng)?

許多這種類型的機(jī)器學(xué)習(xí)面試問題將涉及機(jī)器學(xué)習(xí)模型的實(shí)施以解決公司的問題。 您必須深入研究公司及其行業(yè),尤其是公司的收入驅(qū)動因素,以及公司在其所在行業(yè)中所采用的用戶類型。

Q33: How can we use your machine learning skills to generate revenue?

問題33:我們?nèi)绾卫媚臋C(jī)器學(xué)習(xí)技能來創(chuàng)造收入?

這是一個(gè)棘手的問題。理想的答案將證明您對推動業(yè)務(wù)發(fā)展的因素以及您的技能如何關(guān)聯(lián)的了解。例如,如果你正在面試音樂流初創(chuàng)公司Spotify,你可以說,你在開發(fā)更好的推薦模式方面的技能將增加用戶保留率,從長遠(yuǎn)來看這將增加收入。

上面鏈接的Startup Metrics Slideshare將幫助您準(zhǔn)確了解在考慮支出和成長時(shí),哪些績效指標(biāo)對初創(chuàng)技術(shù)公司是重要的。

Q34: What do you think of our current data process?

問題34:你認(rèn)為我們當(dāng)前的數(shù)據(jù)處理過程如何?

這類問題要求你認(rèn)真傾聽,并以富有建設(shè)性和洞察力的方式傳達(dá)反饋。 你的面試官正在試圖判斷您是否是他們團(tuán)隊(duì)中的重要成員,以及你是否根據(jù)公司或行業(yè)特定條件,掌握了為什么某些事情按照公司數(shù)據(jù)流程的方式設(shè)置的細(xì)微差別。 他們試圖看看你是否可以成為有見地同行。 隨行而動。

這一系列的機(jī)器學(xué)習(xí)面試問題試圖衡量你對機(jī)器學(xué)習(xí)的熱情和興趣。正確的答案將作為你承諾終身學(xué)習(xí)機(jī)器學(xué)習(xí)的證明。

image

Q35: What are the last machine learning papers you’ve read?

問題35:你讀過的最后一篇機(jī)器學(xué)習(xí)論文是什么?

如果你想表現(xiàn)出對機(jī)器學(xué)習(xí)職位的興趣,就必須掌握最新的機(jī)器學(xué)習(xí)科學(xué)文獻(xiàn)。這篇深入學(xué)習(xí)的后代(從Hinton到Bengio再到LeCun)對自然的深入學(xué)習(xí)的概述可以是一篇很好的參考論文,也可以是一篇深入學(xué)習(xí)中正在發(fā)生的事情的概述,以及你可能想引用的那種論文。

Q36: Do you have research experience in machine learning?

問題36:你在機(jī)器學(xué)習(xí)方面有研究經(jīng)驗(yàn)嗎?

與最后一點(diǎn)相關(guān)的是,大多數(shù)為機(jī)器學(xué)習(xí)職位招聘的組織都會尋找你在該領(lǐng)域的正式經(jīng)驗(yàn)。由該領(lǐng)域的先行者共同撰寫或監(jiān)督的研究論文,可以使你在被雇傭和不被雇傭之間產(chǎn)生差異。確保你已經(jīng)準(zhǔn)備好了一份關(guān)于你的研究經(jīng)驗(yàn)和論文的總結(jié),如果你不準(zhǔn)備的話,還要對你的背景和缺乏正式研究經(jīng)驗(yàn)做出解釋。

Q37: What are your favorite use cases of machine learning models?

問題37:你最喜歡的機(jī)器學(xué)習(xí)模型的用例是什么?

這里我們拿 Quora 上面的一個(gè)帖子為例,帖子在這里:https://bit.ly/2MGYyQY

上面的 Quora 帖子里包含一些示例,例如決策樹,它根據(jù)智商分?jǐn)?shù)將人們分類為不同的智力層次。確保你心里有幾個(gè)例子,并描述與你產(chǎn)生共鳴的地方。重要的是你要對機(jī)器學(xué)習(xí)的實(shí)現(xiàn)方式表現(xiàn)出興趣。

Q38:How would you approach the “Netflix Prize” competition?

問題38:你想以什么方式贏得“Netflix獎”比賽?

Netflix獎是一項(xiàng)著名的競賽,Netflix提供了 $1,000,000的獎金,以獲得更好的協(xié)同過濾算法(collaborative filtering algorithm)。關(guān)于這個(gè)比賽的最后贏家, BellKor;他們讓這個(gè)算法效率提升百分之十,并且給出了多種解法。多了解這些行業(yè)相關(guān)的 Case 并且和你面試官侃侃而談能夠體現(xiàn)你對于機(jī)器學(xué)習(xí)這個(gè)領(lǐng)域的關(guān)注

Q39: Where do you usually source datasets?

問題39:您通常在哪里尋找數(shù)據(jù)集?

像這樣的機(jī)器學(xué)習(xí)面試問題試圖讓你了解機(jī)器學(xué)習(xí)興趣的核心。 真正熱衷于機(jī)器學(xué)習(xí)的人將會獨(dú)自完成側(cè)面項(xiàng)目,并且很清楚那些偉大的數(shù)據(jù)集是什么。 如果您遺失任何內(nèi)容,請查看 Quandl 獲取的經(jīng)濟(jì)和財(cái)務(wù)數(shù)據(jù),以及 Kaggle 的數(shù)據(jù)集集合,以獲取其他優(yōu)秀列表。

Q40: How do you think Google is training data for self-driving cars?

問題40:你認(rèn)為谷歌是如何為自動駕駛汽車提供培訓(xùn)數(shù)據(jù)的?

像這樣的機(jī)器學(xué)習(xí)面試問題確實(shí)測試了你對不同機(jī)器學(xué)習(xí)方法的知識,如果你不知道答案,你的創(chuàng)造力。谷歌目前正在使用 recaptcha 來獲取店面和交通標(biāo)志上的標(biāo)簽數(shù)據(jù)。他們還建立在由Sebastian Thrun在谷歌(Googlex)收集的培訓(xùn)數(shù)據(jù)的基礎(chǔ)上 — 其中一些數(shù)據(jù)是由他在沙漠沙丘上駕駛馬車的研究生獲得的!

Q41: How would you simulate the approach AlphaGo took to beat Lee Sedol at Go?

問題41:你將如何模擬阿爾法戈在圍棋中****擊敗李世乭的****方法?

在五個(gè)系列賽中,阿爾法戈擊敗了圍棋中最優(yōu)秀的人類選手李思多,這是機(jī)器學(xué)習(xí)和深度學(xué)習(xí)史上一個(gè)真正具有開創(chuàng)性的事件。上面的 Nature 論文描述了這是如何通過“蒙特卡洛樹搜索(Monte Carlo Tree Search)和深神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks)來實(shí)現(xiàn)的,這些神經(jīng)網(wǎng)絡(luò)經(jīng)過有監(jiān)督的學(xué)習(xí)、人類專家游戲和加強(qiáng)自玩游戲的學(xué)習(xí)?!?/p>

看完這篇文章,你是不是覺得自己在機(jī)器學(xué)習(xí)的道理上可以走的更順暢了呢

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容