從今年3月份暑期實習(xí)到秋招一直投的算法崗(數(shù)據(jù)挖掘、機器學(xué)習(xí)),今年聽說投算法的人特別多,競爭激烈,自己之前本來想去金融,后來覺得還是喜歡互聯(lián)網(wǎng),從去年11月才開始好好看書,又不是CS科班出身,所以面試毫無優(yōu)勢可言?;旧习汛蟀雮€互聯(lián)網(wǎng)公司都面了一遍,雖然掛的太多,但面試官水平都很高,面試中也學(xué)到了很多東西,認識到很多地方不足,要學(xué)的東西太多。我自己做過的項目主要是推薦系統(tǒng)和nlp,圖像了解過一點,所有面試主要還是圍繞項目展開。有的時間太久,細節(jié)想不起來了,想起來再慢慢更新,把不知道的知識點補上。
面試主要考察點:
項目+機器學(xué)習(xí)(深度學(xué)習(xí))基礎(chǔ)+數(shù)據(jù)結(jié)構(gòu)與算法+開放題+智力題(偶爾有)
攜程(實習(xí)):
1.講項目
2.寫一下LR損失函數(shù)
3.SQL題,很簡單,但當(dāng)時沒想出來…
4.GBDT、xgboost用過嗎,解釋一下
5.距離公式有哪些(余弦距離等)
6.特征怎么選擇
7.隨機森林
8.二階的優(yōu)化算法知道嗎,講一下BFGS
9.有沒有做指數(shù)衰減
滴滴(實習(xí)+校招):
過完年回來,參加映像最深刻的實習(xí)面試,全程3小時,其實問的很基礎(chǔ),但是自己沒有好好準(zhǔn)備,很多基礎(chǔ)掌握不牢。
1.講項目
2.SQL:left join、inner join區(qū)別,寫了一道題
3.SVM是什么、核函數(shù)有哪些、怎么選擇
4.LR損失函數(shù)推導(dǎo)一下
5.隨機森林、Adboost
6.AUC、ROC、recall、precision寫公式,AUC的直觀解釋
7.CNN的卷積公式
8.損失函數(shù)不可導(dǎo),梯度下降法怎么辦?(次梯度?)
9.Python中l(wèi)ist和tuple的區(qū)別
10.正負樣本不平衡怎么辦
11.決策樹怎么剪枝
12.問了些數(shù)據(jù)結(jié)構(gòu)
校招:
1.寫個快排、改進、find(s,p),寫了4道代碼題
2.200G日志用筆記本找Top100的query
3.解釋一下xgboost
4.項目中用到了哪些特征
5.寫代碼:二分查找、實現(xiàn)一個棧(查找、刪除、插入等操作)
6.DNN和CNN有哪些區(qū)別,CNN有哪些優(yōu)點
7.LR和SVM各自有什么優(yōu)點和缺點
阿里(實習(xí)+校招)
內(nèi)推的螞蟻的風(fēng)控部門
一面:
1.7月底就打了電話,主要是講項目,然后針對項目提了很多問題,面試官水平很高
2.數(shù)據(jù)樣本構(gòu)造、樣本選取
3.講了word2vec以及怎么應(yīng)用
4.看過什么前沿的論文,怎么運用
5.垃圾評論檢測
二面(掛):
1.文本相似度計算為什么不用SVD…
2.了解哪些優(yōu)化算法
3.為什么用wide and deep,不用lr+dnn集成學(xué)習(xí)
騰訊(實習(xí)+校招)
實習(xí)做了筆試,邀請到酒店面試,是一個小哥,很和藹
1.自我介紹,講了一個項目
2.Xgboost、隨機森林的區(qū)別,xgboost怎么并行,樹個數(shù)和深度怎么選擇
3.L1、L2正則化的區(qū)別,為什么L1得到稀疏解
4.解釋一下SGD、drop_out、神經(jīng)網(wǎng)絡(luò)的BN層
5.代碼題:最大子序列的乘積
6.了解分布式計算,并行計算嗎
(第二天查了狀態(tài)是復(fù)試中,但到最后也沒收到復(fù)試通知,最后一天查狀態(tài)掛了…)
秋招內(nèi)推,騰訊游戲的部門
一面(視頻面,全程寫代碼)
1.寫LR公式
2.DNN前向傳播、反向傳播,求梯度
3.實現(xiàn)一下shuffle函數(shù)
4.了解強化學(xué)習(xí)嗎(不了解)
二面(掛):
1.講項目
2.K-means、隨機森林、DNN怎么調(diào)參
3.怎么防止過擬合
4.C++內(nèi)存怎么分配(說不知道,直接跪)
5.寫C字符串拷貝函數(shù)strcpy
6.寫判斷是否二叉排序樹
美團(校招)
1.推薦算法:SVD、協(xié)同過濾等,怎么做推薦的
2.解釋一下CNN、RNN
3.數(shù)據(jù)怎么預(yù)處理、特征工程
4.特征選擇怎么做、決策樹怎么分裂的
5.推薦系統(tǒng)好壞評價
6.解釋一下A\B測試
7.提高外賣配送效率,需要考慮哪些因素
8.樣本怎么構(gòu)造、數(shù)據(jù)量有多大
9.余弦距離和歐氏距離區(qū)別
10.評論反作弊(被問了不下于3次)
京東(實習(xí)+校招)
校招投的上海這邊算法組,面了兩面說對我很滿意,要給部門老大看,但不一定有offer,因為老大手上簡歷太多…
1.講項目,特別是衡量指標(biāo)(PSNR、AUC)
2.怎么做推薦的
3.決策樹、GBDT、Xgboost講一下區(qū)別
4.Sql題:怎么用join實現(xiàn)分組排序和分組累加和
5.問了項目的word2vec和doc2vec算法
6.LSTM和RNN區(qū)別,LSTM語言模型解釋一下
7.了解Attention機制嗎
8.用過spark嗎(沒用過)
百度(校招)
先是內(nèi)推,面完3面后很久沒收到消息,就知道掛了
一面:
1.xgboost與GBDT比較
2.Python中numpy為什么快,說用的C實現(xiàn),然后問C++中STL底層,完全不會
3.Python中能表示的最大數(shù)
4.怎么做推薦、文本處理方法
5.寫代碼:求兩個字符串的最小編輯距離
二面:
1.CNN怎么做文本分類
2.怎樣快速計算x的根號3次方,有內(nèi)存限制,不能調(diào)庫函數(shù)(這個問題糾結(jié)了很久)
3.為什么文本相似度要用余弦公式而不用其他的?
三面:
經(jīng)理面,從技術(shù)到人生都問了很多
1.寫個代碼,求兩個有序數(shù)組的交集,O(n),沒想出來,只想出了一個二分查找
2.協(xié)同過濾
3.開放題,輸入一個劉,彈出劉德華之類的,怎么做
校招霸面:
二面是百度鳳巢的,感覺水平很高,答的不好,掛了
1.信息熵、信息增益、相對熵、交叉熵、互信息、基尼系數(shù)
2.常用的有哪些損失函數(shù),推導(dǎo)一下log loss的梯度
3.寫個代碼:快速排序,平均時間復(fù)雜度、最壞情況
4.怎樣確定采樣的樣本數(shù)量
5.特征工程怎么做
6.特征值、特征向量解釋一下
7.解釋一下決策樹、隨機森林
8.推薦系統(tǒng)考慮的因素
9.路徑優(yōu)化考慮哪些因素
10.寫個代碼:字符串去重函數(shù)
愛奇藝(校招)
1.寫個二叉樹反轉(zhuǎn)
2.信息熵公式
3.CNN卷積的物理含義、pooling的作用
4.畫一下word2vec中的skip-gram模式圖
5.概率題:54張抽出2張同花色的概率,大小王任意一種花色都不算
其他公司
1.LR與SVM有什么區(qū)別
2.用過哪些Python庫,介紹一下pandas中的dataframe
3.介紹一下MapReduce過程,與spark中的shuffle有什么區(qū)別
4.k–means的缺點,怎么改進,如果數(shù)據(jù)類在不斷增加怎么辦
5.決策樹怎么剪枝的
6.LSTM與GRU的區(qū)別,經(jīng)典的CNN的區(qū)別
7.EM算法,收斂條件
還面了華為、唯品會、銀聯(lián)之類的,基本都是聊項目,所以沒什么好寫的,但一定要對做過的項目很清楚明白,有很深刻的理解才行,其他的后面想起了再更新