前言 這兩天琢磨了下spark-deep-learning和spark-sklearn兩個項目,但是感覺都不盡人如意。在training時,都需要把數(shù)據(jù)broadcast到各...
@祝威廉 17年美團云做深度學習平臺,用了這個項目,但用的時候都改的不像樣子,后來給提了一個patch,解決需要改動代碼的(整體發(fā)現(xiàn)很多問題)因整個yarn spark都改動了,patch差距有點大,也懶得去兼容就沒有合并進去
TensorFlowOnSpark 源碼解析前言 這兩天琢磨了下spark-deep-learning和spark-sklearn兩個項目,但是感覺都不盡人如意。在training時,都需要把數(shù)據(jù)broadcast到各...
@祝威廉 以前是,現(xiàn)在不是
TensorFlowOnSpark 源碼解析前言 這兩天琢磨了下spark-deep-learning和spark-sklearn兩個項目,但是感覺都不盡人如意。在training時,都需要把數(shù)據(jù)broadcast到各...
其實可以直接做到不修改任何代碼遷移代碼,直接將腳本封裝成一個函數(shù),也就是mapfun
,使用yarn分發(fā)代碼到各個節(jié)點,美團云當初就是這么做的
TensorFlowOnSpark 源碼解析前言 這兩天琢磨了下spark-deep-learning和spark-sklearn兩個項目,但是感覺都不盡人如意。在training時,都需要把數(shù)據(jù)broadcast到各...
如果關注這個領域的同學可能知道,Ray其實在去年就已經(jīng)在開源社區(qū)正式發(fā)布了,只不過后來就一直沒有什么太大動靜,前段時間也是因為機緣巧合,我又回頭學習了解了一下,順便總結如下:...
我說的調(diào)度率是rm怎么將資源分配給各個用戶的任務
Tensorflow on YARN Native Service - 可能目前最好的跑分布式Tensorflow訓練的選擇最近這段時間和同事一起花了不少精力來看Tensorflow on Hadoop的事情。為什么要把Tensorflow跑在Hadoop上呢?因為數(shù)據(jù)和計算資源都在Hadoop上...
Yarn的調(diào)度思想我理解是給每臺機器分配任務(container),常用的fair保證的是資源離散調(diào)度,將container 分配到各個機器,這會導致gpu被切分的很散,而一臺機器很難像cpu一樣有數(shù)十個核,需求一機多卡的任務,會難以得到調(diào)度,另一方面為了體現(xiàn)公平,并不是將一個任務分配完再去分配下一個任務,在gpu場景下(tensorflow,caffe,mxnet 等)這些框架需要資源完全分配才能運行任務,調(diào)度算法不大合適,原來的mr,spark比較適合這類型的調(diào)度場景。上一份工作經(jīng)歷就是基于你說的這些框架,在惡劣的情況下資源調(diào)度率只有百分之60,最后是修改調(diào)度策略才解決。至于docker,怎么和yarn結合,有機會可以一起討論下
Tensorflow on YARN Native Service - 可能目前最好的跑分布式Tensorflow訓練的選擇最近這段時間和同事一起花了不少精力來看Tensorflow on Hadoop的事情。為什么要把Tensorflow跑在Hadoop上呢?因為數(shù)據(jù)和計算資源都在Hadoop上...
3.1雖然支持了GPU資源,但是調(diào)度策略太差,調(diào)度率很低,docker 方案還是不靈活
Tensorflow on YARN Native Service - 可能目前最好的跑分布式Tensorflow訓練的選擇最近這段時間和同事一起花了不少精力來看Tensorflow on Hadoop的事情。為什么要把Tensorflow跑在Hadoop上呢?因為數(shù)據(jù)和計算資源都在Hadoop上...
作者: Christopher Olah (OpenAI)譯者:朱小虎 Xiaohu (Neil) Zhu(CSAGI / University AI)原文鏈接:https:...