瓶頸分析 -- 從樣本到訓練流程優(yōu)化

訓練模型優(yōu)化方案:

時間瓶頸分析:

流程
相同打分-》抽樣-》離散化 -》樣本轉labeledPoint -》lr train --》特征有效性分析

場景:
每人目錄下有多個模型,只有 正則化參數(shù)不同

當前方案:
參數(shù)不同,重跑 整個流程 相同打分-》抽樣-》離散化 -》樣本轉labeledPoint -》lr train --》特征有效性分析

優(yōu)化方案:
只是模型訓練的參數(shù)不同,可以在模型中添加initweight,整個流程:耗時144分鐘,優(yōu)化后,只需要6分鐘,只需4%的時間,即時間效率提升24倍。

Paste_Image.png

空間瓶頸分析:

流程:相同打分-》抽樣-》離散化 -》樣本轉labeledPoint -》lr train --》特征有效性分析

場景:每人目錄下有多個模型,只有 正則化參數(shù)不同

優(yōu)化方案:打分、抽樣、離散化、樣本轉labeledPoint 這些數(shù)據(jù)都可以共用。僅僅參數(shù)不同,只需要1/10的空間。即空間效率提升10倍。

Paste_Image.png

評估:

“參數(shù)不同”的場景占比多少?假如占比為ratio,則優(yōu)化后為 空間消耗總量* ratio*0.1

舉例:

我的空間消耗15T ,“參數(shù)不同”的場景占1/3,即 此場景為5T,優(yōu)化后,只需要0.5T,即500G。節(jié)省30%左右。

最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容