訓練模型優(yōu)化方案:
時間瓶頸分析:
流程:
相同打分-》抽樣-》離散化 -》樣本轉labeledPoint -》lr train --》特征有效性分析
場景:
每人目錄下有多個模型,只有 正則化參數(shù)不同
當前方案:
參數(shù)不同,重跑 整個流程 相同打分-》抽樣-》離散化 -》樣本轉labeledPoint -》lr train --》特征有效性分析
優(yōu)化方案:
只是模型訓練的參數(shù)不同,可以在模型中添加initweight,整個流程:耗時144分鐘,優(yōu)化后,只需要6分鐘,只需4%的時間,即時間效率提升24倍。

Paste_Image.png
空間瓶頸分析:
流程:相同打分-》抽樣-》離散化 -》樣本轉labeledPoint -》lr train --》特征有效性分析
場景:每人目錄下有多個模型,只有 正則化參數(shù)不同
優(yōu)化方案:打分、抽樣、離散化、樣本轉labeledPoint 這些數(shù)據(jù)都可以共用。僅僅參數(shù)不同,只需要1/10的空間。即空間效率提升10倍。

Paste_Image.png
評估:
“參數(shù)不同”的場景占比多少?假如占比為ratio,則優(yōu)化后為 空間消耗總量* ratio*0.1
舉例:
我的空間消耗15T ,“參數(shù)不同”的場景占1/3,即 此場景為5T,優(yōu)化后,只需要0.5T,即500G。節(jié)省30%左右。