ZeRO++是對(duì)ZeRO3的通信優(yōu)化
優(yōu)化了以下三個(gè)方面:
1、每個(gè)服務(wù)器有完整的模型參數(shù),消除跨服務(wù)器的All_gather操作;
2、通信時(shí),基于塊的量化,模型參數(shù)從FP16轉(zhuǎn)換成INT8;
3、替代ring-based ReduceScatter通信,改為分層級(jí)的量化 AllToALL;
視頻教程:
一、分布式數(shù)據(jù)并行,模型并行的基本概念。DP DDP分布式數(shù)據(jù)并行:
1.1 數(shù)據(jù)并行 模型并行 DP DDP Zero分布式并行_嗶哩嗶哩_bilibili
二、ZeRO分布式數(shù)據(jù)并行方案,zero1,zero2,zero3:
1.2 zero分布式數(shù)據(jù)并行方案 zero1,zero2,zero3
三、Zero++分布式并行 數(shù)據(jù)并行《ZeRO++: Extremely Efficient Collective Communication for Large Model Training》
1.3 Zero++分布式并行 數(shù)據(jù)并行 ZeRO++: Extremely Efficient Collective Communication for_嗶哩嗶哩_bilibili