分布式机器学习

1. 原理

GPU通信

数据并行DP

模型并行

序列并行

量化 Quantization

剪枝 Pruning

蒸馏 Distillation

框架

多用于单机多卡，一般采用参数服务器框架

多用于多机多卡，采用Ring AllReduce通讯

适用大模型sft

选择 ZeRO Optimizer 的不同阶段。阶段0、1、2和3分别指禁用、优化器状态分区、优化器+梯度状态分区和优化器+梯度+参数分区。

ZeRO：stage1 (optimizer state)，stage2 (+gradients)，stage3 (+model parameters)，offloads

适用大模型pretrain

https://github.com/huggingface/picotron

精读

扩展

Last updated 1 month ago