大模型相关细节-EW帮帮网

持续更新中

吞吐：
大模型吞吐量的计算需要综合考虑模型的计算需求、硬件性能、系统架构以及软件优化等多个方面（计算量、硬件性能、并行策略、内存限制、通信开销、模型结构、软件优化、数据加载等）可能没有一个简单的公式，而是需要具体问题具体分析，结合实测和理论估算。

吞吐计算公式： $\frac{Batch size * 设备数}{单步时间（s/步）}$
训练吞吐：单位时间内处理的token数（token/s）（包含前向传播，反向传播，梯度同步等）
推理吞吐：单位时间完成的请求数或生成的token数（请求/s，token/s）

FLOPs（浮点运算次数）Floating Point Operations ：完成一次计算任务所需的浮点运算（加法乘法等）的总次数
FLOPS（每秒浮点运算次数）Floating Point Operations Per Second：硬件每秒能执行的浮点运算次数，是衡量计算设备性能的指标；
FLOPs是计算量，FLOPS是算力；

DDP（Distributed Data Parallel）：
是 PyTorch 中用于多 GPU 训练的核心并行技术，旨在通过高效的数据并行策略加速模型训练，尤其适合大规模深度学习任务。通过多进程和 Ring-AllReduce 通信实现了高扩展性和低通信开销。其核心优势包括：

实现：

transformer总参数量： $L * （ M H A + FFN ） + 2 * L N$
位置编码： $S e ql e n * D$
词典: $V oc ab S i ze * D$

6.DeepSpeed

大模型相关细节