Sequence Parallelism

发表于 2024-12-26 更新于 2025-03-28 Disqus：

Sequence Parallelism

假设有4个chunk，切四份。

初始化状态，每个GPU都有自己的 Qn Kn，可以计算出对应的注意力矩阵，然后类似AllReduce的方式传递切分的K。

第一步环形传递K，然后再算一次注意力矩阵。

第二步环形传递K，然后再算一次注意力矩阵。

第三步全部传完，得到完整的Sn。

然后 Sn 和 Vn 的计算也是类似的，经过三次环形传递Vn，然后每一份可以单独和小s的那一份做乘法。

所以K和V的传播都要经历 3 次(N-1)的集合通信。