ggaaooppeenngg

为什么计算机科学是无限的但生命是有限的

Sequence Parallelism

Sequence Parallelism

假设有4个chunk,切四份。

初始化状态,每个GPU都有自己的 Qn Kn,可以计算出对应的注意力矩阵,然后类似AllReduce的方式传递切分的K。

第一步环形传递K,然后再算一次注意力矩阵。

第二步环形传递K,然后再算一次注意力矩阵。

第三步全部传完,得到完整的Sn。

然后 Sn 和 Vn 的计算也是类似的,经过三次环形传递Vn,然后每一份可以单独和小s的那一份做乘法。

所以K和V的传播都要经历 3 次(N-1)的集合通信。