Sequence Parallelism 发表于 2024-12-26 Disqus: Sequence Parallelism假设有4个chunk,切四份。 初始化状态,每个GPU都有自己的 Qn Kn,可以计算出对应的注意力矩阵,然后类似AllReduce的方式传递切分的K。 第一步环形传递K,然后再算一次注意力矩阵。 第二步环形传递K,然后再算一次注意力矩阵。 第三步全部传完,得到完整的Sn。 然后 Sn 和 Vn 的计算也是类似的,经过三次环形传递Vn,然后每一份可以单独和小s的那一份做乘法。 所以K和V的传播都要经历 3 次(N-1)的集合通信。