从一些大模型的训练技术报告来看有一些比较有代表性的挑战,比如 Meta 的 Research Super Compute (RSC) 和 X 的 Grok Infra。这些技术报告中提到了一些关键的技术挑战和解决方案,包括 GPU 架构与互联、存储系统、训练的稳定性等。
X Grok Infra
从 Grok-1.5 Infra 的技术报告中可以窥见,Grok-1.5 在基础设施方面具有以下核心优势:
- 先进的分布式训练框架:基于 JAX、Rust 和 Kubernetes 的技术栈,不仅确保了高性能,还能快速适配和训练新的模型架构。
- 卓越的可靠性和可用性:通过自研的训练协调器,系统能够智能地检测并隔离故障节点,大幅降低训练任务中断的风险。
- 高效的存储与数据处理:在检查点存储、数据加载和训练作业重启等环节都进行了深度优化,将训练过程中的停机时间降至最低。
Meta Reasearch Super Compute
另一个典型案例是 Meta 的 Research Super Compute (RSC) 超算集群,在这上面训练了Llama3.2,有一份92页的技术报告,RSC的相关Talk,以及里面用到的MAST论文调度器:
算力规模
已升级至 16,000 张 H100 GPU,算力获得质的飞跃。每个服务器配备了 8 块 GPU 和 2 块 CPU。在服务器内部,八块 GPU 通过 NVLink 连接。
网络互联
采用双网络方案:
- NVIDIA Quantum InfiniBand,带宽高达 1600 Gb/s,RoCE(RDMA over Converged Ethernet)作为补充互联方案。
网络拓扑
- 底层网络(第一个层):每个机架(rack)包含 16 块 GPU,分散在两个服务器上,并通过一个 Minipack2 顶层网络(ToR)交换机连接。
- 中间网络(第二层):192 个这样的机架通过 Cluster Switches 连接,形成一个包含 3,072 块 GPU 的 Pod。这种设计确保了从任何两个 GPU 之间的通信都有满速带宽,没有过度订阅。
- 顶层网络(第三层):八个这样的 Pod 通过 Aggregation Switches 连接,形成一个包含 24,000 块 GPU 的集群。然而,顶层网络的连接没有保持满速带宽,而是存在过度订阅比例为 1:7。
负载均衡
- Collective library 将 16 个网络流中的两个 GPU 之间的数据传输从一个流变为 16 个流。
- Enhanced-ECMP(E-ECMP)协议 通过在 RoCE(Rdma over Converged Ethernet)报头中添加额外的字段,进行 hash 计算,从而有效地在不同网络路径上平衡 16 个流。
拥塞控制
使用深度缓冲区(deep-buffer switches)来解决在 Spine(Gangidi et al., 2024)中由于集体通信模式引起的暂时拥堵和缓冲问题。
存储系统
采用自研的 Tectonic 文件系统,通过 FUSE 提供标准的 Linux 文件系统接口,确保高效的数据访问。
- 存储容量:240 PB,基于 7,500 台 SSD servers
- 支持的最大吞吐量:7 TB/s
- 支持的可持续吞吐量:2 TB/s
- 检查点写入:非常时断时续,导致存储网络饱和
- 检查点的目标:因为 checkpoint 非常大,最小化 GPU 停顿时间,加快检查点频率也变得非常重要
总结
从这些实践可以看出,现代 AI 基础设施主要围绕三大核心要素展开:
- 计算能力(以 GPU 为核心)
- 网络互联(RoCE 或 InfiniBand)
- 存储系统
而在上层的编排调度领域,系统的容错能力和可靠性则成为关键考量因素。
GPU 架构与互联
在当前AI训练领域,主流的GPU型号主要是NVIDIA的A100、H100和H200系列,它们按照发布时间依次提供了更强大的算力和更优化的架构设计。关于GPU的详细架构,特别是其拓扑结构,可以参考这篇深度解析文章。
GPU互联拓扑
GPU之间的互联拓扑结构主要取决于不同总线间的传输特性,GPU之间可以通过NVIDIA专有的NVLink高速互联技术直接通信。在现代GPU集群中,主要有以下几种互联方式:
- NVSwitch架构:通过NVIDIA的交换架构实现所有GPU之间的全互联
- 走网卡,如果卡之间没有NVSwitch的话,可以绕过CPU走网卡:这种通信模式由NCCL(NVIDIA Collective Communications Library)负责协调和优化。
1
GPU0 -> PCIe -> IB(InfiniBand) -> PCIe -> GPU1
GPU分配策略
NVIDIA开源的go-gpuallocator库提供了一系列基于拓扑关系的GPU分配策略。例如,其中的NewStaticDGX1Policy
专门针对DGX-1标准配置优化。考虑到单机环境下GPU组合的可能性有限,这种基于静态规则的分配策略已经能够很好地满足需求。
这些分配策略的核心目标是最小化跨总线和跨NUMA节点的通信开销,确保GPU间通信尽可能利用最高带宽的数据通路,从而提供最优的训练性能。
跨节点的通信
在分布式训练场景下,跨节点通信需要经过更长的数据传输路径:
1 | GPU -> NIC -> 叶层交换机 -> 核心交换机 -> NIC -> GPU |
这种通信模式面临两个主要的优化方向:
本地化优化:尽可能将相关联的GPU任务分配在物理位置相近的节点上,以减少网络延迟。
负载均衡:避免将所有任务集中在同一交换机下,防止出现网络拥塞。过度集中可能导致局部带宽饱和,反而降低整体训练效率。
这种权衡本质上是一个网络流优化问题。通过图论中的网络流算法,可以在通信延迟和带宽利用率之间找到最优平衡点,从而实现更高效的跨节点通信。
一个分布式训练的带宽瓶颈来源于带宽最低的那条路径。
利用 Kubernetes Pod 亲和性优化网络拓扑
在 Kubernetes 环境下,我们可以通过 Pod 亲和性(Affinity)和规则来优化 GPU 任务的分配。主要可以从以下几个方面入手:
拓扑感知调度:使用 topologyKey
确保相关联的 Pod 被调度到网络拓扑上接近的节点:
例如同一个分布式训练任务(training-group = group1)
尽让分配在一个机架上,同交换机,同核心交换机也是类似的。
1 | affinity: |
这种方案的优势在于:
- 配置简单,易于理解和维护
- 充分利用 Kubernetes 原生能力,无需额外组件
- 可以根据实际需求灵活调整权重和策略
存储系统
AI训练中的存储系统面临着两个主要挑战:
1. 海量小文件问题
AI训练数据集通常包含大量的小文件,这对传统文件系统的性能和管理造成了巨大压力。一些现代分布式文件系统提供了很好的解决方案,例如 Meta 的 Tectonic 和与其架构类似的 JuiceFS,它们采用了以下优化方案:
元数据管理优化:
- 使用元数据库管理文件结构,将
ls
命令转化为简单的字符串前缀匹配操作 - 避免了传统 Linux 文件系统依赖 inode 管理的方式
- 解决了 inode 臃肿问题(在传统系统中,一个 inode 的大小可能与文件本身相当)
2. Checkpoint 存储挑战
分布式训练中的 checkpoint 文件体积巨大,这在大语言模型训练中尤为明显:
- 以 LLaMA-2-70B 为例,单个完整的 checkpoint 就需要 140GB 存储空间(FP16格式)
- 训练过程中需要定期保存 checkpoint,累积存储需求可能达到 TB 甚至 PB 级别
- 需要存储系统能够提供高带宽和低延迟的读写性能,同时保证数据的可靠性
这些挑战要求存储系统具备:
- 强大的扩展性
- 高效的数据压缩能力
- 智能的数据分层存储机制
- 可靠的数据备份和恢复能力
训练的稳定性
在大规模 AI 训练中,硬件故障是一个常见问题。特别是新型号显卡往往会有较高的故障率,再加上传统的硬件错误,这些都可能导致训练中断。因此,快速识别错误并恢复训练成为了一个关键挑战。目前主流的解决方案主要有以下两种:
基于 torchrun 的弹性训练
torchrun 提供了两种容错机制:简单重试和弹性训练。
简单重试模式:
通过--max-restarts
参数配置重试次数:1
2
3
4
5
6
7
8torchrun \
--nnodes=$NUM_NODES \
--nproc-per-node=$NUM_TRAINERS \
--max-restarts=3 \
--rdzv-id=$JOB_ID \
--rdzv-backend=c10d \
--rdzv-endpoint=$HOST_NODE_ADDR \
YOUR_TRAINING_SCRIPT.py [script args...]弹性训练模式:
通过设置nnodes
的范围来支持动态节点数:1
2
3
4
5
6
7
8torchrun \
--nnodes=1:4 \ # 支持1-4个节点的动态伸缩
--nproc-per-node=$NUM_TRAINERS \
--max-restarts=3 \
--rdzv-id=$JOB_ID \
--rdzv-backend=c10d \
--rdzv-endpoint=$HOST_NODE_ADDR \
YOUR_TRAINING_SCRIPT.py [script args...]
弹性训练模式需要配置服务发现机制,默认使用 c10d 作为内置的节点发现服务,也支持使用 etcd 等外部服务。
当节点发生变化时,系统会自动处理以下场景:
- 节点离开(缩容):系统通知 agent,停止现有 workers,重新组建 WorkerGroup,使用新的 RANK 和 WORLD_SIZE 启动所有 workers
- 节点加入(扩容):接纳新节点,按照相同流程重组 WorkerGroup
基于 DeepSpeed 的弹性训练
DeepSpeed 提供了更细粒度的弹性训练配置:
1 | { |
DeepSpeed 的特点是:
- 支持动态调整 batch size
- 以 GPU 为粒度进行弹性伸缩(而不是节点级别)
- 提供更丰富的训练参数配置
弹性训练控制器
要实现完整的弹性训练支持,控制器需要:
- 依赖服务发现机制进行节点注册和健康检查
- 动态调整弹性策略(如 min_nodes、max_nodes 等参数)
对于简单的降级场景,通过静态配置即可实现:
- 将 max_nodes 设置为总资源规格
- 将 min_nodes 设置为最小运行要求(如设置为 1:4 表示支持 1-4 张显卡的动态伸缩)
节点的问题发现
在大规模语言模型(LLM)预训练过程中,常见的硬件异常包括:
GPU ECC 错误:当 GPU 发生不可纠正的显存 ECC(Error Correcting Code)错误时,通常需要重置 GPU 或重启节点来清除这个错误。
Infiniband(IB)/NCCL 问题:这类问题通常源于硬件故障,如网卡损坏或网络抖动,可能导致训练速度下降或任务异常中断。
任务挂起(Hang):通常与 IB/NCCL 问题相关,需要人工检测和处理。
GPU 掉卡:此时一般会触发 CUDA 错误或程序异常退出,可能需要重置 GPU 或重启节点来解决。
机器异常:包括 GPU 之外的硬件异常,如硬盘、CPU 等,甚至整机故障,可能需要更换硬件或进行系统维护。
机器配置异常:例如,某台机器意外启用了 MIG(多实例 GPU),可能影响训练任务的正常运行。
集群维护:集群中的其他任务或系统维护、升级,可能需要暂停当前训练任务。
可以使用node-promblem-detector,
node-problem-detector 是一个用于在集群管理栈的上游层次中使各个节点问题可见的守护进程。它在每个节点上运行,检测节点问题并将其报告给 apiserver。
监控和容错是一个比较难的问题,需要结合硬件和软件的特性,以及业务需求,进行综合考量。
特别是万卡集群,MFU 只有 50%左右。
在训练 OPT-175B 模型的过程中,Meta团队使用了 992 个 80GB 的 A100 GPU,每个 GPU 实现了约 147 TFLOP/s 的性能,对应的机器浮点利用率(MFU)约为 47%(147/312)。
为了应对可能的硬件故障,团队额外准备了 12 台备用机器,以便在出现问题时进行替换。在训练期间,平均每天约有 2 台机器发生故障,即每台机器每天发生故障的概率约为 1.61%。
整个训练过程持续了约 2 个多月,包括从 2021 年 10 月 20 日到 2021 年 11 月 11 日的测试阶段,以及从 2021 年 11 月 11 日到 2022 年 1 月 6 日的正式训练阶段,正式训练约 57 天。
根据预估,实际训练时间应为约 25 天,但由于各种问题,实际有效训练时间仅占总时间的约 44%。在前期,由于各种问题,团队至少手动重启了 35 次任务。为减少人工干预,后续引入了自动重启机制,但由于硬件故障,仍触发了超过 70 次重启,平均每天需要重启一次任务。
这些经验表明,在大规模模型训练中,硬件故障和其他问题会显著影响训练效率。为此,团队采取了多种措施来应对这些挑战,包括准备备用硬件、引入自动重启机制等,以确保训练过程的顺利进行。
这个问题在用新的卡的时候会有更多问题。
总结
To train our largest Llama 3 models, we combined three types of parallelization: data parallelization, model parallelization, and pipeline parallelization. Our most efficient implementation achieves a compute utilization of over 400 TFLOPS per GPU when trained on 16K GPUs simultaneously. We performed training runs on two custom-built 24K GPU clusters. To maximize GPU uptime, we developed an advanced new training stack that automates error detection, handling, and maintenance. We also greatly improved our hardware reliability and detection mechanisms for silent data corruption, and we developed new scalable storage systems that reduce overheads of checkpointing and rollback. Those improvements resulted in an overall effective training time of more than 95%. Combined, these improvements increased the efficiency of Llama 3 training by ~three times compared to Llama 2.
LLAMA3 的技术博客揭示了许多令人振奋的优化成果,这些优化背后蕴含着大量值得深入研究的技术细节。虽然我们可能难以直接接触如此大规模的训练集群及其面临的挑战,但这些技术进展仍然为整个 AI 基础设施领域提供了宝贵的参考和启发。