42digest首页
RailX:用于超大规模LLM训练系统的灵活、可扩展和低成本网络架构

RailX: A Flexible, Scalable, and Low-Cost Network Architecture for Hyper-Scale LLM Training Systems

Yinxiao Feng, Tiancheng Chen, Yuchen Wei, Siyuan Shen, Shiju Wang, Wei Li, Kaisheng Ma, Torsten Hoefler

arXiv
2025年7月25日

越来越多的人工智能工作负载需要超大规模的基础设施;然而,传统的互连网络架构既不可扩展,也不够具有成本效益。 基于树的拓扑结构,如铁路优化网络,非常昂贵,而像Torus这样的直接拓扑结构的截面带宽和灵活性不足。 在本文中,我们提出了基于节点内直接连接和节点间电路交换的可重新配置网络架构RailX。 节点和光开关是物理2D组织的,比现有的集中电路交换网络实现了更好的可扩展性。 我们提出了一种基于Hamiltonian分解理论的新型互连方法,将单独的基于轨道的环组织成全拓扑结构,同时优化环集体和逐项通信。 具有超带宽的100K以上的芯片可以通过扁平的交换层互连,直径仅为2∼4个元间跳转。 RailX的每次注入/全还原带宽的网络成本不到Fat-Tree的10%,每段/全到全带宽的成本低于Fat-Tree的50%。 具体来说,只需要∼13B美元就可以将200K芯片与1.8TB的带宽互连。 RailX 也可以用于 ML-as-service (MLaaS) 场景,其中可以灵活地映射具有各种形状、尺度和并行策略的单个或多个训练工作负载,并且可以围绕故障进行处理。

Increasingly large AI workloads are calling for hyper-scale infrastructure; however, traditional interconnection network architecture is neither scalable nor cost-effective enough. Tree-based topologies such as the Rail-optimized network are extremely expensive, while direct topologies such as Torus have insufficient bisection bandwidth and flexibility. In this paper, we propose RailX, a reconfigurable network architecture based on intra-node direct connectivity and inter-node circuit switching....