
图1 可扩展单元(SU)
H100算力集群系统中,通常使用可扩展单元(SU),作为一个基本单元进行管理,每个扩展单元包含32台DGX H100服务器,分布在8个机架中,总共256个GPU,配备8台叶交换机(图1示),服务器机架以4个为一组,分别列于叶交换机机架左、右两侧。

图2 算力集群布线
从服务器到叶交换机再到脊交换机布线(图2示),是构建高带宽、低延迟、可扩展数据中心网络的核心设计,使用叶脊(Spine-Leaf)网络架构将设备进行连接。其中服务器与叶交换机同处于一个SU内,连接距离较短(通常在几米到几十米内),优先使用多模光纤跳线或DAC高速线缆进行点对点布线,叶交换机与脊交换机连接距离较远(在上百米到数公里),使用单模跳线进行点对点或结构化布线,具体选择哪种布线方式,可根据项目需求而定。
二、服务器到叶交换机(点对点布线)

图3 可扩展单元(SU)内的连接
服务器到叶节点布线(图3示),使用主干或束状两种规格跳线进行布线,目的都是将每台服务器中相应颜色的接口,连接到相同颜色的叶节点交换机(图4示),图中4台服务器的蓝色接口,将连接到蓝色标识叶交换机的01~04口,单台叶交换机可提供32个端口用于连接服务器,而剩余的32个端口将用于连接脊交换机,8台叶交换机组成的交换机机架,可以无损接入32台DGX H100服务器。

图4 服务器与叶交换机布线选择
三、叶交换机到脊交换机(点对点/结构化布线)

图5跨单元之间的连接
跨单元集群组网(图5示),我们除了可以使用跳线进行点对点布线外,也可以使用配线架和模块盒进行结构化布线(图6示),将脊节点/叶节点的所有端口映射到适配器模块上,另一个节点连接到配线架上对应的端口,完成布线工作,结构化布线在大规模集群的集中配线和管理有着显著优势,配线架的标签记录让故障定位、链路追踪、容量管理高效便捷,通过配线架跳接,无需改动主干线路即可轻松完成增加、移除或更改连接设备,支持资源的灵活调度。

图6 叶交换机与脊交换机布线选择
四、产品清单

光纤配线架

适配器模块

高速线缆MPO/MTP

高速线缆MPO/MTP







