中国填补国产智算系统“关键空白”

7003383

7005136

7005137

<article><section data-type="rtext"><p>【环球时报报道 记者 马俊】“十五五”规划纲要草案明确提出，要“统筹推进算力设施建设、模型算法发展和高质量数据资源供给，筑牢数智化发展底座”。算力是人工智能（AI）大模型训练和运行的基础，特别是超大规模智算集群已经成为全球AI竞争的制高点。中科曙光12日宣布突破高速网络的瓶颈问题，这也填补了中国发展智算系统的“关键空白”。</p><p>此次中科曙光发布的scaleFabric是国内首款原生无损RDMA（远程直接内存访问）高速网络，其技术规格全面对标英伟达NDR，部分指标实现赶超。它面向超大规模智算集群设计，从核心关键IP、交换芯片、网卡到交换机、驱动与管理软件均实现自主研发，构建起从硬件到软件的完整技术体系。</p><p>中国工程院院士邬贺铨在主题演讲中表示，当前AI全面普及，算力成为核心生产力，算力的竞争也升级为“算网存”协同的全生态的博弈。大模型的训练，智算集群的规模化部署，对网络提出了超低时延、超高带宽、全程无损的严苛要求，高速网络作为算力基础设施的核心关键技术，其自主可控性直接关乎国家算力基建安全与发展的质量。</p>
              <adv-loader __attr__inner="7004636" __attr__style="width: auto;position: relative;float: left;border: 1px solid #ebebeb; padding: 20px;overflow: hidden;margin: 10px 30px 40px 0;"></adv-loader>
            <p>现在超大规模集群服务是当前AI发展的底座，想要训练全球领先的大模型，万卡级甚至十万卡级的智算集群已经成为必备的技术基础。研究表明，在大规模分布式训练中，网络通信耗时占比已达到30%-50%，网络性能直接影响算力系统的整体效率。中科曙光高级副总裁李斌描述说，从过去的边缘计算到现在人工智能大模型的训练，其实对网络通信速度的要求越来越苛刻。对中小规模的算力系统来说，计算比网络的重要性略高，但是对于大规模算力系统而言，网络的重要性排在第一位。“计算决定了算力系统性能的上限，而网络决定了其能力的下限，如果网络拉胯的话，有可能会把整个性能归零。”</p><p>据《环球时报》记者了解，在大规模智算集群领域，RDMA网络凭借零丢包、高带宽、低延迟等特征，可极大提升通信效率，已成为算力中心的基本需求。</p><p>邬贺铨表示，在大模型训练和智算集群规模化部署背景下，网络需要同时具备超低延迟、超高带宽与无损传输能力，而RDMA高速网络正是智算集群的“算力大动脉”。其中InfiniBand网络架构凭借低时延与原生无损传输能力，在全球顶级超算与AI集群中被广泛采用。根据TOP500榜单，目前全球约60%的高性能计算系统都采用这种网络架构。</p><p>邬贺铨强调，高端高速网络市场被国外技术垄断，已成为我国算力产业自主发展的核心瓶颈之一。中国信通院云计算与数字化研究所云计算部副主任郑立介绍说，超大规模智算集群成全球AI竞争焦点，而当前智算网络普遍面临资源孤岛、时延过高、算网协同难等瓶颈，传统RDMA实现路径存在生态封闭或性能短板问题，倒逼行业走向融合与自研。</p><p>李斌表示，在实际应用层面，scaleFabric目前已部署于国家超算互联网郑州核心节点，支撑三套万卡级scaleX智算集群上线运行。随着scaleFabric的正式发布，国产原生RDMA技术路线正逐步走向成熟，围绕其形成的高性能网络产业生态也正在加速形成。</p></section></article>

7003385

7003386

7003387

7003388

7004638

7004639

7004637

7003389