4QirhOI9z92作者:马俊china.huanqiu.comarticle中国填补国产智算系统“关键空白”/e3pmh1nnq/e7tl4e309【环球时报报道 记者 马俊】“十五五”规划纲要草案明确提出,要“统筹推进算力设施建设、模型算法发展和高质量数据资源供给,筑牢数智化发展底座”。算力是人工智能(AI)大模型训练和运行的基础,特别是超大规模智算集群已经成为全球AI竞争的制高点。中科曙光12日宣布突破高速网络的瓶颈问题,这也填补了中国发展智算系统的“关键空白”。此次中科曙光发布的scaleFabric是国内首款原生无损RDMA(远程直接内存访问)高速网络,其技术规格全面对标英伟达NDR,部分指标实现赶超。它面向超大规模智算集群设计,从核心关键IP、交换芯片、网卡到交换机、驱动与管理软件均实现自主研发,构建起从硬件到软件的完整技术体系。中国工程院院士邬贺铨在主题演讲中表示,当前AI全面普及,算力成为核心生产力,算力的竞争也升级为“算网存”协同的全生态的博弈。大模型的训练,智算集群的规模化部署,对网络提出了超低时延、超高带宽、全程无损的严苛要求,高速网络作为算力基础设施的核心关键技术,其自主可控性直接关乎国家算力基建安全与发展的质量。 现在超大规模集群服务是当前AI发展的底座,想要训练全球领先的大模型,万卡级甚至十万卡级的智算集群已经成为必备的技术基础。研究表明,在大规模分布式训练中,网络通信耗时占比已达到30%-50%,网络性能直接影响算力系统的整体效率。中科曙光高级副总裁李斌描述说,从过去的边缘计算到现在人工智能大模型的训练,其实对网络通信速度的要求越来越苛刻。对中小规模的算力系统来说,计算比网络的重要性略高,但是对于大规模算力系统而言,网络的重要性排在第一位。“计算决定了算力系统性能的上限,而网络决定了其能力的下限,如果网络拉胯的话,有可能会把整个性能归零。”据《环球时报》记者了解,在大规模智算集群领域,RDMA网络凭借零丢包、高带宽、低延迟等特征,可极大提升通信效率,已成为算力中心的基本需求。邬贺铨表示,在大模型训练和智算集群规模化部署背景下,网络需要同时具备超低延迟、超高带宽与无损传输能力,而RDMA高速网络正是智算集群的“算力大动脉”。其中InfiniBand网络架构凭借低时延与原生无损传输能力,在全球顶级超算与AI集群中被广泛采用。根据TOP500榜单,目前全球约60%的高性能计算系统都采用这种网络架构。邬贺铨强调,高端高速网络市场被国外技术垄断,已成为我国算力产业自主发展的核心瓶颈之一。中国信通院云计算与数字化研究所云计算部副主任郑立介绍说,超大规模智算集群成全球AI竞争焦点,而当前智算网络普遍面临资源孤岛、时延过高、算网协同难等瓶颈,传统RDMA实现路径存在生态封闭或性能短板问题,倒逼行业走向融合与自研。李斌表示,在实际应用层面,scaleFabric目前已部署于国家超算互联网郑州核心节点,支撑三套万卡级scaleX智算集群上线运行。随着scaleFabric的正式发布,国产原生RDMA技术路线正逐步走向成熟,围绕其形成的高性能网络产业生态也正在加速形成。1773337263538环球网版权作品,未经书面授权,严禁转载或镜像,违者将被追究法律责任。责编:肖山环球时报177335601300112[]{"email":"liyutong@huanqiu.com","name":"李雨童"}
【环球时报报道 记者 马俊】“十五五”规划纲要草案明确提出,要“统筹推进算力设施建设、模型算法发展和高质量数据资源供给,筑牢数智化发展底座”。算力是人工智能(AI)大模型训练和运行的基础,特别是超大规模智算集群已经成为全球AI竞争的制高点。中科曙光12日宣布突破高速网络的瓶颈问题,这也填补了中国发展智算系统的“关键空白”。此次中科曙光发布的scaleFabric是国内首款原生无损RDMA(远程直接内存访问)高速网络,其技术规格全面对标英伟达NDR,部分指标实现赶超。它面向超大规模智算集群设计,从核心关键IP、交换芯片、网卡到交换机、驱动与管理软件均实现自主研发,构建起从硬件到软件的完整技术体系。中国工程院院士邬贺铨在主题演讲中表示,当前AI全面普及,算力成为核心生产力,算力的竞争也升级为“算网存”协同的全生态的博弈。大模型的训练,智算集群的规模化部署,对网络提出了超低时延、超高带宽、全程无损的严苛要求,高速网络作为算力基础设施的核心关键技术,其自主可控性直接关乎国家算力基建安全与发展的质量。 现在超大规模集群服务是当前AI发展的底座,想要训练全球领先的大模型,万卡级甚至十万卡级的智算集群已经成为必备的技术基础。研究表明,在大规模分布式训练中,网络通信耗时占比已达到30%-50%,网络性能直接影响算力系统的整体效率。中科曙光高级副总裁李斌描述说,从过去的边缘计算到现在人工智能大模型的训练,其实对网络通信速度的要求越来越苛刻。对中小规模的算力系统来说,计算比网络的重要性略高,但是对于大规模算力系统而言,网络的重要性排在第一位。“计算决定了算力系统性能的上限,而网络决定了其能力的下限,如果网络拉胯的话,有可能会把整个性能归零。”据《环球时报》记者了解,在大规模智算集群领域,RDMA网络凭借零丢包、高带宽、低延迟等特征,可极大提升通信效率,已成为算力中心的基本需求。邬贺铨表示,在大模型训练和智算集群规模化部署背景下,网络需要同时具备超低延迟、超高带宽与无损传输能力,而RDMA高速网络正是智算集群的“算力大动脉”。其中InfiniBand网络架构凭借低时延与原生无损传输能力,在全球顶级超算与AI集群中被广泛采用。根据TOP500榜单,目前全球约60%的高性能计算系统都采用这种网络架构。邬贺铨强调,高端高速网络市场被国外技术垄断,已成为我国算力产业自主发展的核心瓶颈之一。中国信通院云计算与数字化研究所云计算部副主任郑立介绍说,超大规模智算集群成全球AI竞争焦点,而当前智算网络普遍面临资源孤岛、时延过高、算网协同难等瓶颈,传统RDMA实现路径存在生态封闭或性能短板问题,倒逼行业走向融合与自研。李斌表示,在实际应用层面,scaleFabric目前已部署于国家超算互联网郑州核心节点,支撑三套万卡级scaleX智算集群上线运行。随着scaleFabric的正式发布,国产原生RDMA技术路线正逐步走向成熟,围绕其形成的高性能网络产业生态也正在加速形成。