2026年2月,中科曙光万卡超集群系统成全国最大国产AI算力池

当马斯克OpenAI算力军备赛打响,中国最大国产AI算力池来了!__当马斯克OpenAI算力军备赛打响,中国最大国产AI算力池来了!

在国家人工智能算力军备竞赛的关键时候,国产具备一万张卡的人工智能超集群,以让人惊讶的工程化速度,从技术展示阶段进入实际运营阶段,这标志着中国在规模化智能计算基础设施的部署能力方面,取得了关键突破。

国家级枢纽实现关键部署

2026年2月初,在处于国家超算互联网核心节点的设施当中,由中科曙光供应的三套scaleX万卡超集群系统,同步上线并且启动试运行。这次部署不是单一集群的试验,而是三套万卡系统在国家关键算力枢纽的集中落地,直接投入实际运营。这一行动让该节点变成国内首个,部署规模超过三万张AI加速卡、且已进入运营阶段的最大规模国产AI算力资源池,其算力将直接经由国家平台对外提供服务。

此次上线行动,发生于全球AI算力竞争激烈到白热化的背景状况下,在此之前,海外科技领域的巨头们,先后宣告建成了具备吉瓦级规模的训练集群,并且还在不断持续加大投资力度,而中国则在这个时候,把三套拥有万卡数量的集群,同时部署于国家的核心节点位置,这是运用体系化工程的方式,去构建国家算力网络“动力心脏”极为关键的一步,其推进速度远远超越了行业原本的预期。

当马斯克OpenAI算力军备赛打响,中国最大国产AI算力池来了!_当马斯克OpenAI算力军备赛打响,中国最大国产AI算力池来了!_

规模交付能力获得验证

2025年底进行技术公开展示,到了2026年初在国家核心节点投入试运行,scaleX万卡超集群的落地周期,不满两个月。这种速度可不是偶然的,那背后是国内企业在超大规模AI集群工程化、标准化能力的集中展现。它证实,万卡级集群的建设摆脱了早期定制化、实验室项目的模式,具备了可复制以及可规模交付的成熟度。

那个核心节点,身为国家超算互联网里关键的枢纽,它成功上线了,这表明国产万卡集群正式接入了国家级算力体系的“主干网络”。这可不是硬件资源单纯地堆叠,而是把大规模算力资源放进统一调度与管理体系的起始点,给后续更大范围的算力互联以及协同运营打下了物理基础。

高速互联打破性能瓶颈

当算力规模冲破万卡界限,对于集体之力是否能够切实释放而言,集群内部节点间的通信效率起着直接决定作用。于大模型训练等负荷重压且高要求的场景当中,网络延迟以及带宽常常变成限制性能的核心要素在显著发挥作用。对于scaleX集群来说,其采用了由中科曙光独立自主研发的scaleFabric高速互联网络技术,而此网络是依靠国产400G高性能网卡以及交换芯片来搭建而成的。

经实际测量得出的数据表明,此网络能够给予400Gb/s的单端口带宽,端到端的通信延迟能够被控制在1微秒范围以内 ,和行业里传统的InfiniBand方案相比较而言,它的通信性能提升幅度超过了两倍,并且把网络总体成本降低了大概30% ,这一项技术不但对当下万卡集群的高效运行起到了支撑作用,而且其架构设计也为未来朝着十万卡甚至百万卡规模进行平滑扩展留出了空间。

供电与散热挑战的系统性应对

大规模的、具备高密度特点的算力集群持续且稳定地运行,在很大程度上依赖于供电系统以及散热系统所具备的工程能力。在有限的物理空间范围之内对数万张有着高性能的加速卡展开部署这个行为,针对基础设施的功率密度与热管理提出了达到极限程度的挑战。该核心节点于建设进程当中,针对机房的电力配送以及冷却系统实施了具有针对性的设计以及改造。

通过运用先进液冷那些混合散热类型技术,并且对供电链路予以优化,系统达成了同面积之下承载更高算力密度目的,而且把整体能耗控制于可持续运营范畴以内,这种针对“物理世界”约束的系统性化解,可是万卡集群从演示迈向7x24小时不间断商业运营的根本保障,直接关乎长期运营成本与可靠性。

智能调度与统一管理上线

三套万卡超集群不是独自运行,而是经由国家超算互联网平台集成的统一智能调度系统来实施管理,这个系统引入了物理集群的数字孪生技术,达成了对万余个计算节点资源状态以及故障信息的实时可视化监控与精准定位,其调度引擎拥有管理万级节点以及服务十万级用户如此的能力。

当马斯克OpenAI算力军备赛打响,中国最大国产AI算力池来了!_当马斯克OpenAI算力军备赛打响,中国最大国产AI算力池来了!_

平台对每秒处理万级计算作业的调度请求予以支持,并达成了长期运行可用性不低于99.99%的服务目标。这种“数字孪生+智能调度”的软硬件结合模式,让大规模算力资源不再是静态的硬件资产,而是成了能灵活响应各种需求、动态分配的在线服务,切实融入了国家算力网络的运营体系。

开放生态支撑应用落地

此算力池已全方位开放,用以万亿参数大模型训练,以及高通量推理,还有AI for Science等前沿计算场景。其背后所采用的,是中科曙光协同二十余家产业链企业一同推动的“AI计算开放架构”。该架构意在打破技术生态绑定,能够支持多种品牌AI加速卡的混合部署,并且全面兼容主流软件开发环境。

眼下,平台已然达成了超出400个主要大模型以及科学计算模型有关适配和优化的工作,这致使源于科研机构、模型公司,还有行业用户的各异计算任务,均可经由统一入口获取普惠的算力服务,国产算力的发展途径,正从单一的技术突破,转变为构建开放以及协同且可持续的产业生态。

跟随核心节点投入运营,中国AI基础设施的竞争要点正从“有无万卡”转变为“能否规模化稳定运营乃至真正赋能产业”。于全球算力竞赛里,借由国家超算互联网达成一体化调度与生态协同,已然成为一条显著的中国路径。读者朋友们,您觉得大规模国产算力集群的建成,会对国内AI大模型产业的发展造就最直接的影响是什么?欢迎于评论区分享您的观点。

注册地址:遂宁市政务服务中心3号花瓣4楼3426号
办公地址:遂宁市船山区遂州北路169号6楼‌
联系电话:0825-2317729