华为放大招!国产替代H20来了?

2025-04-21 作者: 咚咚

据《南华早报》报道,华为日前公布最新 AI 系统架构 CloudMatrix 384 Supernode,性能较英伟达的GB200 NVL72 强出约 1.7 倍

 

英伟达NVL72使用NVLink技术连接72个GPU,能提供万亿参数的人工智能模型构建,比以前的系统快30倍的速度提供实时推理。

 

 而华为此次推出CloudMatrix 384使用384个Ascend 910C芯片,提供300个Petaflops的密集BF16计算,几乎是英伟达的NVL72的两倍。它不仅在计算方面优于NVL72,而且还提供3.6倍的总内存容量和2.1倍的内存带宽。

 

图源:华为

不过,华为推出的这种机架级解决方案虽然提供了更高的性能,但却带来更高的功耗,总功耗近NVL72的4倍

 

SemiAnalysis 指出,在中国,电力供应并未构成主要限制。中国仍以燃煤发电为主,并持续扩展多种能源发电,能源增长速度为全球之冠。庞大的能源网络和基础设施将为其提供支持

 

报道称,CloudMatrix 384 Supernode目前已部署在华为位于安徽省中部芜湖的数据中心。

 

此前,英伟达H20芯片被无期限限制对华出口。一经限制,华为几乎立即发布了Ascend 920的消息。

 

华为表示,Ascend 920将使用6nm处理节点,预计每张卡将超过900 TFLOPs,并拥有使用HBM3模块的4 TB/s内存带宽。

 

相关人士称,920C变体相比前代Ascend 910C,效率将提高约30%至40%。而Ascend 910C已提供了英伟达H100的推理性能的60%左右,而英伟达H20的综合算力仅相当于H100的20%

 

此外,华为还与中国 AI 初创企业 SiliconFlow 合作,计划以 CloudMatrix 架构支援中国自研推理模型 DeepSeek-R1。

 

不过,报告同时指出,Ascend 910C 虽然完全由华为设计,但其制造过程高度依赖外国供应链,包括来自韩国的 HBM 高频宽记忆体、台湾 TSMC 提供的晶圆,以及美国、荷兰、日本制的半导体制造设备。

 

总结来看,CloudMatrix 384 展示出华为透过系统层级整合补足晶片代工不足的策略。虽然单晶片效能不敌 NVIDIA,透过大规模堆叠与光学网络扩展,华为成功在计算总体性能上实现「弯道爬头」,进一步缩短与西方科技巨头的差距。未来其挑战仍在于供应链自主与制造良率的提升

微信扫一扫,一键转发