5月30日,黄仁勋说了句话,马上就成了半导体圈里的热议话题。他这是第一次公开承认,华为的AI芯片性能已经差不多能和NVIDIA最新的H200媲美了。
之前不管是接受采访还是和分析师开电话会,他一直很小心,提到华为时总是用“他们挺厉害”、“竞争越来越激烈”这样模糊的话来打发。但这回他终于直接说了业界早就流传的秘密“根据我们目前最准确的信息,华为的技术大概和H200差不多。”
光听这句话可能没太多人明白它有多重要。要知道,H200是NVIDIA今年3月刚出的顶级AI训练芯片,和GB200一起撑起了NVIDIA的算力大厦。
过去大家普遍觉得,华为昇腾在核心AI训练性能上比NVIDIA的H100差一点,最多在A100到H100的档次之间。这次黄仁勋的说法,直接把华为拉到了H200这个水平。这个差距背后,其实隐藏着技术的大跨越和行业的深远影响。
为什么黄仁勋在这时候选择开口?
NVIDIA一直在保持一种微妙的平衡。它要在资本市场、政府的关系和客户之间谨言慎行,特别是说到中国厂商,任何话都可能被过度解读。
这次黄仁勋主动承认华为追上H200,更多是在释放一个信号NVIDIA已经没了时间优势,被华为追了上来。
从时间线H100是在2022年下半年发布的,而华为昇腾910B真正开始大规模集群应用是到2023年底。当时普遍认定华为还落后NVIDIA一代。
但到了H200时代,双方几乎同时发力,华为甚至在集群系统能力上做出了更大胆的布局——这就是他提到的CloudMatrix 384系统。
换句话说,黄仁勋这次表态,不只是认可华为的技术水平,更是向行业宣告华为不再是跟跑者,而是直接竞争对手了。
CloudMatrix 384背后有什么不一样?
让黄仁勋罕见点名的,绝不仅是单颗芯片的参数,更重要的是华为在集群设计上的创新。
CloudMatrix 384的关键就在于“全互连拓扑”。它不像NVIDIA那样靠复杂的PCB桥接NVlink,而是用高密度的光电互连,把384颗昇腾芯片链接成低延迟的统一算力池。
这让大模型训练时,数据分片和分布式计算更高效,减少了算力浪费和通信瓶颈。整个系统能提供300PFLOPs的BF16算力,差不多是NVIDIA GB200 NVL72系统的两倍。
NVIDIA的硬实力不用怀疑,但他们设计系统时还是更偏向北美高端数据中心的生态。华为则完全围绕中国大规模本地训练需求设计,两者的技术路线开始明显分叉。
CloudMatrix 384不是一时冲动,而是华为从昇腾910A、910B这些年积累分布式训练经验的结晶。
软件层面,华为的CANN架构和MindSpore框架早就准备多时,硬件调度和芯片间通信也经过多次现实场景的打磨。现在看到的高效集群,实际上是长期被“卡脖子”逼出来的成果。
华为的思路不再只看“单芯片”
华为很早就从盯着单颗芯片的性能转向看整体系统的表现。拿昇腾910B来说,虽然它的制程和散热可能不如NVIDIA H200顶尖,但整个集群的调度、能效和稳定性都做得不错,靠整体设计弥补了单点上的差距。
黄仁勋特别提到CloudMatrix,也就说明他很清楚这种不同路线带来的挑战。
尤其现在大模型训练向10万亿参数甚至更大规模冲刺,芯片之间通信效率变得特别关键,这也是CloudMatrix敢挑战NVL72的底气所在。
H200时代,NVIDIA的专利护城河开始被撼动
NVIDIA真正厉害的不只是芯片本身,还有它一整套软硬件绑定的生态系统CUDA框架、各种优化库、通信协议、NVlink高速桥。这让开发者离不开NVIDIA的环境。
很多厂商就算搞出性能差不多的芯片,也因为软件迁移难、生态兼容差而做不起来。
华为这边,软硬件自给自足非常罕见。从CANN算子库、AscendCL语言封装到MindSpore训练框架,整套垂直集成的能力把软件迁移的“死亡谷”缩小了很多。特别是在他们自家的大模型盘古、昇思、云脑上,这套内生训练平台已经绕过了NVIDIA的传统体系。
黄仁勋之前轻描淡写,是因为他明白NVIDIA生态的粘性。但随着CloudMatrix和华为云,加上国内大模型客户慢慢跑通了这套闭环,他不得不面对这个新的事实。
业界最怕的不是技术,而是产业分裂
NVIDIA最不想见到的,是AI计算产业全球供应链的割裂。它的商业模式靠的是全球市场芯片设计在美国,代工在台积电,封装有三星和台湾厂商,客户是全球云厂商。
而华为搞的是完全本地自研,从技术到系统都闭合成一个圈子。
如果这种“系统级国产替代”模式在AI训练领域成功,可能会形成一个和NVIDIA脱节的算力市场。这不只是技术差距的问题,更是产业结构的竞争。
黄仁勋说“他们发展速度非常快”,其实更多是担心全球市场格局变了,而不是单纯芯片性能焦虑。
华为靠的是耐力和长线投入
如果说NVIDIA强在技术爆发力和资本效率,华为靠的就是骨子里的韧劲和长期投入。
尽管面临多轮制裁,华为一直没停下昇腾架构、算子优化和集群调度系统的打磨。尤其是硬件通信互连、液冷散热和能效优化,都积累了不少经验。
黄仁勋说CloudMatrix规模甚至比Grace Blackwell还大,就是看到了华为在系统工程上的深厚实力。这里比拼的不只是芯片,更是整体工程能力。
比赛下半场刚开始
黄仁勋这次点名华为,实际上是在告诉大家,行业节奏已经换挡。昇腾赶上H200,不是终点,而是新的竞争起点。
未来,华为能不能在更大模型、更低功耗、更稳定集群上持续领先,会决定AI训练产业的下一次洗牌。而NVIDIA在GB200之后,要面对生态壁垒和市场分裂的双重挑战。
这场AI算力的较量,恐怕比当年手机芯片、服务器芯片的竞争还要激烈。