晚点聊 LateTalk - 115: 华为发布超节点,如何搅动AI算力市场?与魔形智能徐凌杰聊芯片层新变化

简介
「从拼单颗芯片的性能,到优化多芯片互联的系统。」
AI 算力,现在是中美都最关注的 AI 底层竞争力。约 1 个月前,华为推出由 384 块昇腾 910 互联而成的/超节点 AI 集群,CloudMatrix 384。
图注:这是超节点发布会上展示的 CloudMatrix 服务器机柜组,如播客中介绍的,一共是 12 台机柜(每台机柜里又有 4 个服务器),中间有光纤、交换机等部件连接。
华为超节点发布后不久,我邀请有 20 多年芯片从业经验的徐凌杰来一起聊一聊这项算力底层的新变化。
自 2000 年代中期,徐凌杰先后在英伟达、AMD 和三星,参与设计 GPU 架构。后来加入阿里云,领导GPU 云计算基础设施的搭建;2019 年与张文等人联合创立国产 GPU 公司壁仞科技;2024 年开始新创业,成立魔形智能,专注 AI 算力集群产品设计和优化。
超节点本身就是一种从拼单芯片性能,到优化整个节点和机架的算力思路变化,徐凌杰的从业经验正好匹配了这一趋势。
本期节目的第一部分,我们聊了华为 CloudMatrix 384 是什么,它和英伟达 2024 年开始重磅推出的集群方案 NVL72 的异同。不止英伟达、华为,把节点做得越来越大,从集群芯片数量要性能,以网络能力弥补计算和存储的瓶颈,已成为算力市场的共识性趋势。
在第二部分,我们则主要讨论了超节点趋势,对英伟达、对其它国产芯片,对整个 AI 算力市场的可能影响,和一个“经典问题”:下一个改变算力格局的变量可能是什么?
节目录制后不久,华为超节点开始出货。据《金融时报》报道,一套完整的 CloudMatrix 384 售价约 800 万美元,是售价约 300 万美元的 NVL72 的 2 倍多。但要注意,这并不是华为的官方价格信息。
5 月 7 日,华为盘古大模型团队又在预印本平台 Arxiv 发表了一篇论文,称在 6000 多块昇腾芯片组成的超大集群上,实现了 7180 亿(718B)参数 MoE 模型的长期稳定训练。
本期嘉宾:
徐凌杰,魔形智能CEO,邮箱:lingjie@magikcompute.ai
时间线跳转:
- 华为 Cloud 384 集群 & 把节点做大的趋势
03:15 CloudMatrix 384 是什么?Scale up vs Scale out
08:33 算力底层构成,不止 GPU,还有互联、网络、冷却等综合系统
11:09 NVLink、NVSwitch 是英伟达的另一重壁垒,69 亿美元收购 Mellanox 前后开始布局
18:22 广义与狭义的 AI Infra
20:38 第三方系统优化公司的机会?——同时掌握计算、网络能力的芯片原厂是少数
22:51 “超节点”好坏,看什么指标?
29:08 黄仁勋想推“训推一体”,实际上业界在怎么用 GPU?
33:17 模型越大,显存压力越大——显存正成为芯片主要成本
36:02 华为超节点功耗高,但中国电费成本相对小,以总量换性能
38:11 华为的多卡互联来自什么积累 ——华为在成为 Nvidia 之前已是一个 Mellanox
42:57 NV Switch 为何难?去年 AMD 49 亿美元收购 ZT 补能力
- 超节点趋势,对英伟达和 AI 算力市场的影响
45:43 华为超节点,短期不冲击英伟达,压力给到其它 AI 国产芯片商
47:51 英伟达 H20 已计提 55 亿美元损失,但可能通过技术手段提升部分性能
51:19 华为在阿里 Qwen3 发布当天宣布支持
55:12 英伟达上游有全球供应链支持,下游有客户生态,危险之一是客户集中
01:00:44 为什么 Google TPU 没有动摇英伟达的地位?
01:04:23 可能是 Nvidia 的“防守措施”:已成立“半定制”部门
01:06:17 为什么离开英伟达,十年前的老黄是什么样?
01:12:01 2024 年选择创业:看到芯片周边集群优化能做出差异化,也是长坡厚雪
01:18:44 新硬件架构的苗头?——存算一体、类脑计算(脉冲神经网络)
相关链接
Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs(盘古超级混合专家模型:如何在昇腾 NPU 上训练超大规模混合模型
晚点聊 103:用 Attention 串起大模型优化史,详解DeepSeek、Kimi最新注意力机制改进
晚点聊 49:3nm 是谎言?光刻工厂真能造芯片?与汪波聊芯片行业那些流传的误解
晚点聊 32:最怕客户来参观的行业:和谈三圈仔细谈谈芯片
附录:
GPU、GPGPU、ASIC、NPU:都是可以做 AI 模型训练和推理的 AI 芯片。GPU 是图形处理器,GPGPU 是针对通用计算(而非图形任务)优化的 GPU,AISC 是专用集成电路,它的性价比理论上比GPU 更好,但不如 GPU 通用;NPU(Neural Processing Unit)也是一种 ASIC。
DPU(Data Processing Unit)::数据处理单元,用于优化网络通信、安全和存储操作,减轻 CPU和 GPU 的负担,提升AI 算力中心整体性能。
GPU 的精度:如节目中提到的 FP8((8位浮点数)、INT8((8位浮点数) 都是 GPU 精度的一种,是不同的数据格式标准。DeepSeek-V3 和 R1 就是在预训练阶段使用了以 FP8 为主的混合低精度训练方法。
总线(Bus):计算机内部用于传输数据、地址和控制信号的通信系统,连接 CPU、内存和外设等组件,确保信息在各部分之间高效传递。
高速互联协议:用于在计算系统内部或系统之间实现高速、低延迟的数据通信的协议,如英伟达的NVLink、InfiniBand(由 IBTA 协会开发)和 PCIe (由 Intel、Dell、HP、IBM 等公司成立的联盟 PCI-SIG 开发),支持大规模并行计算和数据中心的高效运行。
Mellanox:一家提供高性能互联解决方案的以色列公司,英伟达在 2019 年以 69 亿美元收购了 Mellanox。
ZT Systems:2024 年,AMD 则以 49 亿美元收购了 ZT Systems,为云计算厂商设计、制造和部署复杂的计算、存储和加速器解决方案。
NVSwitch:英伟达推出的高带宽交换芯片,支持多 GPU 间的全互联通信,可提升系统整体性能和可扩展性。
NVLink:英伟达开发的高速互联技术,提供高带宽、低延迟的 GPU 与 GPU、GPU 与 CPU 之间的通信,支持大规模并行计算和深度学习任务。
Dynamo:英伟达推出的开源推理软件平台,支持多种 AI 框架和硬件架构。在谈到英伟达收购 Lepton.ai 的背景时提及。
英伟达的费米(Fermi)架构:英伟达 2010 前后开发、推出的 GPU 架构,开发过程很不顺利,经历两次流片失败。
神经脉冲(Neuromorphic Computing):模拟人脑神经网络结构和功能的计算方法,用脉冲神经网络处理信息,特点是高效能、低功耗。(人脑的功耗就比较低,只有 20 W 左右)
存算一体(Compute-in-Memory):将计算功能集成到存储器中的计算架构,减少数据在存储器和处理器之间的传输,提高计算效率和能效,适用于大规模数据处理和人工智能应用。
剪辑制作:甜食、Nick
本期主播:小红书 @曼祺_火柴Q,即刻 @曼祺_火柴Q
☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆
欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。
这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。
请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。
关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章: