当前位置:主页 > 头条 > 正文

关于谷歌TPU性能大涨、Meta算力投资、光模块、以太网推动Scale Up...,一文读懂Hot Chips 2025大会要点

发布时间:2025-09-04 已有: 位 网友关注

  9月3日,摩根大通在最新研报中称,该行分析师在参加Hot Chips 2025大会后认为,AI在消费端和企业端的爆炸式增长将继续推动先进计算、内存和网络技术的多年强劲需求周期。

  研报称,大会上每个会议都强调AI是技术进步和产品需求的最重要驱动力,传递的核心信息是:AI基础设施需求的增长动能依然强劲,且正在从单纯的计算力竞争扩展到网络和光学技术的全面升级。该行认为,以下几个重要趋势值得关注:

  谷歌Ironwood TPU性能大幅跃升,与英伟达GPU性能差距快速缩小;Meta扩展100k+ GPU集群规模,未来十年预计增长10倍;网络技术成为AI基础设施关键增长点,以太网向Scale-up领域扩张;光学集成技术加速发展以应对功耗限制。谷歌Ironwood TPU:性能飞跃缩小与GPU差距

  摩根大通称,谷歌在大会上披露了Ironwood TPU的最新细节,展现出令人瞩目的性能提升。与TPU v5p相比,Ironwood的峰值FLOPS性能提升约10倍,功效比提升5.6倍

  Ironwood超级集群可扩展至9,216颗芯片,由144个机架组成,每个机架包含64颗芯片,总计1.77PB直接可寻址HBM内存和42.5 exaflops FP8计算能力

  这一数据突出表明,先进AI专用芯片正快速缩小与领先GPU的性能差距,推动超大规模云服务商加大对定制ASIC项目的投资。

  据摩根大通预测,该芯片采用与博通合作的3纳米工艺,将在2025年下半年量产。预计Ironwood将在未来6-7个月为博通带来90亿美元收入,生命周期总收入超过150亿美元。

  Meta定制化部署,凸显MGX架构优势

  研报指出,Meta在会上详细介绍了其定制NVL72系统Catalina的架构设计。与英伟达标准NVL72参考设计不同,Catalina分布在两个IT机架中,并配备四个辅助冷却机架。

  Meta表示,选择定制NVL72设计主要基于模型需求和物理基础设施考虑。模型需求不仅包括大语言模型,还涵盖排序和推荐引擎。物理基础设施方面,需要将这些功耗密集型系统部署到传统数据中心基础设施中。

  Meta强调,英伟达采用符合OCP标准的MGX模块化参考设计架构,为客户基于个性化架构需求进行定制化提供了可能。

  网络技术成焦点,Scale Up带来新机遇

  网络技术成为大会的重要议题,Scale Up和Scale Out领域都出现显著增长机会

  博通重点介绍了最新推出的51.2TB/s Tomahawk Ultra交换机,该公司将其描述为专为HPC和AI应用构建的低延迟Scale Up交换机。

  该行分析师指出,Scale Up特别代表着博通TAM扩展的重要机会,尤其是超大规模云服务商部署越来越大的XPU集群

  英伟达继续推进以太网布局,推出Spectrum-XGS以太网技术,旨在解决客户运行跨多个数据中心的分布式集群所产生的跨规模机会。

  英伟达称Spectrum-XGS相比现成以太网解决方案具有多项优势,包括无限制扩展和自动调整负载均衡,并宣布CoreWeave成为首个部署该技术的客户。

  光学技术深度集成,应对功耗和成本挑战

  光学技术成为大会另一焦点领域,多个演讲者强调了推动光学技术深度集成到AI基础设施的关键动力,包括铜互连的限制、快速增长的机架功率密度,以及光学收发器相对较高的成本和功耗。

  Lightmatter展示了其Passage M1000AI 3D光子互连器,解决了I/O连接位于芯片周边导致连接性扩展不如芯片性能扩展快速的挑战。M1000的核心是跨越4000平方毫米的有源多掩模光子互连器,能够在单个封装内创建大型芯片复合体。

  Ayar Labs讨论了其用于AI Scale Up的TeraPHY光学I/O芯片,这是UCIe光学中继器的首个实现,确保与其他制造商芯片的兼容性和互操作性。该技术支持高达8.192TB/s的双向带宽,功耗效率比传统可插拔光学器件加电气SerDes高4-8倍。

  尽管CPO和其他前沿光子技术尚未广泛部署,但分析师预计数据中心功耗限制将成为2027-2028年广泛采用的关键驱动因素。M1000的光学波导分布在整个芯片表面,消除了传统设计的海岸线限制,同时功耗显著低于电气信令。

  因此MI355X主要部署在液冷数据中心基础设施中,MI350X则主要服务于传统风冷基础设施的客户。

  性能方面,MI355X的计算性能较MI350X高出9%,但单芯片内存容量和带宽保持一致。

  部署配置上,MI355X可部署在最多128个GPU的机架系统中,而MI350X机架最多支持64个GPU,这主要由风冷系统与直接液冷系统的热管理能力差异决定。不过两者的Scale Up域都保持在8个GPU。

  AMD重申MI400系列及其Helios机架解决方案将按计划于2026年推出,摩根大通预计时间为2026年下半年,MI500系列计划于2027年发布

  摩根大通分析师认为,AMD在推理计算市场具备良好定位,该市场需求增长超过训练市场,AMD产品相对英伟达替代方案具有强劲性能和总体拥有成本优势。

温馨提示:所有理财类资讯内容仅供参考,不作为投资依据。