新闻 发表于 2025-10-21 05:47

OCP 峰会:博通宣称 AI 效率提升 90%,重塑光互联供应链

作者:微信文章


https://mmbiz.qpic.cn/mmbiz_png/ZhAyWvrssJzVoQrxjlVt3vJNhFg8LanBD6tcwBjdich8wzD8X4RWxztpQjMibfPsEVpWCFanPCn8EoiapV8RqMiawg/640?wx_fmt=png&from=appmsg&wxfrom=5&wx_lazy=1&tp=webp#imgIndex=1



图片来源:DIGITIMES

在开放计算项目全球峰会(OCP Global Summit)上,博通(Broadcom)发布了共封装光学(Co-Packaged Optics,简称 CPO)技术的重大进展,宣称该技术已具备推动下一代 AI 计算集群变革所需的成熟度与可靠性。

博通表示,其最新架构使 AI 训练效率提升高达 90%,同时为光背板在大规模系统中替代铜缆铺平了道路。



图片来源:DIGITIMES

博通光学系统部门营销总监 Rajiv Pancholy 阐述了公司的 CPO 技术路线图,并分享了运营数据。数据显示,相较于传统电互联,CPO 技术如今能支持规模大得多的单节点 “纵向扩展” 领域。


超越铜缆:实现纵向与横向扩展
Pancholy 指出,当前的电背板(如英伟达的 NDL72)虽能实现机架内的纵向扩展,但要实现下一次飞跃,需依靠光背板实现整排设备的互联。

他表示,铜缆链路在带宽、传输距离和功耗方面存在局限,若不转向光互联,像 1024 颗 GPU 单节点这样的系统将无法实现扩展。

一个连接 16 个 GPU 机架和 4 个交换机机架、全规模运行的 200 太比特交换机,将完全依赖光连接。博通正与生态合作伙伴协作,优化光纤交换、盲插连接器、冷却和电源集成等关键组件,以确保此类系统具备可行性。



图片来源:DIGITIMES


经验证的可靠性:更低功耗、更高运行时间
博通及其超大规模合作方展示了验证 CPO 可靠性与效率的运营数据。Meta 的数据显示,共封装模块实现了 100 万小时无故障运行,证实其已具备支撑关键任务环境的能力。

功耗也达到了预期,每台设备约 5.5 瓦,相较于可插拔模块降低 65%,比每通道 100G 的低功耗设计降低 35%。

然而,最引人注目的数据是在 24000 颗 GPU 集群中观测到的 ——AI 训练效率提升 90%。这一成果得益于更高的平均无故障时间(MTBF),以及更少的 “链路波动”,而链路波动往往会导致训练过程从检查点重启。


简化AI 网络架构
CPO 技术还可能简化超大规模 AI 网络拓扑。如今,使用铜缆连接 50 万颗 GPU 需采用三层横向扩展交换架构,这会增加延迟、成本与功耗。而光背板可使同一系统在单层横向扩展网络上运行,通过纵向扩展以太网将纵向扩展与横向扩展领域整合为一体。


第三代CPO 平台 “Davidson” 登场
博通最新的 CPO 平台 ——“Tomahawk 6 Davidson”,每通道速率达 200G,总容量为 100 太比特。

为推进量产,博通正将引擎集成流程迁移至台积电,并将激光源标准化为 ELSFP 格式。此举旨在借助现有光模块供应链,降低量产难度。



图片来源:DIGITIMES


从后端部署到纵向扩展落地
Pancholy 强调,尽管 CPO 技术优势显著,但部署需分阶段推进。该技术将首先在后端横向扩展网络中广泛应用,收集性能数据后,再应用于 AI 集群中对故障极为敏感的纵向扩展领域(此类领域的停机成本极高)。

他未披露具体定价,但强调其价值核心在于整体系统效率。他表示,90% 的训练效率提升将为数据中心带来可观的运营成本节省。



图片来源:DIGITIMES

原文标题:

OCP Summit: Broadcom claims 90% AI efficiency jump, reshaping optical and interconnect supply chains

原文媒体:digitimes asia

来源:半导体产业研究声明:车乾信息以尊重原创、共同服务行业为原则。本公众号基于分享目的的转载,都会注明出处。转载文章的版权归原作者或原公众号所有,如涉及到侵权请联系021-31656996)
页: [1]
查看完整版本: OCP 峰会:博通宣称 AI 效率提升 90%,重塑光互联供应链