通过CPO和异构集成克服互连瓶颈

人工智能 (AI) 的飞速发展已经超越了传统单体计算架构的能力。业界正在转向系统化方法，即利用大规模分布式 GPU/AI 加速器集群作为单一的统一计算引擎，来支持下一代万亿参数模型。

共封装光器件 (CPO) 在提升该架构的互连效率方面具有巨大潜力，但也面临着带宽密度不匹配、组装复杂以及光纤精确对准等挑战。本文探讨了在下一代人工智能集群中采用 CPO 的机遇和挑战。

规模化/横向扩展解决方案的技术趋势

AI 数据中心基础设施由两种不同的扩展策略定义：纵向扩展和横向扩展。

规模化部署：专注于在机架内，甚至机架外，构建统一的高性能计算实体（AI POD）。目前的实现方案，例如 GB200 NVL72，利用低损耗铜缆和 NVLink、UALink 或规模化以太网 (SUE) 等协议，通过 NVSwitch 将数十个 GPU（例如 72 个 B200 GPU）互连，使它们能够作为一个单一的逻辑单元运行。
横向扩展：连接数据中心内的多个 AI Pod，以分散海量工作负载。该层通常采用 InfiniBand 或以太网进行长距离（>100 米）传输。

虽然横向扩展网络目前正在采用 CPO 交换机来减轻远距离传输时的信号损耗和功耗，但下一个发展阶段是将硅光子技术集成到纵向扩展层中，以超越铜缆的带宽距离限制。

光学引擎带宽和效率的演变

基于硅光子技术的可插拔光收发器自 2018 年问世以来，其光引擎 (OE) 的布局发生了显著变化。光引擎不再位于前面板收发器中，而是可以集成到更靠近交换机专用集成电路 (ASIC) 的位置（近封装光器件）或集成到同一封装内（共封装光器件）。这种集成方式缩短了电路路径，从而提高了带宽、降低了功耗并增强了可扩展性。

五年内，集成到光电器件中的电子集成电路 (EIC) 和光子集成电路 (PIC) 的进步，使得带宽密度提高了 64 倍，同时能源效率提高了 5 倍。

传统的可插拔收发器每比特功耗为 20–30 皮焦耳 (pJ)，而 CPO 实现方案的目标功耗约为 5 pJ/比特，光电带宽可扩展至 3.2 至 6.4 T。这些数据令人印象深刻。以下是一个简单的对比，以便更直观地了解其优势：

解决方案类型	能源效率	带宽能力
传统可插拔收发器	20-30 pJ/bit	高达800G
板载光学器件	~20 pJ/bit	高达1.6T
共封装光学器件	<5 pJ/bit	3.2T – 6.4T

一张图表展示了各种光网络技术，从板外解决方案到封装内解决方案，显示了能源效率和带宽。

CPO实施中的挑战

尽管理论上具有优势，但将 CPO 扩大规模进行大规模生产面临着巨大的异构集成挑战。

1. 带宽密度不匹配

AI芯片的边缘带宽密度与现有光互连之间存在显著差距。采用UCIe或OIF标准的AI芯片可实现约3太比特每秒/毫米（Tbps/mm）的带宽密度。相比之下，目前最先进的CPO解决方案仅能达到约0.5 Tbps/mm——相差六倍。

这种差异凸显了设计尺寸更小的光子集成电路（PIC）和缩小光纤阵列单元（FAU）规模的迫切需求。由于光纤间距通常超过100微米，因此制造紧凑型、可拆卸的FAU面临着真正的工程挑战。虽然波分复用（WDM）和密集波分复用（DWDM）等技术可以减少光纤数量，但确保波长在温度变化下的稳定性仍然是一个难题。

图示 CPO 中的带宽密度差距，包括光纤连接、芯片和封装基板布局。

2. CPO组装的复杂性

CPO的组装涉及多种组件，包括激光器、光学器件、光纤阵列单元（FAU）和硅集成电路（IC），这些组件分布在不同的晶圆节点上。这一复杂的过程需要一丝不苟地关注细节，尤其是在EIC和PIC的集成方面。目前正在探索两种主要方法来实现更高的带宽密度：

光子 FOPoP：将 PIC 置于 EIC 之上，采用晶圆级扇出工艺和铜柱实现垂直连接。

光子 3D：将光子集成电路（PIC）置于底部，利用硅通孔（TSV）与顶部安装的集成电路（EIC）连接。这种配置具有卓越的散热性能，并支持每通道超过200G的数据传输速率，使其成为高性能应用的首选方案。

3. 光学对准和耦合

虽然光子集成电路（PIC）的制造精度很高，但其他组件可能无法达到相同的标准，从而导致潜在的制造误差。为了解决这个问题，通常需要采用主动对准（AA）技术——这是一个耗时的过程，它利用实时反馈来优化光耦合。在传统的可插拔光器件中，光纤阵列单元（FAU）通过对接或光栅耦合（GC）的方式，利用主动对准技术进行连接，然后用环氧树脂永久粘合。这使得一旦单根光纤发生故障，就无法进行修复。

为了提高可维修性和可升级性，业界正转向可拆卸式FAU解决方案。然而，这些方案在亚微米级对准精度和多次配合循环的重复性方面面临挑战，同时还需满足大批量生产（HVM）的需求。一种很有前景的方法是利用晶圆级光耦合器来扩大激光束尺寸，从而显著提高耦合容差并实现更具可扩展性的组装。

4. 已知良好光学引擎（KGOE）

为了在复杂的CPO组装工艺中保持良率，必须在最终组装前对光引擎（OE）进行验证。首选方法是双面晶圆级测试，即通过自动测试设备（ATE）同时与晶圆的一侧连接，并通过可拆卸光插座与另一侧连接。

图表比较了光子 FOPoP 和光子 3D 技术，重点介绍了光耦合和功率传输的设计特点和优势。

然而，这种方法不适用于光子FOPoP配置，因为EIC的I/O和PIC的光耦合区域位于同一侧。在光子3D配置中，带有TSV的PIC的厚度通常小于100微米，考虑到可拆卸插座弹簧力和ATE探测力通常在千克级，因此需要加强结构来承受双面晶圆级测试。

展望未来：CPO 广泛应用之路

通过CPO和异构集成扩展AI基础设施的道路既充满机遇又充满挑战。下一代CPO解决方案需要在带宽密度和能效方面实现显著提升。“已知良好OE”的概念对于确保高良率至关重要，这需要设计稳健可靠，并兼容自动化测试设备（ATE）和可插拔插座的受力特性。

半导体生态系统各环节的协作——从电子集成电路（EIC）和图像处理芯片（PIC）设计师到封装专家和系统集成商——对于克服这些挑战至关重要。随着芯片封装（CPO）技术和封装创新不断进步，半导体行业已做好准备，满足下一代人工智能对性能、效率和可扩展性的需求。

来源：semiengineering， ASE Vincent Lin，侵删

通过CPO和异构集成克服互连瓶颈

作者808, ab

作者 808, ab

相关文章

The 4nd Glass Substrate TGV Industry Chain Summit Forum

CPO正在拓展人工智能数据中心领域可能性的边界

重磅突破！兆驰Micro LED CPO方案光芯片正式送样

You missed

通过CPO和异构集成克服互连瓶颈

长电科技已初步验证玻璃基板在大尺寸FCBGA的应用

下一代先进封装技术的四种路径

这家玻璃基板TGV企业获得投资