5pJ/bit的端到端能效背后，UCIe如何帮助Intel实现AI scale-up专用CPO

发布日期：

2026-05-27

浏览次数：

在今年的OFC会议上，Intel针对当下AI算力增长带来的严峻互连带宽挑战，带来了自己在共封装光学（CPO）领域的技术探索——包括目标兼容现有以太网生态的Ethernet CPO路径，Intel更全面介绍了基于Die-to-Die接口架构创新的OCI芯粒，专为Compute Fabric (AI Scale-up) 设计，旨在取代CPU/GPU之間的铜线连接。

传统“高速串行”接口已遇瓶颈

在过去的设计惯性中，光电转换通常依赖主机（Host）上的长距串行器/解串器（LR SerDes），追求单通道的极高频率。然而，Intel明确指出了这种传统“高速串行（High-Speed Serial）”架构的局限性：

能效痛点：高功耗的主机I/O加上光学CPO，导致端到端的整体能效高达约 10 pJ/bit。在AI机架功耗告急的今天，这成为了难以承受的负担。
岸线密度受限：受制于串行SerDes的物理尺寸，封装边缘的带宽密度被限制在500~800 Gbps/mm，难以满足未来Tbit级的吞吐需求。

Intel OCI的思路很直接：把高功耗的SerDes从主芯片里“摘”出来，做成一颗独立的OCI芯粒，紧贴光引擎放置。这样一来，主芯片与OCI芯粒之间只剩下极短的封装内走线，既省去了大功耗的远距离电SerDes，又释放了主机边缘的带宽密度。

架构是清晰的，但问题也随之而来：两颗独立的硅片靠得再近，终究需要一套物理层和协议层接口来通信。这个接口的能效、带宽密度和标准化程度，将直接决定OCI方案能否从实验室走向大规模商业化。

5pJ/bit的端到端能效背后，UCIe如何帮助Intel实现AI scale-up专用CPO

Intel设定的AI Scale up Optical的关键性能目标

Intel设定的AI Scale up Optical的关键性能目标

为什么这个位置非UCIe不可？

主机计算芯粒与OCI芯粒之间的连接，在工程上有四个极其苛刻的要求：

1、极致能效：留给电互连的“功耗预算”不多了

Intel OCI宣称的端到端<5 pJ/bit是一个总包数字。光引擎本身（激光器、调制器、探测器）已经吃掉了其中相当一部分功耗，留给片间电互连的预算被压缩到1 pJ/bit甚至更低。

如果此时采用传统的高速SerDes来连接两颗芯粒，哪怕是最先进的112G/224G SerDes，其单比特功耗也在3–5 pJ/bit量级——这意味着仅电接口一项就会让总功耗翻倍，彻底抹平光学方案带来的能效优势。

UCIe标准定义的Die-to-Die物理层，正是为这种极短距离、低摆幅场景而设计。在先进封装（如EMIB、CoWoS）条件下，UCIe通道的能效可以做到0.5 pJ/bit以下，使得总功耗控制在目标范围内成为可能。

2、恐怖带宽密度：主机边缘的“寸土寸金”

OCI芯粒的单颗带宽高达8Tbps，且未来向更高带宽演进是必然趋势。主机芯片边缘的可用周长是固定且宝贵的——每毫米能承载的带宽，直接决定了系统级互连的总容量上限。

传统SerDes由于需要ESD保护、复杂的模拟前端以及较大的物理间距，其边缘带宽密度通常在500–800 Gbps/mm（取决于工艺和速率）。而UCIe Advanced封装规范通过更紧凑的凸点间距和简化的模拟电路，可以将这一密度推高至1.5–3 Tbps/mm。

换言之，在标准化、跨厂商的开放性下，UCIe是唯一能在有限海岸线内容纳海量光互连带宽的物理方案。

3、异构生态的“通用语言”

Intel OCI芯粒的目标是作为开放代工平台的“乐高模块”，它需要与不同厂商、不同架构的计算芯粒对接——包括客户的定制化AI加速器。

如果每次对接都要重新设计一套私有D2D接口，OCI就从一个开放模块退化为定制项目，生态价值大打折扣。UCIe作为由台积电、Intel、AMD、Arm、NVIDIA等行业头部玩家共同维护的开放标准，恰好提供了这种跨厂商、跨工艺的互操作能力。它定义了从物理层到协议层的完整栈，使得一颗符合UCIe标准的OCI芯粒可以“即插即用”地集成到任何支持UCIe的主机平台上。

4、光电协议彻底解耦，释放“慢宽”潜能

UCIe提供了一个低功耗、协议透明的Die-to-Die通道，使得光引擎可以在架构上与主机I/O解耦，从而支持“慢宽”光学设计的实现。在Intel OCI上，得益于UCIe的连接，其光引擎可以独立优化，采用64G NRZ的密集波分复用（DWDM）格式。这种通过增加波长并行度、降低单通道速率和复杂度的“慢宽”设计，才是将核心电光组件功耗极限压缩的根本原因。

受制于先进制程的获取难度和单芯片面积的物理上限，国内AI芯片公司有了走Chiplet路线更充分的理由：将大算力芯片拆分为多个较小的芯粒，分别采用不同工艺节点制造，再通过先进封装合封在一起。开放的UCIe让芯粒之间的互连接口可靠、高效且不受限的连接，即便在供应链受限的情况下，国内厂商仍可以保持与全球Chiplet生态的技术兼容性。

作为国内深耕UCIe标准的IP供应商，奎芯科技的角色正是为这一生态提供“基础设施组件”，为国产AI芯片的Chiplet之路提供一张经过验证的、自主可控的标准化入场券。

参考：Integrated Optical I/OChiplets for Bandwidth Scaling in AI Infrastructure-Intel OFC 2026

上一篇:HBM4：当带宽竞争从DRAM转向Memory Interface下一篇:光进铜退进行时：UCIe如何成为慢宽CPO的“天选接口”