5pJ/bit的端到端能效背后,UCIe如何帮助Intel实现AI scale-up专用CPO
发布日期:
2026-05-27

浏览次数:

在今年的OFC会议上,Intel针对当下AI算力增长带来的严峻互连带宽挑战,带来了自己在共封装光学(CPO)领域的技术探索——包括目标兼容现有以太网生态的Ethernet CPO路径,Intel更全面介绍了基于Die-to-Die接口架构创新的OCI芯粒,专为Compute Fabric (AI Scale-up) 设计,旨在取代CPU/GPU之間的铜线连接。


传统“高速串行”接口已遇瓶颈

在过去的设计惯性中,光电转换通常依赖主机(Host)上的长距串行器/解串器(LR SerDes),追求单通道的极高频率。然而,Intel明确指出了这种传统“高速串行(High-Speed Serial)”架构的局限性:

  • 能效痛点:高功耗的主机I/O加上光学CPO,导致端到端的整体能效高达约 10 pJ/bit。在AI机架功耗告急的今天,这成为了难以承受的负担。

  • 岸线密度受限:受制于串行SerDes的物理尺寸,封装边缘的带宽密度被限制在500~800 Gbps/mm,难以满足未来Tbit级的吞吐需求。


Intel OCI的思路很直接:把高功耗的SerDes从主芯片里“摘”出来,做成一颗独立的OCI芯粒,紧贴光引擎放置。这样一来,主芯片与OCI芯粒之间只剩下极短的封装内走线,既省去了大功耗的远距离电SerDes,又释放了主机边缘的带宽密度。


架构是清晰的,但问题也随之而来:两颗独立的硅片靠得再近,终究需要一套物理层和协议层接口来通信。这个接口的能效、带宽密度和标准化程度,将直接决定OCI方案能否从实验室走向大规模商业化。


5pJ/bit的端到端能效背后,UCIe如何帮助Intel实现AI scale-up专用CPO

Intel设定的AI Scale up Optical的关键性能目标



Intel设定的AI Scale up Optical的关键性能目标

为什么这个位置非UCIe不可?


主机计算芯粒与OCI芯粒之间的连接,在工程上有四个极其苛刻的要求:


1、极致能效:留给电互连的“功耗预算”不多了


Intel OCI宣称的端到端<5 pJ/bit是一个总包数字。光引擎本身(激光器、调制器、探测器)已经吃掉了其中相当一部分功耗,留给片间电互连的预算被压缩到1 pJ/bit甚至更低。


如果此时采用传统的高速SerDes来连接两颗芯粒,哪怕是最先进的112G/224G SerDes,其单比特功耗也在3–5 pJ/bit量级——这意味着仅电接口一项就会让总功耗翻倍,彻底抹平光学方案带来的能效优势。


UCIe标准定义的Die-to-Die物理层,正是为这种极短距离、低摆幅场景而设计。在先进封装(如EMIB、CoWoS)条件下,UCIe通道的能效可以做到0.5 pJ/bit以下,使得总功耗控制在目标范围内成为可能。


2、恐怖带宽密度:主机边缘的“寸土寸金”


OCI芯粒的单颗带宽高达8Tbps,且未来向更高带宽演进是必然趋势。主机芯片边缘的可用周长是固定且宝贵的——每毫米能承载的带宽,直接决定了系统级互连的总容量上限。


传统SerDes由于需要ESD保护、复杂的模拟前端以及较大的物理间距,其边缘带宽密度通常在500–800 Gbps/mm(取决于工艺和速率)。而UCIe Advanced封装规范通过更紧凑的凸点间距和简化的模拟电路,可以将这一密度推高至1.5–3 Tbps/mm。


换言之,在标准化、跨厂商的开放性下,UCIe是唯一能在有限海岸线内容纳海量光互连带宽的物理方案。


3、异构生态的“通用语言”


Intel OCI芯粒的目标是作为开放代工平台的“乐高模块”,它需要与不同厂商、不同架构的计算芯粒对接——包括客户的定制化AI加速器。


如果每次对接都要重新设计一套私有D2D接口,OCI就从一个开放模块退化为定制项目,生态价值大打折扣。UCIe作为由台积电、Intel、AMD、Arm、NVIDIA等行业头部玩家共同维护的开放标准,恰好提供了这种跨厂商、跨工艺的互操作能力。它定义了从物理层到协议层的完整栈,使得一颗符合UCIe标准的OCI芯粒可以“即插即用”地集成到任何支持UCIe的主机平台上。


4、光电协议彻底解耦,释放“慢宽”潜能


UCIe提供了一个低功耗、协议透明的Die-to-Die通道,使得光引擎可以在架构上与主机I/O解耦,从而支持“慢宽”光学设计的实现。在Intel OCI上,得益于UCIe的连接,其光引擎可以独立优化,采用64G NRZ的密集波分复用(DWDM)格式。这种通过增加波长并行度、降低单通道速率和复杂度的“慢宽”设计,才是将核心电光组件功耗极限压缩的根本原因。


受制于先进制程的获取难度和单芯片面积的物理上限,国内AI芯片公司有了走Chiplet路线更充分的理由:将大算力芯片拆分为多个较小的芯粒,分别采用不同工艺节点制造,再通过先进封装合封在一起。开放的UCIe让芯粒之间的互连接口可靠、高效且不受限的连接,即便在供应链受限的情况下,国内厂商仍可以保持与全球Chiplet生态的技术兼容性。


作为国内深耕UCIe标准的IP供应商,奎芯科技的角色正是为这一生态提供“基础设施组件”,为国产AI芯片的Chiplet之路提供一张经过验证的、自主可控的标准化入场券。


参考:Integrated Optical I/OChiplets for Bandwidth Scaling in AI Infrastructure-Intel OFC 2026