奎芯Chiplet D2D 接口技术—片内封装级互联
发布日期:
2023-04-23

浏览次数:

从互联层级认识接口IP

奎芯Chiplet D2D 接口技术—片内封装级互联


往往非专业的从业者(比如小编)认识接口IP都是从某一类专业名词,在结合具体应用的场景以及该类接口所能提供的数据传输的速率来建立认知,今天我们换个角度,从数据传输的距离来分类,来认识一下计算体系互联的不同层级的接口。


首先在芯片内部或者说封装内部的互联,它的距离是最短的,一般不超过2mm,延迟也最低,带宽的密度也是最大的,这个就是所谓的Die to Die(D2D)这个层级;其次向外扩展来到了芯片级,服务器里多个芯片之间,芯片和加速器之间的互联,延迟增加一个数量级,带宽降低一个数量级,这里就会有一些主流的协议去做,比如Intel 的UPI、IBM的OpenCAPI,和华为HCCS;再向外扩展就是板卡和模块间的互联,带宽下降的同时,延迟又会上升一个数量级,比较熟知的例如PCIe、CXL以及NV-LINK都是这个层次的协议,最后就是扩展到机架之间,服务器和服务器之间的互联,一般通过网络的协议来实现。目前市场上被广泛关注的技术当属片内封装级互联了,也就是目前常说的D2D接口技术。


Chiplet历史,大算力时代的选择


奎芯Chiplet D2D 接口技术—片内封装级互联


FPGA很早的时候就采用Chiplet技术,甚至用了3D的封装,但是这些产品的出货量比较小,也不具备典型性,直到15,16年AMD ZEN系列处理器出来后,这个技术才被广泛的传播开来。现在Chiplet用的最多的还是处理器领域,或者说大规模算力的处理器。


时代选择Chiplet的原因:


降低成本:先进工艺发展到了7nm,5nm以后,制造成本是一个急剧上升的状态,那么如果说把大的芯片切成小的die,良率会提升很多,变相的会降低很多成本;


异构集成:不同工艺裸die做合封。除了成本之外,更多的是从技术工艺方面的考量,让一些本来不太适合做先进工艺的设计,用成熟的工艺来做(有一些电路可能在成熟工艺上反而会做的更好一些,功耗还可以节省)。


复用和定制化:更大程度上实现复用,能降低IP的porting成本。比如说本来有一些不同的工艺,需要去对这个电路进行porting。Chiplet技术下,可以做一个工艺的die用在不同的产品里面。


Chiplet商业化对开发生态也有深远的影响,复杂芯片未来可以通过来自不同的供应商的Chiplet产品来进行拼装,这样能满足市场需求,也可以降低芯片开发的门槛,缩短开发周期以及上市时间,让专业的公司做专业的事情,大家可以细化分工,不需要每家公司都成为一个标准的SOC公司。


Chiplet接口类型


奎芯Chiplet D2D 接口技术—片内封装级互联

D2D接口的实现,一般有两种架构:


(1) SerDes串行架构:一种就是用传统的这个Serdes架构,时钟合并在数据中,一般用差分对的形式来传输。

优点:优点:单位的data rate非常高,加上PAM4的编码,有一些比较先进的技术可以做到112G,因此单位距离的带宽有比较大的优势;另外就是pin脚的需求比较少;

缺点:较高的功耗和延迟,所以基本用的普通基板封装(MCM)。


(2) 类DDR并行架构:另外一种架构就是类DDR的架构,属于并行总线架构。

优点:这种架构会比较轻量,延迟和功耗会低很多;

缺点:这种一般是用单端信号传输,需要时钟forward clock过去,那单lane的速率相对会比较低;IO数量会高很多,因此更加适合距离很短,线距很小的先进封装。


奎芯Chiplet D2D 接口技术—片内封装级互联

UCIe是由主要的CPU公司(Intel)推广的,目前市面上最为“开放”和“完整”的Chiplet互联协议。早在UCIe之前,国际头部XPU企业和组织推广的Chiplet D2D接口协议均有产品落地,只是在各自的生态底下做。例如Intel的AIB和AIB+、JEDEC的HBM、ODSA的Open-HBI和BOW,这些标准模式接口都是属于并行总线架构,XSR/USR就属于Serdes架构,但是上述这些协议大多数以定义电气层和物理层为主,对于协议层都需要一些定制化或者定义的比较模糊,需要随项目去做一些优化来兼容或配合现有协议。而UCIe也采用并行总线的架构,其协议层定义很完整,同时支持PCIe、CXL等多种协议。


根据应用场景的分类,D2D接口可以实现C2M(Computing to Memory)、C2C(Computing to Computing)、C2IO(Computing to I/O)、C2O(Computing to Others)各种各样的互联。


UCIe定义支持了多种封装类型,包含标准2D的MCM的封装,2.5D先进封装,如bridge、Cowos、info等等。


在封装内部,UCIe本身针对不同的封装定了一些非常关键的指标,包括速率、线距、线宽、封装形式、带宽密度、功耗、延迟等。UCIe协议对于功耗和延迟的指标要求是非常高的,延迟要求在2ns以内,这个实际上是应该是所有协议里面最高要求;功耗方面:先进封装要小于0.25 pJ/bit,普通封装要小于0.5 pJ/bit。对于设计来说是很大的挑战。除了常规的物理PHY层以外,UCIe中间的adapter层非常关键,它需要实现多种协议的仲裁,也将一些纠错、重传机制、还有link management功能放进去了。


奎芯Chiplet D2D 接口技术—片内封装级互联


奎芯科技针对不同的客户需求推出M2LINK计算体系互联方案,参照互联层级的标准,其中M2LINK-D2D和M2LINK-D2M是片内封装级的方案,M2LINK-C2C则支持芯片间以及板卡间的互联需求,M2LINK-C2M主要支持Switch/ASIC芯片到硅光芯片之间的高速互联,基于112G LR SerDes,支持PAM 4编码。奎芯M2LINK-D2D的方案采用DDR架构,支持UCIe和中国chiplet互联标准,可以提供PHY和Adapter Layer的组合的产品,针对MCM封装以及2.5D封装的互联接口分别支持最大16Gbps和32Gbps的传输速率,均能最大发挥出DDR架构下低功耗、低延迟和高带宽密度的优势。


除了提供chiplet产品之外,我们还可以通过我们强大的供应链资源,以及系统整合能力,为客户打造一站式chiplet解决方案,客户只需要提供核心计算die,我们可以从系统设计,到非核心die,到interposer的设计,通过和foundry以及OSAT的合作,为客户提供turnkey服务。