(原标题:IBM最强芯片,剖面图曝光)
公众号记得加星标??,第一时间看推送不会错过。
来源:内容编译自nextplatform。
如果您需要一个能够支持数十 TB 内存、数十个 PCI-Express 外围设备插槽、数千个直接连接的存储设备的大型、强大的盒子,所有这些都将输入到数百个可以跨越该内存占用空间并具有大量带宽的内核中,那么您没有太多选择。
这就是为什么 IBM 仍然拥有基于其 Power 系列 RISC 处理器的 Power Systems 服务器业务的原因之一。该系列处理器支持 IBM 自主研发的 Unix 变体、其专有且备受推崇的 IBM i(以前称为 OS/400)以及 Linux 操作系统。而这款“大型机”的盈利能力,以及需要大型 NUMA 机器的客户对这些机器的完全依赖,使其能够支持海量事务型数据库管理系统及其周边应用程序,正是蓝色巨人仍然有能力投资 Power 处理器的原因。
因此,Power11 处理器于上周推出,并将于 7 月 25 日开始在一系列入门级、中端和企业级服务器上发售。
从某种程度上来说,Power11 芯片是 2021 年 9 月首次亮相的 Power10 芯片的深度分类。
Power10芯片经历了一段艰难时期,芯片代工合作伙伴GlobalFoundries先后取消了10纳米和7纳米制造工艺。同样的工艺转型对英特尔来说也是一次史诗级的失败,而制造工艺的一次又一次推迟,让AMD有机会凭借其兼容的Epycs芯片超越Xeon X86服务器芯片,AMD的市场份额也从此不断增长。
格芯于 2014 年 10 月收购了 IBM 微电子公司,并负责当时正在进行的蓝色巨人 14 纳米工艺的产品化。据我们所知,GlobalFoundries 采用 14 纳米工艺蚀刻的 Power9 芯片上市晚了大约一年,而 IBM 花了一整年的时间才在 2018 年提高产量。(首批 Power9 芯片于 2017 年底交付,分别用于橡树岭国家实验室的“Summit”超级计算机和劳伦斯利弗莫尔国家实验室的“Sierra”超级计算机,并通过 NVLink 互连配对,与 Nvidia“Volta”V100 GPU 加速器共享内存。曾经应该有一个 Power9' - 这是一个“素数”符号,用于表示低于“+”的更新,通常意味着工艺缩小,并且通常意味着 Power 处理器系列中插槽中的芯片数量翻倍 - 但这从未发生过。(Power8' 是将 Power8 芯片与 NVLink 端口紧密耦合到 Nvidia“Pascal”P100 GPU 加速器的试验台。)
正如我们在 2021 年 6 月 IBM 起诉 GlobalFoundries 违约时所讨论的那样, Power10 的原始计划是转向 10 纳米工艺和新的 Power 微架构,使核心数量比 Power9 翻一番。这意味着 24 个核心,每个核心 8 个线程(IBM 称之为 SMT8),或者 48 个核心,每个核心 4 个线程(IBM 称之为 SMT4)。该芯片计划于 2020 年上市,配备更快的 OpenCAPI 和 NVLink 直接 I/O 以及内存共享端口。后续的 Power11 计划在此之后几年推出,大概采用 7 纳米工艺,并且其核心中肯定会配备更宽的矢量处理引擎。
在此过程中,GlobalFoundries 告知 IBM,由于 10 纳米工艺的延迟,它将直接跳到 7 纳米,IBM 不得不重新设计 Power10 的设计。在 7 纳米节点,我们所看到的 IBM 路线图表明,蓝色巨人将使用 GlobalFoundries 的 7 纳米工艺,提供 60 个 SMT4 核心和 30 个 SMT8 核心的 Power10 变体,两种变体共计 240 个线程。2018 年 8 月,GlobalFoundries 加大了双管齐下研发 7 纳米工艺的力度(一种使用标准浸没式光刻技术,另一种使用更昂贵的极紫外 (EUV) 技术),这让蓝色巨人不得不为其 Power 和 System z 大型机 CPU 寻找代工厂。
IBM 选择了三星,后者生产自己的智能手机芯片,并且非常希望在 7 纳米及更小的节点上为更大的计算引擎打造高性能工艺。IBM 是学习该工艺的理想初始客户,因为它在芯片开发和制造方面拥有数十年的专业经验。
作为向三星转型的一部分,IBM 着手改进 Power 的指令集和架构,并在 Power 设计中已有的整数核心和浮点向量核心中增加了矩阵数学单元。我们认为,如果不是因为制造问题导致 Power10 和 Power11 的发布延迟,这项改进本应在 Power11 中实现。新冠疫情也为 IBM 提供了掩护,使其能够从容不迫地开发 Power10,并做好它。从这个意义上讲,交付的 Power10 正是我们想象中的 Power11 的样子。因此,如果抽象地理解,Power10 实际上就是 Power11,而 Power11 实际上是 Power11+。
Power10 和 Power11 芯片出厂时都拥有 16 个核心,晶体管数量同样为 180 亿;区别在于核心的使用方式和时钟频率。Power10 芯片同样拥有 128 MB 三级缓存,蚀刻在两个缓存体中,SMT8 核心环绕其外,每个核心配备 2 MB 二级缓存。最大的区别在于,Power11 的所有 16 个核心都可以激活运行操作系统,而 Power10 最多只能使用 15 个核心,因为在三星最初的 7 纳米工艺中,至少有一个核心会失效。而且根据 Power10 的 SKU 来看,似乎还有不少核心失效了。(英特尔和 AMD X86 服务器处理器也是如此,SKU 堆栈的内核数量因此会缩减。)
借助 Power11,对于具有一或两个插槽的所谓“横向扩展”系统,IBM 拥有具有四个、八个、十个、十二个或十五个可用内核的 Power11 芯片,并通过单芯片模块(称为 SCM)和双芯片模块(称为 DCM)来利用这些内核。DCM 的频率范围为 2.4 GHz 至 4.15 GHz,SCM 的频率范围为 3 GHz 至 4.2 GHz。DCM 还有一种特殊变体,其中插槽中的第二个芯片的所有内核均已停用(有意或由于良率低),但芯片的所有 I/O 功能均可使用。因此,这种入门级 SCM(IBM 称之为 eSCM)在一个芯片上有四个或十个活动内核,而第二个芯片上没有活动内核,但 I/O 能力却是预期的两倍。
我们看到的一些文档中,有一些表格显示 Power11 芯片拥有 300 亿个晶体管,时钟频率范围为 3.8 GHz 至 4.4 GHz,芯片面积为 654 平方毫米,而Power10 芯片面积为 602 平方毫米,时钟频率范围为 3.75 GHz 至 4.15 GHz。我们不知道这些表格中更高的晶体管数量和芯片面积从何而来,并已联系 IBM 寻求澄清。据我们所知,Power10 和 Power11 芯片的芯片尺寸和晶体管数量相同;但这些晶体管中可用的数量肯定发生了变化。
在体型庞大、性能糟糕的 Power E1180 服务器上,该机器与 2021 年发货的 Power E1080 几乎完全相同。一个很大的区别是,Power E1180 默认配备 DDR5 内存,这是 Power E1080 末期的一个升级选项,而 Power E1080 最初配备的是 DDR4 内存。购买了 E1080 并花费大量资金购买 DDR4 内存的客户可以将其处理器升级到 Power11,但保留 DDR4 内存,这样可以通过牺牲一些性能规格来节省一大笔钱。IBM 之所以能够做到这一点,是因为它通过 OpenCAPI 内存接口 (OMI) 实现了与其内存的差异化接口,DDR4 或 DDR5 协议是在内存芯片上实现的,而不是在 Power10 或 Power11 芯片上的控制器上实现的。
这是实现主存储器的一种聪明方法,业界可以从 IBM 在 Power Systems 上使用 OMI 存储器的做法中学到一些东西。
Power11 芯片的外观如下,它看起来应该和 Power10 一样熟悉:
下面是 Power11 SCM 各通道的框图,它与 Power10 SCM 相同,但进行了一些封装调整以提高能源效率:
Power11 芯片的 SCM 模块顶部有 72 个 I/O 通道,可支持单节点内 CPU 插槽之间的 X-bus 互连,以及跨多节点的 A-bus NUMA 链路。目前尚不清楚 Power11 中 X-bus 链路的运行速度,但我们猜测是 50 Gb/秒;我们知道 A-bus 链路的运行速度是 32 Gb/秒。
Power E1180 每个节点有四个插槽,单个共享内存系统包含四个节点,最多可提供 256 个 4.4 GHz 核心,以及高达 64 TB 的主内存。考虑到内存成本,我们预计实际应用中的大型 Power E1180 机器(即使是运行 SAP HANA 内存数据库及其应用程序的机器)的内存容量最高也只有 16 TB,偶尔甚至会达到 32 TB。除非真的有商业用途,否则内存成本实在太高,不值得浪费。
这是一个非常大的机器,并且 I/O 和内存与计算能力实现了良好的平衡。AMD 系统最多可在一个 NUMA 集群中配置两个 CPU,其中配备Zen 5 核心的普通版“Turin” Epyc 9005拥有 128 个核心和 256 个线程,运行频率为 2.7 GHz;而配备“Turin” Zen 5c 的变体则拥有 128 个核心和 256 个线程,运行频率为 2.25 GHz,通过将芯片上使用的 L3 缓存大小减半,核心数量翻倍。现在,假设这台机器运行全速 6.4 GHz DDR5 内存,可以提供 1.5 TB/秒的内存带宽。如果使用 64 GB DDR5 DIMM(我们认为由于价格原因这是一个实际的上限),这台机器将拥有 3 TB 的内存。
IBM 大幅降低了 DDR5 内存的速度,并在 Power11 芯片上安装了 16 个内存控制器,从而使内存运行温度更低、更可靠,从而从 16 路 Power11 服务器中获得 12.8 TB/秒的内存,并使用 64 GB 差分 DIMM 在 16 个插槽上获得 16 TB 的内存。(它有 32 GB、64 GB、128 GB 和 256 GB 的 D-DIMM 可供选择。)
一台使用英特尔“Granite Rapids”至强 6 处理器的八路服务器,每个插槽最多可容纳 86 个核心,或在整个 NUMA 机器上最多可容纳 688 个核心,但这些核心的运行频率仅为 2 GHz。如果使用 64 GB DDR5 DIMM 内存,运行频率为 6.4 GHz,那么这台英特尔至强 6 系统将为机器中的所有内存控制器提供 8 TB 的容量和 5.5 TB 的带宽。
多年来,IBM 一直在模糊内存、I/O 和加速器之间的界限。早在 2018 年 8 月,我们就展示了IBM 可以用 Power9 处理器实现的一些有趣的选项。在 Power 服务器中,相对于内存带宽,调低核心数量很容易——只需购买带有大量无效核心的处理器模块即可。您可以根据 DIMM 的容量来调整系统的内存容量。带宽就是带宽。您可以通过填充内存插槽来增加带宽,也可以通过不填充内存插槽来减少带宽。
但是,如果相对于内存容量或内存带宽而言,需要更多的计算能力,那么增加核心数量就会很困难。因此,我们建议 IBM 创建一种称为扩展 DCM(xDCM)的东西,它将系统上的部分 OMI 内存端口和 OpenCAPI 端口转换为 X-bus 和 A-bus NUMA 链路,从而通过将 Power E1180 节点扩展到四路 NUMA 以上来提升高端 Power11 机器的可扩展性,或者通过在机箱中添加更多 NUMA 节点来提升系统可扩展性。我们怀疑后者可能效果更好。
无论如何,以下是基于 Power9、Power10 和 Power11 处理器的最近三代高端 Power Systems 机器的堆叠情况,以及理论上的 Power E1185 和 Power E1185X 的比较情况:
我们不知道这样的调整会有多昂贵,但增加更多核心意味着 IBM 可以在机箱中添加更多虚拟机,从而帮助将企业工作负载整合到大机箱中。
https://www.nextplatform.com/2025/07/16/the-worlds-most-powerful-server-embiggens-a-bit-with-power11/
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4098期内容,欢迎关注。
加星标??第一时间看推送,小号防走丢
求推荐
鼎宝融提示:文章来自网络,不代表本站观点。