Tachyum 推出 128 核 CPU:5.7 GHz、950W、16 个 DDR5 通道
当 Tachyum 在 Hot Chips 18 上公布其 Prodigy 通用处理器的概念时,它的芯片设计用于使用动态二进制翻译器运行任何代码,引起了轰动。它在执行本机代码和翻译代码时表现出高性能。该公司花了一段时间来设计实际的硬件,并接受评估套件的预订(在新标签中打开); 该公司还披露了其 Prodigy 的确切规格。它们看起来确实令人印象深刻,但每个芯片 950W 的热设计功率也令人恐惧。
强大的性能,强大的力量
每个 Tachyum Prodigy 处理器具有多达 128 个专有内核,与 16 个 DDR5 内存通道(用于 1,024 位接口)配合,支持高达 7200 MT/s 的数据传输率(因此提供高达 921.6 GBps 的带宽)以及 64 个 PCIe 5.0 车道。此外,该芯片总共支持高达 8TB 的 DDR5 内存,这与我们将在其他制造商即将推出的服务器 CPU 中看到的一致。至于时钟频率,Tachyum 的 Prodigy 设计运行频率高达 5.7 GHz,是台积电性能优化的 N5P 工艺技术的产物。
在性能方面,Tachyum 期待其旗舰 Prodigy T16128-AIX 处理器(在新标签中打开)根据发布 的规范,为 HPC 提供高达 90 FP64 TFLOPS 以及为推理和训练提供高达 12 个“AI PetaFLOPS”,大概是在运行本机代码并消耗高达 950W(并使用液体冷却)时 (在新标签中打开) 由公司和 Golem.de(在新标签中打开). 同时,Tachyum 的 Prodigy 处理器可以在 2 路和 4 路配置下工作。将数字放在上下文中, AMD 的 Instinct MI250X 在大约 560W 的 HPC 中具有 96 FP64 TFLOPS 的峰值吞吐量。相比之下,Nvidia 的H100 SXM5 可以在 700W 下为 AI 提供高达 20 INT8/FP8 PetaOPS/PetaFLOPS(稀疏时高达 40 PetaOPS/PetaFLOPS)。然而,计算 GPU 都不能用于通用工作负载。这正是它变得有趣的时候。
Tachyum 的 Prodigy 是一款通用同质处理器,最多可容纳 128 个专有的 64 位 VLIW 内核,每个内核具有两个 1024 位矢量单元和每个内核一个 4096 位矩阵单元。此外,每个内核都有一个 64KB 指令缓存、一个 64KB 数据缓存、1MB L2 缓存,并且可以利用其他内核未使用的 L2 缓存作为受害 L3 缓存。