Zen 5: 扩展、性能提升85%!AMD三大新架构揭秘

访客 3C数码 1.2W+
Zen 5, AMD CPU GPGPU NPU三大新架构带来大幅提升。

在6月初的台北电脑展上,AMD正式发布了基于新一代Zen 5架构的锐龙AI 300系列笔记本处理器和锐龙9000系列台式机处理器,均将于7月上市。

当时AMD发布了具体的型号名称和规格(隔壁的月亮湖只有架构和技术),但对新的CPU/GPU/NPU架构没说太多,桌面上的新一代主板芯片组也只说了个大概,留下了一些悬念。

上周,AMD专门在美国举办了Zen 5 Tech Day技术活动,最终揭开了新架构的神秘面纱,公布了更多的性能数据和技术特性,尤其是新的处理器和内存超频。

至于确切的上市时间,锐龙AI 300笔记本是7月28日,锐龙9000系列是7月31日。

[Zen 5架构:全面扩展和独家英特尔机密]

禅建筑诞生于2017年。与之前的推土机架构IPC相比,大幅提升了52%,远超当初40%的目标,这在整个微处理器史上是极为罕见的进步。

七年来,Zen架构不断打磨,现在已经进化到第五代,这是一个相当大的变化,包括增加每个时钟周期的指令数,扩展指令调度和执行的带宽,缓存数据带宽翻倍,AI加速等等。

CPU架构设计是一个极其复杂的工程,哪怕是升级版。

迈克·克拉克已经在AMD工作了31年。现在是AMD院士,芯片设计工程师,多年来Zen架构研发的灵魂人物。他被称为“禅宗之父”和“禅爹”。

他动情地说,人们往往没有意识到设计CPU架构有多难,需要多长时间。例如,Zen 5的研发是全球大量设计、验证、软件和其他团队多年专注努力的结果。它甚至已经融入了每个人的血液。很多人吃饭甚至做梦的时候都在想这件事,最终看到自己的努力开花结果,也是相当了不起的。


Zen 5的三位设计师,左边是迈克·克拉克。

接下来我们来看看Zen 5架构在不同模块的变化。当然只能说高层层面,不涉及太深的细节。

其实现代CPU架构已经有了一个成熟的体系,可以分为前端和后端两部分。细分包括指令预取和解码、整数执行、浮点执行、加载存储、缓存等不同的单元模块。

除非有完全颠覆性的计算系统,否则CPU架构师需要做的就是根据预设的目标,确定不同单元模块的规格和规模,然后有机地组合成一个整体,实现效率最大化,既不会造成浪费,也不会产生瓶颈。

就像一条运河或水管,一般情况下,水流越大越好,但不能盲目加宽加粗。从源头到末端都要协调,既不能水不够,也不能堵。重要的是平衡。

Zen 5的整体思路是适当放大规模,很多地方甚至翻倍。比如前端部分改成了双预取双解码流水线,可以更高效的处理各种负载。比如源闸更开,能放出更多的水。

同时分支预测有了很大的提升,吞吐量更高,准确率更高,延迟更低,指令缓存的延迟和带宽也有了提升,就像运河更宽敞了,面对再多的水也不会溢出来。

整数执行单元拓宽了指令调度和执行通道,包括调度和退役到8个宽度,增加了执行窗口,增加了集成ALU调度器的数量,包括6个ALU和4个agu。

在浮点和向量执行单元部分,核心变化是在Zen 4架构引入AVX-512指令集的基础上,仅支持256位数据宽度,并加强到支持完整的512位。

256位以下的灵活性更高,因为不是所有的指令都需要512位那么宽。现在加了512位满血版后,可长可短,在保持灵活性的同时,大大提高了执行效率和性能。

更耐人寻味的是,由于异构混合架构设计,新一代月亮湖和箭湖并不支持AVX-512,何时回归尚不确定。

谁能想到,当年英特尔的独门利器,如今却成了AMD的私人厨房。

此外,浮点单元中有六条流水线,FADD指令的延迟只有2个时钟周期。

通过加载到存储单元,数据带宽大幅提升,其中一级数据缓存容量从32KB提升到48KB,同时从8通道增强到12通道。

到一级缓存和浮点单元的最大带宽也比上一代增加了一倍,相应的数据预取也有所提高。

此外,数学加速单元的性能也取得了快速进步,单核执行数学学习和AES-XTS指令的速度最高可分别提高32%和35%。

这有什么好处?当然,它可以大大加快AI运行的效率,适应当前的环境,尤其是在带有本能加速器的EPYC处理器中,效果相得益彰。

通过这一系列改进,Zen 5架构的IPC平均提升16%(可以理解为同频的性能提升),部分场景甚至提升高达35%。

其中贡献最大的是指令执行和退休的改进,然后是数据带宽、指令解码和OP缓存的改进,最后是指令预取和分支预测的改变。

根据历年官方数据,Zen+、Zen 2、Zen 3、Zen 4相对于上一代IPC的平均增幅分别为3%、15%、19%、13%。

五代六个版本的进化积累,Zen 5比原版Zen IPC平均提升率达到了85%左右!

别忘了频率也在不断增加。第一代最高只有4.0GHz,现在已经达到了5.7GHz,提升了43%左右。

产品方面,锐龙9000系列台式机将采用纯Zen 5或者CCD和IOD的组合。

CCD部分工艺从5nm升级到4nm,每个最多8核,总共16核。

IOD部分沿用了锐龙7000系列,所以还是6nm,集成了两个RDNA 2架构GPU图形核心。

移动端的锐龙AI 300系列都是Zen 5和Zen 5c的组合。如上图右下角所示,下面四个橙色调是Zen 5,上面八个紫色调是Zen 5c。

与英特尔的异构架构不同,Zen 5和Zen 5c仍然拥有相同的架构设计、IPC性能和ISA指令集,但不同的是后者的缓存更小,频率更低(但能效更高)。

锐龙AI 300系列的制造工艺为4nm,与上一代锐龙7000/8000系列相同。

数据中心方面,第五代都灵EPYC将于今年下半年发布,采用先进的4nm和3nm工艺组合,这是AMD首次推出3nm。

都灵EPYC将升级到多达192个内核和384条线程。在新特性方面,官方特别提到了基于Trust IO功能的AI加密,无疑可以更好地满足当今云AI部署的需求。

接下来我们会看到Zen 6,Zen 6c,后续的Zen 7也在研发中。猜猜会用什么工艺?

【RDNA 3.5架构:三大优化分数飙升32%】

凭借丰富的积累,AMD在显示领域一直独占鳌头。锐龙AI 300系列集成了专门设计的RDNA 3.5架构,扩展了核心规模。新一代镭龙800M系列达到了一个新的水平,根本没有对手。

RDNA 3.5在架构设计上自然继承了RX 7000独立显卡使用的RDNA 3,并针对笔记本的应用场景在三个方面做了特别的优化:

首先是优化能效比。

比如大部分通用纹理采样操作的速度提高了一倍,大部分用于差分和比较的向量丰富的指令集的速度也提高了一倍,可以大大提高常规游戏中的纹理和着色性能。

二是优化内存性能(性能/位)。

通过改进原语批处理,减少了对系统内存的依赖和占用,效率更高,尤其是优化了LPDDR5内存的访问和使用。此外,压缩技术得到改进,负载减少。

三是优化续航。

通过集成先进的电源管理机制,可以大幅降低活动状态下的功耗,对笔记本更友好。

根据官方说法,在相同功耗15W的情况下,镭龙800M系列的理论性能相比上一代产品在夜间突袭和Timespy项目上分别提升高达19%和32%。

当然,理论跑分并不等于实际游戏性能,但OEM厂商也可以灵活设置功耗释放,配合更高频率的内存,进一步挖掘RDNA 3.5的潜力。

【XDNA 2 NPU架构:全球第一计算能力,第一新数据格式】

锐龙7040系列是全球首款集成NPU AI独立引擎的x86处理器,锐龙8040系列在此基础上大幅提升性能。

目前,AMD已经积累了丰富的AI PC生态系统,在硬件上得到宏碁、华硕、戴尔、惠普、联想等各大品牌的支持,在软件上开发了100多项AI优化功能,既有Windows 11系统本身,也有Adobe、Black Magic、Blender、Topaz Labs、Webex、Zoom等头部应用。

AMD预计今年将有超过150家ISV软件厂商支持AMD AI PC功能。

锐龙AI 300系列升级到了全新的XDNA 2架构,这也是AMD的新一代NPU。

最直观的变化是AI引擎单元数量从20个大幅增加到32个(分为四行八列),每个单元的MAC数量也翻了一番。

此外,板载内存容量提升1.6倍,Block FP16块浮点格式支持,非线性增强支持,8个并发空流(翻倍),计算能力从第一代的10 TOPS大幅提升至50 TOPS (INT8和Block FP16)。

这是全球首个达到如此高水平的NPU,远超英特尔月亮湖、高通骁龙X Elite、苹果M4等竞品。

值得一提的是,XDNA 2不仅增加了核心单元,还可以灵活使用分区,包括空分区和时间分区。

空分区适合并发实时模式,不同列的核心单元可以分配不同的任务,比如2列负责实时视频,2列负责实时音频,4列负责App应用。

时间划分适用于大型模型,不同的任务可以作为一个整体先后执行,比如先处理LLM大型语言模型,再集体剪辑视频。

根据负载的不同,XDNA 2可以一列或多列(4/8/16/20/24/28/32)开关,即在轻任务下可以关闭部分内核,从而节省功耗,能效比一代提高一倍。

对于AI应用来说,数据类型非常重要。XDNA 2架构业界率先支持开放块FP16浮点格式,融合了8位数据的性能和16位数据的精度。

本质上也是16位格式,所以具有非常接近传统FP16(单精度)甚至FP32(双精度)的高精度。AMD官方数据显示,一般可以达到FP32格式的99.7%到100%,也就是几乎无损,可以无缝连接FP16、FP32、BF16训练的模型,无需额外量化。

此外,Block FP16具有与9位存储空和8位格式类似的吞吐性能,因此模型体积可以比FP16减少44%,计算性能与INT8格式相当,是FP16的两倍。

AMD声称,LLMA V27B型号使用锐龙AI 300系列和Block FP16格式,响应速度可以达到英特尔酷睿Ultra 100处理器的5倍。

AMD现场展示了运行Llama 2 7B机型的锐龙AI 300处理器的RAG(搜索增强能力)。

比如直接问它AMD新一代NPU架构的名字。因为没有研究过,所以会随机回答7nm RDNA,然后喂它AMD在台北电脑展的演讲。它可以立即学习并给出正确答案,不仅知道XDNA 2架构的名称,还知道它的新特性。

NPU能力的发展离不开开发平台的支持,AMD也制定了长期稳定的锐龙AI路线图。

第三季度会有锐龙AI 1.2版本,正式支持Block FP16数据格式,C++ API,以及各种最新的AI模型,比如Llama 2/3,依桐钱文1.5,稳定扩散XL-Turbo等等。

第四季度升级到1.3版本,扩展支持更多机型,首次支持WSL Linux子系统。

明年一季度继续升级到1.4版本,首次带来AMD集成AI堆栈,继续优化新的SOTA Gen型号。

AMD还举了一个典型案例。Camo这款可以将手机作为专业相机的免费软件已经支持AMD NPU,并且得益于便捷的锐龙AI开发套件,现有的ONNX运行模型可以很容易地从GPU迁移到NPU。

AMD还透露了下一代NPU的规划,计算能力和能力进一步增强,可以直接处理大型模型,接管和分担CPU和GPU的更多工作。

[锐龙9000系列和芯片组,超频:内存用完]

锐龙9000系列前四款的规格我们都知道,这里就不赘述了。

定位方面,锐龙9900x、锐龙7 9700X、锐龙5 9600X的目标分别是i9-14900K、i7-14700K、i5-14600K。

至于旗舰锐龙9 9950X……...孤独无敌。

值得一提的是,之前有传闻称AMD有意提高锐龙7 9700X的功耗,从现有的65W提高到120W,从而在性能上超越锐龙7000X3D,但最终还是选择了按兵不动。

毕竟锐龙9000X3D也不远了,而且根据AMD给出的数据,65W锐龙7 9700X的游戏性能领先于105W锐龙7 5800X3D的原装3D缓存版,功耗更低,这就足够了。

锐龙9000系列每个型号的性能都比上一代有了很大的提升,提升幅度从11%到22%不等,但更值得注意的是功耗更低。除了旗舰锐龙9 9950X热设计功耗降低了一个档次,锐龙7 9700X和锐龙5 9600X也只是之前标准版的水平。

除了新结构新技术,还得益于散热能力的提升。官方说提升了15%,所以也带来了另一个好处,就是温度更低,一般在相同TDP下低7℃左右。

超频方面,AMD二代支持DDR5内存,已经掌握的相当熟练,玩的比较多。

默认的频率支持是JEDEC 5600MHz,通过新的AGESA代码和BIOS更新,可以轻松超过8000MHz。

新增的内存可以实时超频。系统正常运行时,有了内存优化性能配置文件,你可以随时使用锐龙主控软件超频到你需要的频率,也可以随时切换回来。

再者,所有AM5平台芯片组将无限制开放内存超频。当然超频能力肯定会有所不同,取决于主板的相关设计。

如果处理器超频,最方便的就是直接打开PBO,交给系统处理。一般来说,可以轻松带来6-15%的业绩加持。

如果你动手能力强,想挖掘更多潜力,AMD在继承原有曲线优化器的同时,还提供了新的“曲线整形器”。

Curve Shaper进一步允许玩家将buck曲线调整到最大,提供多达15种频率/温度组合(3种温度+5种频率),可以自行添加或删除,但暂时不支持自定义具体值。

请注意,此设置适用于所有内核,不能针对单个内核进行调整。

芯片组是AMD 800新系列,旗舰机型是X870E,双芯片。相比X670E,主要是标配了USB4接口,支持更高的DDR5 EXPO频率。

X870简化为单芯片,PCIe扩展会少一些,但也会便宜一些。

B850用于替代B650,显卡升级支持PCIe 5.0。

B840是新的低端机型,不支持处理器超频,但是可以超过内存。显卡和SSD都是PCIe 4.0,不支持USB4。扩展渠道只有PCIe 3.0。

不得不称赞AMD接口的长寿命,真是良心——英特尔箭湖又要换掉LGA 1851了。

AM4经历了9年的生命周期,开发了145个CPU/APU处理器。

AM5刚刚进入第二代,38款产品,官方承诺持续到2027+,比上一年的2026+多了一年。

【锐龙AI 300系列:骁龙X精英不够看】

锐龙AI 300系列更简单。最初只有两款,锐龙AI 9 HX 370和锐龙AI 9 365,规格参数不再赘述。

可以确定的是,锐龙AI 9 HX 370包含四个Zen 5和八个Zen 5c内核,而锐龙AI 9 365是四个Zen 5和六个Zen 5c的组合。

AMD官方也证实,这种组合设计只用于笔记本移动终端,不会用于台式机。这和英特尔的大小核有很大区别。

在性能方面,AMD不仅对比了酷睿Ultra9 185H,还对比了咄咄逼人的高通骁龙X精英。无论是CPU生产力,内容创作性能,还是GPU游戏性能,自然都无法相互媲美,差距相当明显。

尤其是高通的ARM架构面临着Windows PC下难以根治的兼容性问题,这在x86阵营60多亿Windows设备、10多万Windows游戏、3500多万Windows应用的生态面前不值一提,尤其是很多游戏甚至根本无法运行。

凭借升级的RDNA 3.5架构和更多核心单元(16),新一代镭龙890M已经能够高质量地流畅运行许多3A游戏。

AI方面,锐龙AI 300系列一方面与微软紧密合作,全面支持Windows 11 Copilot+的各种功能,包括回顾、视频会议、实时翻译、共创等。各大主机厂也在开发和推广各自的AI应用。

比如华硕的StoryCube,华清的LiveArt,惠普的AI伴侣,联想的哮天代理等等。

更何况AMD拥有业界唯一的全链条AI平台。从云侧到边缘计算,从企业级到消费级,强大的CPU、GPU、NPU三位一体,可以带来全方位、不折不扣的AI体验。

锐龙AI 300系列也将是AI PC史上的一大亮点。

标签: 标签

抱歉,评论功能暂时关闭!