首页 / 雷锋网 / 正文

高性能+高能效,英特尔Panther Lake「均衡设计」的绝招

雷锋网 2025-10-16 01:00:54

作者|杨依婷

编辑|包永刚

当地时间10月9日,英特尔正式披露了代号为Panther Lake的英特尔酷睿 Ultra处理器(第三代)的架构细节,这款芯片承载着英特尔在制造工艺上重返领先地位的雄心,也是英特尔实现跨越式升级的一代产品,兼具了高性能和高能效的优势,令人充满期待。

Panther Lake基于最新的intel 18A制程工艺打造,首次将RibbonFET(全环绕栅极晶体管技术)和PowerVia(背部供电技术)这两项关键技术结合,并配合Foveros-S封装技术进行整体堆叠设计,将于今年在亚利桑那州的Fab52晶圆厂进入大规模量产。

RibbonFET作为新一代晶体管结构,将充分释放晶体管的开关性能与密度潜力;而PowerVia则通过将供电网络移至晶圆背面,扫清了传统布线对芯片性能与信号完整性的干扰。二者相辅相成,共同支撑起了Intel 18A在密度和能效上的同步飞跃。

高性能+高能效,英特尔Panther Lake「均衡设计」的绝招

高性能+高能效,英特尔Panther Lake「均衡设计」的绝招

根据英特尔披露的数据,相较于上一代工艺,Intel 18A在相同功耗下可带来超过15%的每瓦性能提升;在达到相同性能的前提下,功耗则可降低超过25%。与此同时,芯片单元密度提升至上一代的1.3倍——这意味着在同等面积的芯片上,英特尔能集成更多晶体管,为更复杂的计算单元提供技术基础。

而对于Panther Lake,英特尔技术专家告诉雷峰网,其设计理念旨在“打造出一个兼顾效率和性能的均衡平台”,以适配更具多样性的用户使用场景。

这一“均衡平台”的理念,在性能数据上得到了具体体现:在单线程负载条件下,相比Lunar Lake和Arrow Lake H,Panther Lake在相似性能下可降低40%功耗;在相似功耗下,性能提升约10%。在多线程场景中,Panther Lake相似性能下的功耗比Arrow Lake H低30%,而在相似功耗条件下,其性能相较Lunar Lake提升50%。

如果要用一句话概括Panther Lake的优点,英特尔公司客户端计算事业部副总裁兼中国区总经理高嵩给出了答案:“Panther Lake汲取了Lunar Lake高能效和Arrow Lake强性能的优势,为用户呈现更强的AI PC体验。”

在这个目标下,Panther Lake对包括CPU、GPU和NPU在内的核心模块上进行了结构性重构。

兼具Lunar Lake高能效+Arrow Lake强性能,Panther Lake全能提升

在CPU架构设计上,Panther Lake并未颠覆自Meteor Lake确立的“三层混合架构”——即由性能核(P-Core)、能效核(E-Core)与低功耗能效核(LPE-Core)构成的算力组合。然而,其核心思路已从简单的核心数量堆砌,转向了更为深刻的精细化分工与战略性增强。

正如英特尔的技术人员向雷峰网所阐释的:“在Panther Lake上,三个层级的混合核心的策略是有侧重性的,每个核心都在扮演着独特的角色。”

这一理念清晰地体现在其角色定义中:性能核负责单线程响应与日常生产力场景的高响应能力;能效核着力于多线程与并行计算的吞吐能力,如游戏与内容创作类任务;低功耗能效核则定位为提升整体能效、优化日常功耗表现的常驻算力层。

在此框架下,Panther Lake对每一类核心都进行了针对性的架构升级与配置调整。 

高性能+高能效,英特尔Panther Lake「均衡设计」的绝招

在性能核方面,Panther Lake使用的核心代号为Cougar Cove。与上一代的Lion Cove相比,英特尔将单核的L3缓存由12MB扩充到18MB,并对转址旁路缓冲器(TLB)做了约1.5倍的容量提升;同时,英特尔在电源管理中引入了“AI启发式学习算法”的策略,以实现对内部硬件资源与功耗分配的更精细化调控。

能效核代号为Darkmont,这是在Skymont基础上的演进。Darkmont 在架构上做出了包括L2缓存扩容至4MB、保持128-bit带宽等一系列调整,并提升了微码(Nanocode)的性能,使得能效核能够覆盖比Arrow Lake更广泛的应用场景,在降低执行延迟的同时提升了整体效率。

此外,Cougar Cove与Darkmont所用的分支预测与内存消歧能力均有所增强——分支预测的改进旨在提高预测准确性并降低响应延迟,内存消歧则允许更多安全的乱序或并行内存访问,从而提升CPU与内存之间的带宽利用效率。英特尔技术专家表示,Panther Lake在预测准确率与延迟控制上均进行了同步强化。

在完成核心微架构的增强之余,Panther Lake也规划了多样化的核心配置以覆盖不同市场。

高性能+高能效,英特尔Panther Lake「均衡设计」的绝招 其中,8核配置与Lunar Lake一致,由4个性能核与4个低功耗能效核组成;16核配置在此基础上增加了8个能效核。

16核配置中,所有核心均位于同一个三级缓存环上,并共享该缓存层,每个性能核拥有独立的二级缓存,每四个能效核共享4MB二级缓存,低功耗能效核也配置有4MB二级缓存,相比Meteor Lake和Arrow Lake容量更高,使其可承载的任务类型范围有所扩大。

此外,英特尔对硬件线程调度器进行了关键升级。英特尔技术专家表示,其核心改进在于两方面:首先,根据Panther Lake三类核心的新特性,优化了线程分类模型,为操作系统提供了更精准的调度依据;其次,将OEM电源模式等系统级偏好纳入调度决策,使反馈机制更贴合用户实际场景与性能需求。

要实现硬件潜力在用户体验层面的最终释放,同样离不开系统软件层的深度协同。Panther Lake构建了一个统一的管理堆栈:OEM厂商设定的性能模式(如“野兽模式”或“性能模式”)可通过英特尔提供的DTT软件或微软的PPM机制,转化为具体的CPU行为策略,并经由SoC电源管理直达硬件线程调度器。

这一切都指向一个目标:让正确的任务,在正确的时间,运行在正确的核心上,最终兑现其“均衡平台”的设计承诺。

Xe3 GPU性能提升50%,AI性能高达120TOPS

英特尔的GPU经历了从Xe到Xe2持续演进,现在正式进入了Xe3时代。

Panther Lake搭载的是第一代Xe3集成显卡,而Xe2对应的则是Lunar Lake的集成显卡和Battlemage的独立显卡。

与Xe2相比,英特尔在Xe3架构中将每个渲染切片内的Xe核心数量从4个提升至6个,并从引擎到切片进行了全面的优化。

高性能+高能效,英特尔Panther Lake「均衡设计」的绝招

具体来看,每个Xe核心提供8个512位矢量引擎和8个2048位XMX引擎。在Xe矢量引擎中,Xe3的线程数增加了25%,并添加了可变寄存器分配,提升了Xe矢量引擎的使用效率,使得相同的硬件能够支持更多、更快的负载。同时,Xe3还支持原生FP8反量化,以及SIMD16原生ALU、三路并发调度、扩展数据指令集与FP64,并且支持Xe矩阵扩展。

而在XMX AI加速引擎中,Xe3支持120TOPS的算力,每个时钟周期可执行1024个XMX TF32操作,支持2048个XMX FP16/BF16运算,4096个XMX INT8运算和8192个XMX INT4/INT2运算,相较于上一代有显著提升。

此外,为了满足多元化的场景需求,Panther Lake提供了两种GPU规格:入门级的4Xe GPU,以及英特尔目前规模最大的12Xe GPU。

4Xe GPU配置包含4个Xe核心、32个XMX引擎、4MB L2缓存和1组几何管线等基础模块;12Xe GPU则将Xe核心数量扩展至12个,并配备96个XMX引擎、2组几何管线、12个采样器、12个光线追踪单元和4个像素后端。

值得注意的是,与上一代8MB L2缓存的Xe2架构相比,L2缓存容量在12Xe版本上被提升至16MB,使DDR访存压力减少约17%~36%。

架构与规格的全面提升,最终转化为显著的性能增益。根据英特尔提供的数据,Xe3架构相较Lunar Lake的Xe2,在总体性能表现上可实现超过50%的提升;与Arrow Lake H GPU相比,每瓦性能提升超过40%。

高性能+高能效,英特尔Panther Lake「均衡设计」的绝招

高性能+高能效,英特尔Panther Lake「均衡设计」的绝招

NPU面积效率提升40%,原生支持FP8

在Panther Lake全面升级的计算架构中,NPU是专为AI负载设计的计算单元,全新的NPU5架构在继承NPU4能效优势的基础上,实现了芯片面积效率与针对AI负载的双重优化。

高性能+高能效,英特尔Panther Lake「均衡设计」的绝招

在AI计算中,矩阵运算是最核心的要义,MAC单元规模决定了矩阵运算的并行密度,即MAC单元越大,计算密度和运算效率就越高。

基于这一原理,NPU5做出了一项关键调整——它将每个Slice中的神经单元数量从6个精简至3个,但每个神经计算引擎的计算能力却实现翻倍。这种设计,使得NPU在相同的逻辑区域内能够释放出更高的矩阵执行效率,从而在芯片面积与算力输出之间找到了更优的平衡点。

从结构配置来看,NPU5的每个Slice集成了3个神经计算引擎,提供12K的矩阵运算能力、4.5MB的暂存器内存、6个SHAVE DSP以及256KB的L2缓存。

与Lunar Lake的NPU4相比,这些指标均有不同程度的提升,但最显著的进步体现在面积效率上:NPU5每平方毫米可释放的TOPS能力提升超过了40%,这意味着英特尔在有限的芯片空间内成功挤压出了更多的AI算力。

此外,考虑到AI负载对精度并不敏感,尤其在推理任务中,8bit量化计算在绝大多数场景下已能保证输出结果的可用性。为此,NPU5在架构层面创新性地加入了原生8bit计算支持。这一设计使得在相同面积与功耗条件下,NPU5能够获得更高的有效执行吞吐,为用户带来近乎翻倍的计算能力,同时将精度损失控制在可接受范围内。

值得注意的是,Panther Lake所搭载的NPU5相比NPU4的峰值性能并没有进行大幅提升,NPU 4为48TOPS,NPU 5为50TOPS,但面积效率实现了高达40%的提升。

雷峰网(公众号:雷峰网)了解到,这主要是从这个产品的角度去考量,由于Panther Lake的GPU的AI性能可以高达120TOPS,且AI PC上超过50%的AI负载可以使用GPU处理,在这一代产品上大幅提升NPU的面积使用效率,更能兼顾性能和功耗,能更好满足Agentic AI的需求,通过XPU的策略产品的收益将会更高。

整体来看,Panther Lake 在CPU、GPU与NPU三条计算路径完成结构更新后,其平台总算力可达到180TOPS,其中CPU约10TOPS、NPU约50TOPS、GPU约120TOPS。这一算力结构并非简单堆叠,而是通过为不同类型的AI负载分配各自适配的硬件执行单元形成的能力组合:CPU负责响应敏感的轻量级任务,NPU覆盖持续运行的低功耗推理场景,GPU用于应对高吞吐量计算。

Panther Lake的1+1+1>3

从制造到微架构到革新,从CPU到GPU再到NPU的全面升级,都是让Panther Lake 能够实现兼具Lunar Lake高能效+Arrow Lake强性能的关键,也正是通过通盘的考虑,以及XPU的策略,Panther Lake才能拥有巨大的吸引力。

所以,除了CPU、GPU和NPU三大核心算力的提升,Panther Lake还引入了全新的Wi-Fi7特性,支持5GHz的频段,信道达到320MHz,同时支持4K的QAM调制,支持跨多个信道的并发操作以及WPA3安全性加密,和上一代产品相比,提高了性能、可靠性、安全性,也减少了客户端的延迟。此外,Panther Lake还支持最新蓝牙6.0与LE音频,功耗降低高达50%,并显著提升了音频质量与多设备连接能力。

影像方面,Panther Lake集成了最新的IPU 7.5图像处理单元,能够直接调用NPU、GPU等计算资源进行协同AI处理,并支持高达三个摄像头并发工作。

目前,Panther Lake已进入量产倒计时阶段,技术路径已经落地,从制造到设计的革新,让Panther Lake成为了一款不止是小幅迭代,而是跨越式升级的产品,也有理由对其在市场上的竞争力充满信心,量产后的实际功耗曲线和AI场景表现会给出作中的答案。

雷峰网原创文章,未经授权禁止转载。详情见转载须知