Xe-HPG登陆移动市场——英特尔锐炫移动独显解析

百家 作者:微型计算机 2022-03-31 23:33:12

从超极本到Evo,从USB 1.0到雷电4,多年以来英特尔一直在平台创新方面有着异样的执着。但可惜的是,在独立显卡领域,虽然之前做过多番努力,但收效一直甚微。现在,英特尔正式发布了基于移动平台的锐炫独显系列,它是否能成为英特尔下一个重要的里程碑,并借此补上英特尔平台的短板,使其真正达到“完美”?

 


2022年3月30日,英特尔正式发布了基于移动平台的锐炫A系列移动端独显。毫无疑问,笔记本电脑中的英特尔锐炫系列标志着英特尔旅程中的下一个重要节点。首批英特尔锐炫 3 系列笔记本电脑现已上市,随后是今年夏天功能更强大的英特尔锐炫 5 系列和 7 系列的产品。锐炫移动独显都将包含通用架构和高级功能集,包括支持DX12 Ultimate终极版以及英特尔先进的AI和媒体引擎。其中锐炫3系列可以为Evo轻薄笔记本电脑提供增强的1080p游戏和内容创作性能。锐炫5系列和锐炫7系列将提供同样领先的内容创作功能,但具有更高的图形和计算能力。




  Xe-HPG,为游戏和创作奠基


英特尔锐炫A系列产品都基于英特尔研发的Xe HPG独显架构,它包含了性能强劲的AI引擎和支持下一代编解码器标准的增强媒体引擎。除此以外,英特尔还打造了下一代Xe显示引擎和新的图形管线,用来处理各种不同的显示任务。

Xe-HPG:渲染切片(Rendering Slice)  



要了解Xe-HPG架构,首先来看看“Rendering Slice(渲染切片)”。这是Xe-HPG架构中的一种可重用IP的基本构建块。在Xe-HPG微架构里,每4个Xe内核组成一个渲染切片。每一个Xe内核中都配备了数量可观的运算单元,比如矢量引擎 XVE、矩阵引擎XMX等。此外Xe-HPG也集成了其他主流的图形技术,比如网格着色,采样器反馈等。


Xe-HPG最大的特点就是灵活性,通过叠加渲染切片可以构建不同的SOC(最小两个,最大八个),这样就增强了Xe-HPG的可扩展性并使得产品线更加丰富。与上一代Xe-LP微架构相比,Xe-HPG的每瓦性能提升了1.5倍。同时,Xe-HPG的渲染切片支持DX12 Ultimate、微软DXR 和 Vulkan RT 的专用硬件光追单元。每个切片还配备了四个硬件光追加速器,用来支持实时光线追踪。也就是说,Xe-HPG架构是硬件支持光追的,游戏玩家们可以多一些选择了。

 


Xe-HPG:Xe-Core



再来看下Xe-HPG的内核架构与组成模块。作为Xe-HPG架构的核心组成单元,Xe-Core(Xe内核)取代了EU的概念,成为Xe-HPG架构中最基础的执行单元。每个Xe内核包括16个256位宽的SIMD矢量引擎,为传统图形着色器执行大部分运算,主要负责传统图像处理的计算。由于AI的算法核心几乎完全围绕着一系列大型的矩阵乘法和累加算法,因此英特尔在每个 Xe 内核中构建了专用的矩阵引擎,来进行硬件加速。Xe内核包含16个矩阵引擎,每个引擎都是1024 位宽。矩阵引擎就是为了加速AI运算用的。为了满足矩阵、矢量和光线追踪单元的高带宽需求,我们在每个Xe内核中构建了一个192KB 的大型本地内存。它可以根据每个工作负载的需要在L1缓存和共享本地内存(SLM) 之间动态分配。

 


Xe内核的矢量引擎改进了ALU单元,FP指令可以与整数运算(INT)指令同时运行,其中包括 DP4a的快速INT8计算。此外英特尔还强化了AI能力,增加了新的 XMX 矩阵引擎,用于高吞吐量矩阵乘法,涵盖最常见的AI数据类型,包括BF16和INT8。为了有效提高执行性能和算力,Xe-HPG可以同时调度和执行浮点FP、整数INT和XMX指令,并以锁步形式并行两个引擎和共享资源。

 



下面是英特尔给出的一个范例。Xe-HPG的矢量引擎使用基本SIMD矢量指令,执行8次并行运算乘法,然后执行8次并行加法(即每个时钟共16个Ops)。


DP4a是针对那些不需要32 位精度的AI计算所做的优化。它将所有32位输入分成8位块,然后独立地乘以这些块。这总共是32次并行乘法(由紫色方块显示),然后32次累加达到每个周期总共64次操作,比标准SIMD MAC提高了4倍的性能。


最后,矩阵引擎XMX通过将乘法累加4深度流水线化,将其提升到一个新的水平。与DP4a 一样,每个操作数都被分成4个块,这些块被独立的相乘和累加实现每个阶段64个操作指令(紫色图块显示)。通过4深度流水线,每个时钟产生256次操作,达到了传统的32位SIMD MAC 16倍的性能。

 


XeSS:对标DLSS与FSR



XMX矩阵引擎的一个主要应用是在实时渲染过程中使用AI,这也直接导致了XeSS的诞生。XeSS是一种超级采样技术,与传统的高分辨率渲染相比,可在游戏中提供更高的性能。它使用神经网络辅助运动矢量,从低分辨率渲染中生成精美的高分辨率图像。看到这里想必大家都觉得不陌生了。对!NVIDIA DLSS和AMD FSR异口同声喊出了“这我熟!”不过在会上,英特尔尚未公布XeSS发更多的技术细节与实际性能表现,有待后续测试验证。


▲英特尔公布了有14款游戏将支持XeSS技术,预计未来几个月还会有更多的游戏加入。


Xe媒体引擎:优化编解码加速媒体创作播放 


在英特尔看来,Xe内核中的Xe媒体引擎算得上是最先进的媒体加速器之一。Xe媒体引擎内置了业内常用的编/解码器,包括H.265 / HEVC、H.264 / MPEG-4 / AVC、VP9 以及对AV1编码和解码的硬件加速支持,尤其是在对AV1构建硬件编码支持上,英特尔走在了前列。

 


AV1的效率比最常见的编解码器H.264高了50%,比HEVC高了20%,使视频创作者能够以更低的带宽和更小的文件大小提供更高的画面质量。和以前的编/解码器相比,AV1提供了更好的压缩比和更好的视觉效果。锐炫显卡中的AV1编码硬件加速与传统的软件实现相比,编码速度提高了50倍。当前,FFMPEG、Handbrake、Adobe 和 XSplit 都已经集成了对锐炫 AV1的支持。


Xe显示引擎:高输出规格,SpeedSync解决画面撕裂



在显示输出部分,Xe-HPG支持HDMI 2.0b和DP1.4a规格,也就意味着游戏玩家将能够享受1080p@360Hz、或者4台具有4k@120Hz HDR的显示器联合输出。这一点与当前NVIDIA和AMD主流显卡保持一致。



另外值得一提的是Xe显示引擎中的Speed Sync。从名字上就可以看出,这是一种类似AMD FreeSync或NVIDIA G-Sync的技术,可以解决由于显卡输出与显示器刷新率不同步导致的画面撕裂问题。

 

除了 SpeedSync之外,Smooth Sync也伴随锐炫一起推出的另一项全新英特尔技术。它可以通过抖动过滤功能对画面撕裂进行模糊化处理,以此解决画面撕裂问题,为玩家提供更好的游戏沉浸感,也就是利用模糊化处理来减少画面失真并使图像看起来更加连贯。目前英特尔表示所有锐炫显卡都会支持Smooth Sync功能。

 


Alchemist产品预览


英特尔这一代锐炫A系列显卡代号为Alchemist,共有两种不同的芯片设计。其中如上图左所示,面积比较大的芯片代号ACM-G10,包含32个Xe内核和光追单元,16MBL2缓存,256位GDDR6接口,16路PCIE4接口;右边较小的芯片代号ACM-G11,包含8个Xe内核和光追单元,4MBL2缓存,96位显存接口,8路PCIE4.  两种芯片设计都包含两个Xe多功能编解码引擎和4路显示输出引擎。


具体到产品上,英特尔锐炫A系列移动端独立显卡覆盖了从适用于轻薄笔记本的低功耗主流显卡,到适用于游戏本的高性能显卡。

 



从图中可以看出,英特尔此次公布的锐炫移动显卡主要包括锐炫3系列的A350M和A370M,锐炫5系列的A550M以及锐炫7系列的A730M和A770M。


很明显,锐炫3系列的两款产品是基于8个Xe内核设计的芯片,配置了4GB GDDR6显存,TDP最高50W,最低25W。A550M的Xe内核数和显存位宽等等,基本是A370M的两倍,应该是基于32Xe内核的芯片精简规格所得。最后来看锐炫7系列,同样有A730M和A770M两款产品,最高可达32Xe内核,16GB内存,256bit位宽。这里提醒一下产品上市时间,搭载锐炫3系列A350M和A370M的产品马上就会与最终用户见面,而搭载锐炫5和锐炫7系列的产品,会在今年夏天面市。同时,全系列的锐炫A系列移动独显都支持DirectX12 Ultimate终极版,包括光线追踪、可变速率着色、网格着色和采样器反馈等。


从英特尔公布的数据来看,在1080p分辨率,中或者高画质设置下,A370M相对于12代酷睿移动处理器的核显有最多可达两倍的性能提升。同时这些游戏都能在1080p@60fps运行,能给用户不错的体验。


▲A370M显卡能在1080p分辨率下在多数竞技游戏中达到90fps,而且这是在开了中等或者高画质下测量的结果。


▲和12代酷睿的集成显卡相比,在搭载A370M独立显卡的平台上,设计创作性能也有了显著提升。在视频编解码方面,以Davinci为例,4K H.264转H.265的性能可多达60%的提升。而在AI相关功能上,例如Adobe PR里的两个应用场景,更是有翻倍的性能提升。


Deep Link:性能提升的秘诀

在上面我们看到了锐炫A系列显卡的创作有了巨大性能提升,但这并不仅仅来自于独立显卡,同样得益于基于整个系统的Deep Link技术的加持。

 


什么是Deep Link?它实际上是一个总称,涵盖了不同的技术,如动态功率共享、超级编码和超级算力等。


先来看动态功率共享,这项技术能在系统功耗的限制范围内,尽可能最大化释放CPU或GPU的性能。早在2016年,英特尔就推出了第一版动态功率共享,在CPU和GPU之间动态分配功率。总的来说,在运行负载时,如果CPU更需要功率,系统会把功率更多地分配给CPU,反之对GPU也是一样,最终目的是在笔记本整体功率一定的情况下让其在应用中表现出更好的性能。




如图所示,当系统发现GPU负载过高,系统会动态调整GPU和CPU的功率配比,将更多的功率分配给GPU。当系统发现GPU负载较低,比如轻办公场景,则会动态调整功率配比,将功率分配向CPU。如果达到了良好的动态平衡,就维持当前的功率配比。所有搭载英特尔12代酷睿和锐炫的笔记本电脑,都能启用这项技术。



再来看超级编码技术,就是同时运用两个显卡的编解码引擎,来大大提升编解码效率。这种协作是通过OneVPL的API接口来实现的。OneVPL是一个跨平台的开放性框架,应用程序通过接口可以识别并调用平台上多个多媒体引擎,充分利用视频处理能力。当超级编码开始工作时,一组组解码后的原始帧通过特定的API函数被交给oneVPL,进而按组被分配到不同的多媒体引擎上,拷贝到相应的内存中缓存起来。不论每一组有多少帧,相应的集显或者独显的多媒体引擎会开始按照设定的格式编码。而OneVPL会完成后续的打包工作,把编码后的帧一组组拼接成最终视频来输出。这种并行处理,编码效率比单一显卡提升非常显著。




最后说说超级算力。每一款搭载英特尔锐炫独立显卡的笔记本,都可以从独立显卡的算力中获益,但是英特尔CPU的集成显卡中同样也提供了计算引擎。所以英特尔就想把负载合理的分配给不同的计算引擎,因此设计了MLS,这是一个基于机器学习的服务。


MLS是OpenVino中的一个框架,它能智能地把负载分配给不同的算力模块。根据当前应用或负载的特征,例如延迟敏感度、吞吐量、性能要求、功率消耗等等。这些因素帮助MLS做出决策,把负载分配给独立显卡、集成显卡或者CPU。当你想对一段视频做处理,例如去噪点、超分、锐化等,导入画面会逐帧传递给MLS框架,每一帧还会拆成若干块,这些块排在工作队列里。MLS启动一个个工作线程,把这些块根据需求自动分配到不同的算力模块中。如上图所示,一部分分配到集显的计算引擎,一部分分配到独显的矩阵引擎。随着显卡完成当前任务,MLS会不断派发新的任务。直到最后完成所有块的处理,打包这些增强后的画面作为输出。


Arc Control:驱动面板功能丰富



伴随锐炫移动独显产品的推出,英特尔也发布了一个新的显卡驱动控制界面,叫Arc Control——英特尔锐炫控制面板。Arc Control提供了一站式与锐炫显卡相关的设定或者信息接收,包括可以让用户快速升级驱动,及时看到显卡性能的工作负载、虚拟摄像头设定、自动生成游戏高光时刻、还有让每个人都能成为像是专业主播一样的软件设定等。其功能类似于NVIDIA的GFE面板以及AMD的Radeon Software驱动软件。



Arc Control 控制面板是基于先进的图层叠加技术,与操作系统无关,不太会占用处理器的工作负载而导致影响整机性能,也不会中断用户原来正在进行的任务。用户都可以随意进出Arc Control,可以通过快捷键一键交互,在使用方面十分便利。此外,Arc Control 控制面板将提供便捷的安装和自动更新服务,每当有新游戏上架或游戏发布新驱动时,用户会自动收到通知,如果用户不想要被这些信息打扰,也可以根据自己的需求灵活调整。



其次,锐炫 Control 控制面板也会提供性能检测,会以具体的参数和图标给供用户参考。这些具体的参数和图标可以向用户提供完整的GPU工作负载情况, 用户可以根据自身需要做出适当调整。同时,也会有监测图层弹窗浮动在游戏上,用户可以在打游戏时看到整机的工作状态。



Arc Control 控制面板还提供便捷的直播、串流相关的功能和设置,用户可以快速的开启直播功能将游戏精彩的画面分享到直播平台上。通过快捷键,用户可以快速开启虚拟摄像头将背景移除、自动调整画面比例,并截取和保存游戏中的高光时刻。在发布后,大概有10个游戏左右支持抓取游戏截图或者视频的功能。


需要注意的是,Arc Control 控制面板适用于所有英特尔显卡,也因此不仅仅只有英特尔的独立显卡能用,英特尔的集成显卡也能用。


锐炫即将来临



 

在本次发布沟通会上,英特尔表示全球首款搭载锐炫显卡的笔记本是三星Galaxy Book2 Pro, 搭载锐炫 A350M,在部分地区已经开起预售,国内目前没有该款产品。在英特尔的产品计划里,从超轻薄本到高性能游戏本都有。从第二季度开始,采用锐炫 3系列的笔记本产品有望国内面市,锐炫 5和锐炫 7系列的产品有望在今年夏天发布,价格从899美元起。喜欢尝鲜的玩家们,可以期待了!


关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接