英伟达首席科学家Bill Dally解读“黄氏定律”:替代摩尔定律,定义AI时代?

百家 作者:新智元 2020-12-15 15:06:02



  新智元报道  

来源:NVIDIA

编辑:Q,LQ

【新智元导读】英伟达将于12月15日-19日召开GTC中国线上大会,今日的主题演讲由英伟达首席科学家BillDally分享关于AI、计算机图形学、高性能计算、医疗、边缘计算、机器人等领域最前沿的创新以及AI推理、GPU集群加速等最新的研究成果。


没错,英伟达GTC大会又来了,不过这次没有老黄,背景也不是他家的厨房。
 
本次GTC20中国线上大会由首席科学家BillDally首先发表主题演讲,回顾了NVIDIA这一年的成就和产品。
 
Bill Dally 先后获得弗吉尼亚理工大学电气工程学士学位、斯坦福大学电气工程硕士学位和加州理工大学计算机科学博士学位。他在斯坦福大学任教12年后,于2009年加入 NVIDIA 担任首席科学家。
              
同时他还是美国国家工程院院士,美国艺术与科学学院院士,IEEE 和 ACM 院士,获得了2004年美国 IEEE计算机协会 Seymour Cray 计算机工程奖和2000年美国计算机协会 Maurice Wilkes 奖。

以下是他的主题演讲精选:
 


关于Ampere架构、A100和黄氏法则的一切


 
所有一切的基础都是硬件,但硬件本身是不可以解决难题的,需要借助软件来集成强大的计算应对复杂的问题。
              
自2006年以来,研发人员一直在使用CUDA来充分利用GPU的强大功能,为了方便人们在CUDA上构建应用程序,英伟达还提供了一整套的开发库。例如,如果需要用到线性函数,可以使用cuBLAS和cuSPARSE等库。
              
NVIDIA A100,不仅是世界最大的7nm芯片,具有540亿个晶体管,相比上一代有了很多的创新。在第三代Tensor Cores中,增加了对于新数据类型TF32的支持,使用TF32进行训练,可以获得156 teraflops的性能。
               
最让Dally兴奋的是,Ampere破解了如何利用神经网络的稀疏性来获得更好的性能。如果需要缩减它的计算能力,MIG(多实例GPU)还可以将一个A100分解为7个独立的GPU,以便每个GPU都能运行各自的任务。
              
如果需要扩展Ampere来解决更大规模的问题,第三代的NVLink和NVSwitch是一个很好的选择,相较于上一代产品有两倍带宽的提升,GPU数据传输的带宽可以达到600GB/s。
               
事实证明,大多数神经网络都是可以修剪的。Dally在2015年的NeurIPS大会上发表了一篇论文,证明了可以对神经网络进行修剪,切断神经元之间70%—90%的连接,这就意味着将这些神经元的权重设置为0,并不会影响精度。
              
这种压缩的效果是立竿见影的,既然权重设置为0,就无需存储,Ampere通过结构化稀疏性(允许4个权重中的两个为0)来优化了这个问题。对于矩阵乘法,一旦将权重稀疏为2/4模式,就可以实现双倍的性能。
 
与此同时,Ampere技术的真正优势在于,它不仅在深度学习方面表现出色,在高性能计算方面也有不俗的表现。
 
在11月举行的超算TOP500榜单中,采用NVIDIA技术的超算在前10名中占了8位,Selene超算在TOP500和Green500中都排名第五。
              
下面这张图表展示了从2012年的Kepler,一直到今年5月份的Ampere A100,单芯片推理性能提高了317倍。
              
这就是「黄氏法则」——推理性能每年翻一倍。「摩尔定律」之后,就是它来提升计算性能。此表上只有3代制程技术,从Kepler架构28nm,到16nm,再到最近Ampere是7nm。这主要得益于架构的改进,而Tensor core的改进,更优化的电路设计与架构,制程技术等发挥的作用不大。
 
性能方面,Ampere的速度要快2.5倍。相比Google自家的TPU v3和华为,尽管领域不同,但都被Ampere打败。
               
在数据中心的推理测试中,差距还是拉开了。
 
与之前的AI推理方案Turing T4相比,在所有基准测试中,A100的速度都提高了6到8倍,这里出现的竞争对手只有Intel和Xilinx,Ampere直接碾压了它们。
              
另一张图展示的是边缘推理基准测试,适用于边缘服务器和嵌入式设备。此次A100,T4,以及使用Tegra芯片的Jetson AGX Xavier的性能数字,如图所示,英伟达再次横扫了。
              


从RTXDI到光线追踪,英伟达改变的不只是游戏


 
NVIDIA的直接照明技术,也即「RTXDI」。
              
传统图形在直接照明下的显示,灯光在相邻表面上投射光线不会投射出阴影,但通过RTXDI技术,每个光源都会将其光线投射到相邻表面上。
              
投射阴影逼真的奥秘就在光线和物体表面之间,可以使用这种技术支持多达数百万个光线选择一种名为「容器重要性采样」的技术,称之为ReSTIR,这项技术在SIGGRAPH 2020中发布,并且现已在NVIDIA图形产品中使用,它可以产生直接照明的效果。
 
还有间接照明。
 
当光线反射到表面然后又反射回你的眼睛或相机,RTXDI会使得光线效果非常逼真。但是光线会多次甚至无限次地反射,为此,NVIDIA给出的解决方案是RTXGI。
              
上图的下半部分几乎都是黑暗的,因为如果没有间接照明,你就看不到太多物体。这是以一个很好的多速率渲染的例子,因为间接光线不会以极快的速度变化。可以看到图片的上半部分,间接照明效果非常逼真,在这种情况下几乎所有的照明都是间接照明,因为只有一点点光线是从窗子照射进来。
 
另一项能够让我们以实时速率渲染更多内容的技术是NVIDIA DLSS或者深度学习超级采样(Deep Learning Super Sampling)。现在是DLSS 2.0版本,可以提供比1.0更高的性能。
              
整体流程如下图所示,首先以某个分辨率开始处理图像,将此图像输入到神经网络中,把它升级到4K。
              
然后采用经过升级的图像,并将它与在更高分辨率下实际渲染的真实数据(16K)进行比较,其中的误差会进入其中一个DGX SuperPODs 训练神经网络的loss函数,经过对数据集的特定迭代,可以训练网络权重来以非常准确的方式生成升级后的图像。
 
NVIDIA一直在努力解决不稳定的问题。并通过这项技术获得了非常稳定的视频。
 
另一件很难做好的事情就是让网络泛化。NVIDIA通过训练神经网络让它在游戏的每个级别以及各个游戏中发挥作用。
 
下图左侧是原生4K,右侧是已经升级至4K的1440图像,右上角显示帧率。
              
NVIDIA还在努力提高渲染性能以获得全动态画质,此外还希望与电影一样进行基于物理性质的路径追踪。
 
从相机中透射光线,能够通过一定数量的镜面反射和折射进行反射,如通过下图左上角的啤酒杯,当遇到这样的镜面反射时,将执行一些漫反射,在每次反射时,使用使用上文中提到的直接照明中的ReSTIR算法进行多光线采样,这将会提供极佳的直接照明。
 
另一项非常棒的技术是降噪。
 
虽然不能像电影那样,每个像素都发射1万条光线,对于图形,每个像素1-10条光线就够了,但这样形成的图形会出现大量噪点,接下来通过降噪和深度学习的降噪就可以清理图像,提升画质。
              
之后再经过两次反射,将停止其中一个RTXGI光探测器以获得非常精确的间接照明。
 
除了RTXGI和RTXDI,还可以使用镜面反射和漫反射的方式实现这些反射。这将用到NVIDIA全新GPU中的RT Core,它大大加速了光线追踪,首次在实时图形中进行光线追踪成为可能。
               


图像的未来看AI,未来的人类生活也看AI


 
Dally还回顾了AI发展的历程,他说到:
 
「当前的AI革命其实就是由GPU创造的,以深度神经网络为例,有3个关键组成部分在发挥作用,算法,即深度神经网络本身,训练数据,以及运行所需的硬件」。
 
GPU成就了深度学习,也掌控着深度学习发展的进度。
 
如下表左侧显示,从AlexNet发展到ResNet短短几年时间里,对计算机性能的需求提高到了一个数量级以上。如右侧所示,自然语言处理网络的发展更快,从BERT到GPT-3速度更快,训练时间对Peta级别的算力要求也越来越高。
               
人们可以构建的网络在很大程度上受到训练网络所能使用的GPU性能的限制。人们想要建立更大的模型,在更大的数据集上进行训练,但是很受限于在已有的GPU资源上,在可接受的时间内可以训练到的程度。
 
接下来,Dally还介绍了深度学习推理的工作流:
                                                 
此外,Dally还带来了英伟达在一些行业领域内的应用。
 
NVIDIA在医疗领域的人工智能应用是 NVIDIA Clara,这是一套旨在通过GPU加速医疗健康发展的应用。
              
通过下图可以了解GPU如何从各个不同的时间维度加快医疗健康发展。
      

其中,Dally 提到了DeepMind最新发布的「AlphaFold」,此方法将获取蛋白质的氨基酸序列,例如病毒的基因序列,并能够借助人工智能发现结构,且只需几分钟时间,速度大大提升了。
               
借助深度学习,NVIDIA构建了能够感知环境并与环境交互的机器人。正在开发的一项技术名为「黎曼运动策略」,本质上能够从数学角度简化这一复杂运动问题的表达,便于解决实际问题。在操控方面,除了对机器人抓取特定目标的训练外,还有对陌生目标的抓取训练。
             
在辅助驾驶方面,英伟达借助雷达和激光雷达等设备的辅助,使得驾驶员在各种情况下都可以对四周的情况了如指掌。
              
也可以检测各种障碍物,了解与物体之间的距离和碰撞时间,采用特定的神经网络来搜索自由行驶空间。
              
最后,Dally 还介绍了Legate,无需修改代码即可让Python程序无感运行在Jetson Nano上面,所需要做的就是将原本的import numpy as np 改为 import legate.numpy as np
             
在Dally的主题演讲之后,五名NVIDIA高管将介绍公司在AI、数据科学和医疗领域的多项突破性技术如何在中国具体应用。该圆桌讨论将于北京时间12月15日上午11点10分开始。
 

以下是直播连接,感兴趣的小伙伴可以观看全程完整视频:
https://www.nvidia.cn/gtc/keynote/?ncid=so-wech-54310&sfdcid=CORPENTSO




关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接