业界 | 110 TFLOPS的Titan V是否值得买?这里有一份对比评测

百家 作者:机器之心 2018-01-04 05:48:34

选自Medium

作者:Yusaku Sako

机器之心编译

参与:李泽南、路雪


去年 12 月 8 日,英伟达在 NIPS 2017 大会的一次活动中发布了最新消费级旗舰显卡 Titan V——Volta 架构,包含最新的神经网络计算单元 Tensor Core。英伟达宣称这块最新 Titan 旗舰的性能可达上一代产品(Titan Xp)的九倍。这款售价高达 3000 美元的显卡是否值得购买?随着 Titan V 陆续进入用户手中,已有人对其进行了评测。


Titan V 是英伟达最近推出的「桌面级」GPU,基于新一代 Volta 架构(12nm 工艺),拥有 211 亿个晶体管、12 GB 的 HBM2 显存,可以提供 110 TFLOPS 的「深度学习算力」,对于单块显卡而言,这是一个惊人的数字。相比之下,此前的最强显卡 GeForce 1080 Ti 可以输出 11 TFLOPS「常规算力」,内存为 11GB DDR5,而售价则是相对亲民的 699 美元。


Titan V 身上的数字看起来非常 exciting,其 2999 美元的售价虽然有点难以让人接收,但其接近 10 倍的算力提升是最大的卖点,我们能否用一块 Titan V 代替 10 块 1080 Ti?或者说,从价格来看,它能否超过 4 块 1080 Ti?


另一方面,英伟达 DGX 计算站现在的售价也下调至 49900 美元(原价 69900 美元)。这种设备内含 4 块水冷服务器级计算芯片 Tesla V100,这种芯片理论上性能强于桌面级的 Titan V(虽然价格要贵上很多,但其中应该包含技术支持和整套服务级协议)。尽管如此,大多数人(包括大量学校和科技公司的 AI Lab)是不会准备这种数量级的经费用于 GPU 的。即使这样的设备也在考虑范围之内,我们也要先讨论一下性价比的问题。


所以我们的问题是,Titan V 是不是当前构建深度学习环境最为值当的选择?


让我们从头说起,Titan V 和它服务器级的亲属 Tesla V100 都是在去年推出的(V100 在 2017 年 5 月份推出,而 Titan V 在 12 月推出)。大多数深度学习架构已经加入了对 Volta 架构的支持,确保其 Tensor Core 的潜力在模型训练时充分发挥。


例如,PyTorch 在近期发布了 0.3.0 版本,加入了 CUDA 9 和 Volta 架构 GPU 的支持。在我近期对于新硬件的测试中,PyTorch 社区提供了很大帮助。我已经在用 Titan V 运行 PyTorch 神经网络框架上的程序了,目前的一些测试程序可以用来对比硬件性能的差异。目前,我只能给出基于 PyTorch 0.3.0 的基准测试,我会在未来加入其他框架下的性能对比,这些测试将基于 CUDA 9.0.176 和 CuDNN 7.0.0.5,也有可能在这些 API 之外。


Titan V 与 1080  Ti 的性能测试对比


我们让 Titan V 和 GeForce 1080 Ti 在相同的设置下进行了对比测试(这些显卡在同样的计算机上经过了测试,都插在了 16x PCIE 接口上)。


上表中显示的时间是 CNN 前向传播(eval)和反向传播(train)所需的时间,以毫秒计。这些数字是超过 10 次操作的平均值,因为运算过多次,所以该数字相对稳定。


其中有趣的地方在于:


  • 显然,Titan V 的速度要快于 GeForce 1080 Ti。然而如果仅比较 32-bit 位的运算(单精度),Titan V 仅比 1080 Ti 快 20% 左右。

  • Titan V 在 16-bit 运算(半精度)上的运行速度要比 32-bit 位的运算速度快上很多。1080 Ti 也可以从半精度设置上受益,但速度提升相比 Titan V 而言较为平滑。


这些数字告诉我们「无脑选 Titan V」并不一定是对的。


关于接近 10 倍的算力提升,英伟达说谎了吗?我确定他们的营销人员是诚实优秀的人,但是这里存在多个因素。一,我确定从软件的角度来看,充分利用 Volta 超快的 Tensor Core 还有改进空间。但是即便如此,如果大部分代码路径不符合允许最大理论性能的条件,商家宣称的大幅度性能提升就有待商榷了。时间会告诉我们在框架/CUDA/CuDNN 级别可以有多大改进来充分利用 Volta GPU 的能力,但是我在常见的 CNN 上(我专注于计算机视觉,所以在这里使用卷积神经网络进行了测试)观察到的初始值似乎并不足以证明值得去升级成 Titan V,尤其是「买一个 Volta GPU,模型就能跑得起来」这种情况并不会出现。


尽管使用最新技术很有趣(先买先享受),但如果你使用个人 GPU 进行 AI 研究或构建产品,那么我建议你继续使用 GeForce 1080 Ti(直到英伟达不久之后发布更好、更合适的产品,GeForce 2080 Ti?)。此外,单块 Titan V 内存只有 12GB,1080 Ti 内存稍小,有 11GB。但是如果你用单个 Titan V 的钱买四个 1080 Ti(注意:为此你还需要更强大的电源、可支持 4 个 GPU 的主机、更大的 RAM,以及更好的冷却系统等),那么你将拥有更多的显存(44GB vs 12GB)。


如果你需要不止一个 GPU,那么更实际的方法是买 2 个 1080 Ti。这样,GPU 就不会一个一个地堆叠起来(堆叠需要更多的气流才能冷却,如果多个 GPU 热量过大,则性能损失会很严重……你可以采取水冷的方式,但该方法大幅增加成本和风险)。另外,如果只有两个显卡,那显卡所需电量是 250Wx2,这样你就不必担心供电不足。不管怎样,我发现拥有多个 GPU 并进行独立实验是一种性价比较高的做法,这样我可以快速迭代,因此我推荐此方法作为折中方案。


解决堆叠、空气冷却 GPU 的发热问题的另一种方法是,如果你必须使用 3-4 个 GPU,且不想使用水冷却,同时也不关心美感或噪声,那么大可以买一些 PCIE 扩展槽/立管,遵循这位 Kaggle 竞赛冠军的做法:


Vladimir Iglovikov(2017 年 Carvana Image Masking Challenge 冠军团队成员之一)搭建的 4x 1080 Ti 机器。



原文地址:https://medium.com/@u39kun/titan-v-vs-1080-ti-head-to-head-battle-of-the-best-desktop-gpus-on-cnns-d55a19866b7c


本文为机器之心编译,转载请联系本公众号获得授权

✄------------------------------------------------

加入机器之心(全职记者/实习生):hr@jiqizhixin.com

投稿或寻求报道:content@jiqizhixin.com

广告&商务合作:bd@jiqizhixin.com

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接