酷应用

终于能用Google的TPU跑代码了，每小时6.5美元

百家作者：AI100 2018-02-13 15:30:24

AI科技大本营消息，北京时间周一（2月12日）晚间，Google 宣布，在 Google Cloud Platform（GCP）上正式推出Cloud TPUs 测试版服务，帮助研究人员更快地训练和运行机器学习模型。目前的收费标准为 6.5美元/Cloud TPU/小时，而且供应有限，需要提前申请。

TPU（Tensor Processing Unit）的全名为张量处理单元，是 Google 专为机器学习而定制的一款芯片。在去年 5 月 18 日的Google I/O 大会上，Google 正式推出第二代 TPU —— Cloud TPU，相比第一代，第二代对推理和训练都进行了优化。

然而，Google 的 TPU 一直只在内部使用，此次 Google 首次对外全面开放自家的 TPU，这或许意味着谷歌正式向英伟达的 GPU 开炮，加速 TPU 的商业化进程，在 AI 基础设施领域抢占地盘。

以下是 Google Cloud 的官方博客内容：

Cloud TPUs 是 Google 设计的一系列硬件加速器，专门针对加速和扩大使用 TensorFlow 编程的机器学习工作负载进行了优化。每个 Cloud TPU 由四个定制的 ASIC 构成，单个 Cloud TPU 的浮点计算能力可以达到 180 teraflops（万亿次每秒），内存宽带 64GB。

这些板卡可以单独使用，也可以通过超快的专用网络连接在一起，共同构建成 multi-petaflop（几千万亿次每秒）的机器学习超级计算机，我们称之为“TPU pods”。今年晚些时候，我们将在 GCP 上提供这些大型的“超级计算机”。

我们设计 Cloud TPUs 的目的是为了给 TensorFlow 工作负载提供差异化的性能，让机器学习工程师和研究人员能够更快地迭代（机器学习模型）。比如：

从此以后，你不用再等待共享计算机集群的调度，只需通过可以控制并自定义的 Google 计算引擎虚拟机，就可以独占联网的 Cloud TPU。
以前训练商用机器学习模型可能要等上几天甚至几周，现在只需要一个晚上，你就可以在 Cloud TPUs 机群上训练出统一模型的不同变体，第二天就可以将准确率最高的训练模型部署到生产活动中去。
使用单个 Cloud TPU，并遵循该教程（https://cloud.google.com/tpu/docs/tutorials/resnet），你就可以在不到一天的时间内训练出符合你期望的 ResNet-50 网络，使其在 ImageNet 基准挑战上达到你所期望的准确率，而且花费不超过 200 美元。

▌让机器学习模型训练更容易

传统上，为定制的 ASIC 和超级计算机编写程序需要深入的专业知识，但是对于 Cloud TPU 而言，你可以使用高级的 TensorFlow APIs 进行编程。我们开源了一系列高性能 Cloud TPU 模型实现，帮助你快速上手：

ResNet-50（https://cloud.google.com/tpu/docs/tutorials/resnet），其他常用的图像分类模型（https://github.com/tensorflow/tpu/tree/master/models/official）。
用于机器翻译和语言建模的 Transformer（https://cloud.google.com/tpu/docs/tutorials/transformer (https://research.googleblog.com/2017/08/transformer-novel-neural-network.html)）
用于目标检测的 RetinaNet（https://github.com/tensorflow/tpu/blob/master/models/official/retinanet/README.md）

为了节约你的时间和精力，我们将持续测试这些模型实现在标准数据集上的性能和收敛至期望准确率的情况。

之后，我们还将开源更多的模型实现。热爱探索的机器学习专家可以使用我们提供的文档（https://cloud.google.com/tpu/docs/）和工具（https://cloud.google.com/tpu/docs/cloud-tpu-tools），优化其他在 Cloud TPUs 运行的 TensorFlow 模型。

如果你现在就开始使用 Cloud TPU，那么在今年晚些时候我们推出 TPU pod 时，你将会从训练时间到准确率的大幅提升中收益。正如我们在 NIPS 2017 上宣布的那样，在一个完整的 TPU pod 上，ResNet-50 和 Transformer 的训练时间将从大半天将至 30 分钟以内，而且无需修改任何代码。

▌可扩展的机器学习平台

Cloud TPU 同样简化了机器学习计算资源的规划和管理过程：

你可以为自己的团队提供顶尖的机器学习加速，并且根据需求的变化动态调整自己的容量；

相比于花费时间和金钱，并聘请专业的人才来设计、安装、维护一个需要专门的功能、冷却、网络和存储设备的实体机器学习计算集群，你可以从 Google 持续多年专门优化过的大规模、高集成的机器学习基础设施中受益。
不需要费力地保证各种工作站和服务器的驱动更新升级，因为 Cloud TPU 根本不要安装驱动。
Google Cloud 将提供同样复杂的安全机制和实践保护。

除了 Cloud TPUs，Google Cloud 也会提供一系列的高性能 CPU（包括英特尔 Skylake）和 GPU （包括英伟达 Tesla V100）。

目前，Cloud TPU 的供应依然受限，价格将以秒计费，大约为 6.5 美元/Cloud TPU/小时，申请地址为：https://services.google.com/fb/forms/cloud-tpu-beta-request/。

招聘

新一年，AI科技大本营的目标更加明确，有更多的想法需要落地，不过目前对于营长来说是“现实跟不上灵魂的脚步”，因为缺人~~

所以，AI科技大本营要壮大队伍了，现招聘AI记者和资深编译，有意者请将简历投至：gulei@csdn.net，期待你的加入！

如果你暂时不能加入营长的队伍，也欢迎与营长分享你的精彩文章，投稿邮箱：suiling@csdn.net

如果以上两者你都参与不了，那就加入AI科技大本营的读者群，成为营长的真爱粉儿吧！后台回复：读者群，加入营长的大家庭，添加营长请备注自己的姓名，研究方向，营长邀请你入群。