酷应用

“云上生长”网络研讨会｜使用 QKE 管理 GPU 资源，轻松构建 AI 应用

百家作者：QingCloud 2022-09-21 19:02:07

2012 年，人工智能在全球范围内大普及。经过了十年发展，目前人工智能在各行各业都有大量的应用，比如基因测序、路况识别、广告推送、新药研发、工业仿真、医学图像分割等，都需要通过算法建模来驱动业务发展。这必然会用到深度学习，而深度学习通常需要大规模的计算资源 GPU。

一开始，GPU 的使用及管理方式非常粗放，用户直接在 GPU 机器上进行算法训练。当 AI 模型多了之后，这种方式会带来很大的问题，一是模型训练效率低下，二是?GPU?资源利用率低。

与 CPU 服务器相比，GPU 服务器是非常昂贵的。在降本增效的大背景下，需要有一个平台来进行统一的管理。从 2016?年开始，Kubernetes 社区就不断收到来自不同渠道的大量诉求：希望能在?Kubernetes?集群上运行?TensorFlow?等机器学习框架。目前大型企业在构建基于 GPU 的深度学习训练平台时，基本上都是使用?Kubernetes?来管理和调度 GPU 任务。

自建环境使用 GPU 非常繁琐，涉及到自建 Kubernete8s ?集群、GPU 驱动安装、GPU 节点初始化、GPU 节点纳管到 Kubernete8s 集群等配置工作。选择一款合适的托管 Kubernetes 服务，一键创建 Kubernetes 集群并部署机器学习类应用，不仅可以提高集群资源利用率、保障资源独享，还可以加速部署，让构建 AI 应用变得更加简单快捷！

本次“云上生长”系列网络研讨会第二期，我们邀请到了青云科技高级产品经理杨莹，为大家分享?青云QingCloud?容器服务?QKE（QingCloud Kubernetes Engine）如何管理和调度 GPU?资源，高效完成机器学习、深度学习、图像识别等?AI?计算任务，高性能地承载企业大规模并行计算需求。

杨莹

青云科技容器服务高级产品经理，负责基于青云云平台的容器服务产品，以及容器服务相关的镜像仓库产品等。曾参与过多款云计算平台产品建设，如超融合云计算平台、DevOps 平台等，对云原生建设有一定经验。

9?月?27?日(星期二)下午?2:00

青云“云上生长”系列网络研讨会第二期

扫描二维码报名

即有机会获得热门技术书籍！