“云上生长”网络研讨会|使用 QKE 管理 GPU 资源,轻松构建 AI 应用

百家 作者:QingCloud 2022-09-21 19:02:07

2012 年,人工智能在全球范围内大普及。经过了十年发展,目前人工智能在各行各业都有大量的应用,比如基因测序、路况识别、广告推送、新药研发、工业仿真、医学图像分割等,都需要通过算法建模来驱动业务发展。这必然会用到深度学习,而深度学习通常需要大规模的计算资源 GPU。

一开始,GPU 的使用及管理方式非常粗放,用户直接在 GPU 机器上进行算法训练。当 AI 模型多了之后,这种方式会带来很大的问题,一是模型训练效率低下,二是 GPU 资源利用率低

与 CPU 服务器相比,GPU 服务器是非常昂贵的。在降本增效的大背景下,需要有一个平台来进行统一的管理。从 2016 年开始,Kubernetes 社区就不断收到来自不同渠道的大量诉求:希望能在 Kubernetes 集群上运行 TensorFlow 等机器学习框架。目前大型企业在构建基于 GPU 的深度学习训练平台时,基本上都是使用 Kubernetes 来管理和调度 GPU 任务。

自建环境使用 GPU 非常繁琐,涉及到自建 Kubernete8s  集群、GPU 驱动安装、GPU 节点初始化、GPU 节点纳管到 Kubernete8s 集群等配置工作。选择一款合适的托管 Kubernetes 服务,一键创建 Kubernetes 集群并部署机器学习类应用,不仅可以提高集群资源利用率、保障资源独享,还可以加速部署,让构建 AI 应用变得更加简单快捷!

本次“云上生长”系列网络研讨会第二期,我们邀请到了青云科技高级产品经理杨莹,为大家分享 青云QingCloud 容器服务 QKEQingCloud Kubernetes Engine)如何管理和调度 GPU 资源,高效完成机器学习、深度学习、图像识别等 AI 计算任务高性能地承载企业大规模并行计算需求。

杨莹

青云科技容器服务高级产品经理,负责基于青云云平台的容器服务产品,以及容器服务相关的镜像仓库产品等。曾参与过多款云计算平台产品建设,如超融合云计算平台、DevOps 平台等,对云原生建设有一定经验。


9 月 27 日(星期二)下午 2:00

青云“云上生长”系列网络研讨会第二期

扫描二维码报名

即有机会获得热门技术书籍!


附本期抽奖图书:

1.一本书读懂各种强化学习环境及其使用方法:博文视点出品《深度强化学习算法与实践:基于 PyTorch 的实现》

2.后端技术人员与基础平台工程师必读:图灵出品《深入剖析 Kubernetes 》


 点击"阅读原文"即刻预约直播 

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接