优刻得DPU裸金属训练集群,亮相英伟达GTC大会

百家 作者:Ucloud 2024-03-20 15:56:18

近日备受瞩目的AI盛会GTC 2024在美国召开。作为业界领先的云计算科技企业优刻得受邀参会GTC专题会议环节,优刻得研发总监王晓慧发布了基于DPU裸金属的训练集群,演示了集群在大模型场景的应用实践,并与全球开发者共同交流探讨智能算力新风向。

王晓慧分享道大模型训练需要消耗大量的计算资源和时间,如何高效地搭建和管理训练集群成为加速大模型落地核心挑战NVIDIA的支持下,优刻得率先将DPU应用于裸金属物理云实现了软件定义的计算、存储和网络,助力集群计算效率提升她强调,DPU裸金属训练集群为高带宽、低延迟、数据密集的大模型训练场景提供强大的计算引擎大幅提升网络处理能力和数据传输速度

基于DPU裸金属所构建的训练集群在高性能计算、数据和模型并行处理等方面优势突出,可轻松应对大模型时代下的严苛性能要求和工作负载挑战。DPU裸金属集群可以提供训练所需的强大算力,具备千卡规模的模型训练能力;同时以低延迟、高吞吐的特性,充分满足了大规模数据处理和高并发场景的需求加速模型训练过程。此外,DPU的引入赋予了训练集群更高的灵活性和可扩展性,使得用户能够根据实际业务需求灵活选择适配的硬件和软件堆栈,确保持续优化模型的训练性能和效率。

会上,王晓慧还进一步分享优刻得孔明智算平台在大模型训练场景中的优势孔明智算平台是优刻得自主研发的一款智能算力管理平台,能够帮助大模型公司提高训练效率、优化模型性能、降低开发成本。用户可以轻松构建并管理训练集群,对计算资源的智能调度和优化配置无需将更多精力关注在底层资源层面,从而实现更加高效的大模型训练

为应对大模型训练过程中通信异常挑战、及时发现故障所在,优刻得结合英伟达的GPU Direct Storage技术自主研发了UPFS并行文件存储系统UPFS显著提升了存储系统的吞吐能力,使得CheckPoint的速度相较于传统存储提升了近10倍确保提高训练效率和快速恢复训练优刻得智算平台支持对同构、异构卡的统一调度与管理,以分区的方式提供不同的资源池;同时,支持TCP/IP协议、IBRoCE多样化的网络接入方案,拥有断点续训、数据备份、自定义故障恢复等机制,避免训练过程中的意外中断,为大模型训练的安全性和连续性提供保障。

目前,优刻得DPU裸金属训练集群和智算平台已在大模型分布式训练、自动驾驶、生物医药、工业制造等领域落地应用,能够胜任在AI领域内的各类业务需求。在生物医药领域,基于高性能计算能力,研究人员能够更快速地进行复杂的分子模拟和仿真训练,加速药物研发和优化过程;在工业制造领域,帮助企业提高工业仿真、工业复核等任务效率,优化生产流程,以实现智能制造

优刻得智能算力已广泛服务于大模型人工智能企业,为智谱AI构建超千卡规模推理集群实现成本效益服务质量平衡AI绘画平台图蝇AI提升图片生成效率和质量,设计效率提升5倍以上出门问问数字人应用研发提供海量算力5分钟内即可实现数字员工形象定制上岗

当下,优刻得GPUDPU和存储等多个领域建立了优势不仅用户提供高性能底层算力资源凭借丰富大模型工程化实践众多大模型企业提供有力支持。未来,优刻得将更好地为全球用户提供智能高效、稳定可靠的AI智算基础设施,助推更多大模型应用的研发与落地。

扫码咨询优刻得大模型智算解决方案

  热文回顾
1、为大模型应用而生,优刻得推出高性能文件存储UPFS
2、Sora爆火!未来AGI比的就是算力和对世界的理解
3、国资委明确:加快建设一批智能算力中心
4、优刻得专属云,助力合作伙伴打造自主云服务

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接