商汤大模型,AI时代的功守道

百家 作者:36氪 2023-04-13 19:23:26
从AI For Science 到AI For Business,商汤拥有绝对的发言权。到了大模型战场,这个状况也不例外。


作者|乔纳斯

商汤大模型体系,“日日新”
4月10日,上海临港,商汤技术交流日,现场座无虚席。
人们在期待商汤的大模型产品,正式介绍前,商汤科技董事长兼CEO徐立展示出一张幻灯片:海报里,一个渺小的人形背影,孤独、却又憧憬地站在一栋赛博朋克式的建筑前,大门已经敞开。
“这张海报就是由大模型生成的。”徐立说,“我们这么多年一直在投入建设超大规模算力,训练越来越大的模型。以GPT-4为代表的超大模型,让我们看到了通用人工智能的曙光。”
通用人工智能(Artificial General Intelligence,简称AGI),是人工智能皇冠上最璀璨的宝石之一。OpenAI 之所以震惊四座,也是因为在GPT系列的模型催化下,机器通过ChatGPT吐出了具备人类思维的结果。
这一次,扣响“通用人工智能”大门的,是商汤大模型。
发布会上,徐立正式介绍了商汤“日日新SenseNova”大模型体系,这是一套综合了视觉识别、自然语言处理、多模态、决策智能等领域的综合大模型。在演示环节,徐立和工程师们实时展示了AI文生图创作、自动化编程、数字人生成、3D建模等多个应用。
技术维度更综合,场景也更丰富——这是商汤大模型系列的显著标签。
除了拿出有千亿级参数的自然语言大模型“商量SenseChat”之外,作为以计算机视觉起家的AI公司,商汤自然不会忽视自身多年在视觉信息上的积累。
将大模型延展至视觉识别、多模态领域,本身也符合人类获取信息的习惯。商汤科技联合创始人、大装置事业群副总裁陈宇恒分享了一组数据:整个互联网的文本数据做适当清洗后,只有不到 10个T,但是最大的图像公开数据集(由50亿张图像组成),大小是240T。
另一方面,如果将图像拆分成信息和代码,当中也包含了丰富的语言素材。徐立也在现场展示了真实世界可以囊括的数据集:一副常见的街景图像中,需要对建筑、机动车、行人、信号灯各个要素进行识别,再生成更加结构化的信息。
“商汤积累了大量视觉类信息,这类信息作为知识,输入我们的多模态网络中,会带来完全不一样的数据基础。”徐立谈到。
商汤正将视觉大模型作为核心技术突破点,以“日日新SenseNova”大模型体系为基座,逐步扩展至大语言模型等多模态路线,之所以叫“日日新”,也是因为商汤可以在以周为单位的数据输入上,达到日日更新。

目前,商汤不仅有自然语言大模型“商量SenseChat”,还一口气推出“秒画SenseMirage”(AI文生图创作平台)、“如影SenseAvatar”(AI数字人生成平台)、“琼宇SenseSpace”和“格物SenseThings”(3D内容生成平台)等一系列生成式AI模型及应用。

AI装备竞赛,商汤底气何在?

商汤的大模型并不是一蹴而就的。
早在2018年前后,商汤就着手大模型初期需要的算力、算法、数据等筹备工作,在当时,这项基础设施还被大多数人称为“AI大脑”。
不论是通用大模型还是AI大脑,都有一项共同点:具备一定程度的泛化性。
所谓泛化,是指机器通过对已知数据的训练学习,从而对未知数据得出预测识别。举个例子,比如有天赋的远动员,可以在教练指导基本动作后,领悟出新动作;再比如一个聪明的理科生,因为数学学得好,也就能把物理学透。
回看商汤的大模型产品组合,从底层通用的“日日新SenseNova”,再到上层的语言对话、数字人、AIGC等多种应用,正是跑通了从通用模型到专属模型的发展链路。
“通用人工智能大模型,正发生革命性的变化,它的学习方式和解锁能力发生了根本改变,变成无招胜有招,能随机应变解决很多新问题。”商汤科技联合创始人、首席科学家王晓刚表示。
但要想入局通用大模型,并不是谁都能拿到入场券。
算力是重要基础。商汤在成立初期,就极为重视建设自身的超算体系,徐立也在发布会上秀出了多年积累战果:历时五年,商汤建设了业界领先的AI大装置,大装置上总共有27000块的GPU芯片卡,可以输出5.0 exaFLOPS(即每秒进行五百亿亿次浮点运算)的总算力,是亚洲目前最大的智能计算平台之一。
如果将大模型的生成式AI诞生过程比作“炼丹”,那么作为GPU的算力,就是炼丹炉下燃烧的熊熊烈火。一个可供参考的案例是,为了跑出GPT-3.5模型,OpenAI使用了约1万颗英伟达GPU来训练。
空有算力的储备还不够,如何更有效地使用算力更为重要。这就必须提到一个关键概念:集群调优。
“1万张卡,理论上比1000张卡有10倍的训练速度,但如果没有从系统到训练框架、算法的联合优化,可能就只有2倍的效率提升,这从ROI角度是完全不划算的。”陈宇恒举例道。
另一个需要注意的技术难点,则是要保证长时间、无故障的运行时间。
按照行业普遍状况,1000张卡在训练时平均每天会有1张卡的故障率,那么当算力进一步提升,产生故障的GPU卡会越来越多。一旦万卡级的集群上线,每日平均无故障的时间可能只有1-2个小时,系统就无法有效训练模型。
为了保证计算集群的正常运行时效,商汤团队得益于多年经验,已经从硬件可靠性、软件容错能力等多个维度,在分布式系统和软件框架的设计上,让计算集群得以去支撑未来万卡级的人工智能大模型并行训练。
目前,商汤AI大装置不仅可输出5000P算力,还实现了多卡并行状态下的高算力利用率,支持最大4000卡并行单任务训练,还能持续7天以上不间断稳定训练。
商汤也会将这套大算力变得更加“产品化”。

“商汤之后会通过大装置的一套产品和解决方案体系,向客户和合作厂家去开放。”陈宇恒表示。

大模型下半场:跑出To B方法论

将 AI 从实验室“抱出来”接受市场检验,是商汤自成立之初的基因所在。可以说,从AI For Science 到AI For Business,商汤拥有绝对的发言权。
到了大模型战场,这个状况也不例外。
作为AI技术的提供方,在“日日新SenseNova”大模型体系问世之前,商汤已经积累了不少服务客户的一线心得。
“我们去年就利用大模型去自动地标注数据、更新模式,当时很多合作伙伴还很难理解。”王晓刚谈到,如今,这种技术手段已经成为行业共识。
目前在智能驾驶领域,基于视觉大模型,商汤实现了可识别3000类物体的BEV(Bird Eye View)环视通用感知算法的实车量产,也构建了感知决策一体化的自动驾驶多模态模型,带来更强的环境、行为、动机解码能力。
基于商汤大装置生成的细分领域AI模型,更是在赋能千行百业。
在元宇宙领域,商汤基于大模型推出了数字人产品,其融合了文本生成图像、大语言模型等技术,较快实现了行业落地。2022 年初,商汤和宁波银行展开深度合作,为其打造了叫“小宁”的数字员工。它可以以拟人的客服形象,为客户提供各类业务知识和办理服务。
在生物医药科研领域,通过商汤的AI大装置和生物企业形成合作,为蛋白质结构的大模型研发提供了训练和推理的优化服务,最终实现将蛋白质结构的大模型预测时间缩短60倍,从而大幅度提高蛋白质结构预测的抗体筛选效率。
而在智能汽车领域,商汤在2022年上半年新增量产的定点数量已经超过300万台,位列智能车舱市场份额第一,通过AI大模型赋能的辅助驾驶以及智能车舱的产品研发,商汤的这套技术体系已累计服务了超过40款车型。
更重要的是,随着大模型深入行业,接入更多客户、合作伙伴后,大模型还会变得更加“聪明”。当商汤的客户、合作伙伴使用模型后,会产生更高质量的数据,这些数据循环后会再回灌到模型,使模型再次迭代,形成一个往复的循环。
“这就是我们所说的,模型内会产生核聚变,它就不光光是训练一个模型的问题,还有很多的工具能够让生态转起来,让模型变得越来越强。”王晓刚有些兴奋地谈到。
通用大模型的魔力已经涌现,传统大模型的开发,很多时候会面临较重的定制化问题,周期长且成本高,难以形成规模化效应。
王晓刚将其比喻为“小农经济的小作坊”,但随着大模型出现,其泛化能力可以在短时间内应对千行百业,不再需要过去大量的手动优化和重复训练,让训练成本急剧降低。
“通用大模型带来了人工智能范式的变化,通过人和机器模型之间的交互,我们能以极低的成本,高效的方式不断解决各个领域新出现的任务,使得研发效率大幅提升。”王晓刚说道。

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接