商汤CEO徐立:AI城市中,基于GPU计算能力的人工智能商业场景

百家 作者:大数据文摘 2017-09-28 04:40:11


伴随着人工智能新一波的爆发,图像识别等新技术的发展、GPU计算能力的提升,都对智慧城市进行了新阐释。AI技术如何重新定义城市、交通、乃至个人生活?AI技术如何真正在智慧城市或者是人工智能城市里面取得突破?


在英伟达GTC 2017大会现场,商汤科技CEO徐立就此发表了相关看法。他认为,智慧城市是在整个城市服务水平的提升,我们理解的从工业城市到智慧城市的发展,是一个必然的趋势。徐立还提出了在AI城市中,可能出现的几个商业场景。


以下为徐立的演讲全文,大数据文摘做了不改变原意的删改:


非常有幸有机会在这里跟大家分享商汤科技在智慧城市中应用的一点想法,讲到智慧城市,或者是人工智能城市,我们虽然做人工智能,人工智能城市到底是什么样的情况,也听了几位的演讲,还是挺有感触的,跟他们一直也交流在这一方面的心得,现在大家来看,人工智能对这个行业的影响和变革,其实还是非常大的。


从我们现在的思考,从这一波技术带来的变革,英伟达对整个行业的变化,现在进入了第四次工业革命的时代,包括说我们是大数据的变革,人工智能的变革,引领的是整个行业的产业升级。放到更高的维度来看的,我们可以看到其实人类发生了几次革命,农业革命带来的是农业城镇的建设和变化。再就是工业革命,形成的是物理的提升,有工业城市的建设。现在这一波是技术革命,包括数字,包括说数字化,包括说我们讲的大数据,还有现在的人工智能,必然会带来整个城市的升级。如果我们对智慧城市从这么一个角度来看,智慧城市其实是在整个城市服务水平的提升,我们理解的从工业城市到智慧城市的发展,是一个必然的趋势。


数据是智慧城市一个很核心的标准


讲到智慧城市,或者是AI City,我们也是处在一个比较模糊的状态,因为智慧城市的定义是随着时间变化而变化。刚才讲的安防摄像头,你要知道全世界的安防工作,每天都在使用。现在新兴楼宇有大量的数字化摄像头,在2020年就有十亿只摄像头,对这个场景的捕捉,试想一下这个是一个非常大的数字化的场景。把所有的变成数字化,就变成了一个智慧城市,这个定义值得商榷。


其实智慧城市一个很核心的标准,就是数据,除此之外还得需要各式各样的传感技术,你要对生活周边所有的这样的内容有所感知的时候,形成这样一个感知网络,这是一个智慧城市。当这波人工智能爆发的时候,对智慧城市进行一个重新的阐释,现在的智慧城市跟人工智能密切相关,用人工智能驱动的方法对城市进行定义,对城市当中的个人生活进行定义,对城市当中和人和交际进行定义,对交通进行定义,以至于对整个国家进行定义。智慧城市从商汤科技的角度来看,我们在这两年服务了这么多企业,用人工智能赋能下游企业的时候,我们发现它是一个动态演进的过程,定义也是随着时间的变化而变化的。


2008年IBM最先提出了智慧城市的概念,各个端包含了三个部分,第一部分是智慧城市的定义需要更透彻的感知,要把数据传回来。从摄像头的建设,和个人感知器的建设,路边有各种各样的传感器,上面有摄像头,还有各种声音,气味,烟雾的传感器,这些传感器达到了第一步是对现实世界场景的还原工作。有了这些工作,进入了第二个阶段,也是十年前比较火的一个概念,有了4G、5G的传感器,然后要做数据之间的传递和数据之间的分享,才能形成一个大数据的集群。


我记得读书的时候,2003、2004年的时候,翻开杂志看到大数据,讲了十年大数据,2013、2014年一直讲big data,一直没有起到实质性的作用,只是大量的数据放在那里,这些数据到底能用在什么,其实不清楚的。所以有了更透彻的感知和更广泛的互联互通,最关键的是背后的核心智能。三个要素,是获取、连接和处理,这三个连接起来,我们认为是现在智慧城市所必须的先决条件。   


讲到中国,还是有非常大的魄力,任何一个西方国家在做人工智能的规划也好,在做智慧城市的演进也好,其实所有给的都是由第三方咨询机构给出这样一个建议,像埃森哲、普华永道每年都会给出关于人工智能和智慧城市,给出对未来的预测,但没有上升到国家政策,没有国家在此倾注更多的指导意见。


在智慧城市方面,其实我们国家在2012年开始非常关注整个智慧城市的建设,当时聚焦在传感器连接,然后数字化。到了14年8月,国家出台了关于促进智慧城市健康发展的指导意见,给出了2020年的五年工作计划,现在讲到人工智能这一波热,政府在这一方面花了大量的心血,中国今年3月份,第一次将人工智能写出了工作报告,6月份出台了关于人工智能规划的白皮书,而且给出了2030年的整个人工智能的规划。所以从这一点上来讲,国家的政策对于整个国家的智能化,智慧化和人工智能有了一个非常大的进步。


GPU和人工智能本身的关系

我们讲一讲GPU和人工智能本身的关系,很多年前大家来看英伟达,很多人认为他是一家做显卡,游戏的公司,即使渐渐从原始的走向GPU通用计算,做的更多的是超算,还有大数据模拟。确实在那个阶段,它和人工智能的关系还是比较遥远。现在来看,英伟达搭建的是跟人工智能相关的平台,所以这一波人人工智能的信息,和这样的平台支撑是离不开的。我们讲人工智能兴起是基于深度学习的算法,其实是一种纯数据驱动的处理程序。以前我们讲深度学习之前有很多统计学习的算法,还有专家系统,更多依赖于人的知识算法。深度学习什么时候发明的,1980年代有相关的神经网络,即使深度学习这个词,完完全全是描绘现在的发展,2006年的时候就有了这么一个学术的理论,并且是在实验当中有一定成果,为什么到现在2017年了,才形成了一个在这里探讨人工智能的爆发对行业的影响,这当中的差距在什么地方?其实主要有几点:


第一点,在2006年的时候,行业的数据没有这么大的规模。那个时候才刚刚开始讲大数据,数据比较小的时候,人的知识会起到非常重要的作用。我们要估计整个房间的年龄,数据比较少的时候,要对年龄做假设,做正态分布的假设,大家来听的就是数据行业的人。数据大的时候,把所有人信息数据获取了以后,可以做出更好,更精准的,针对于现实场景的分析,这就是数据大小带来的需要不需要人介入。


第二,本身的计算能力不能处理纯数据计算能力,这是GPU起到了非常重要的作用。之前我搜索了深度学习这个词,深度学习以前一直是平的,从这个词的诞生到2012年底都是一个平的,基本上没有过多的搜索,2012年底的时候,突然之间有一个很高速的崛起,第一次用深度学习取得了大规模的视觉识别的突破,讲的是计算机视觉,相当于是处理图片视频。然后第一次大规模的利用GPU,用了GPU来取代原有的CPU,这件事情非常了不起,以前能够取得这样的突破,微软这样的企业拥有大量的CPU的资源,CPU需要很多的机器连接起来,形成一个CPU集群,才能做深度学习的操作。所以人工智能的爆发有点像大而美的事,这件事情确实很漂亮,只能是微软做,谷歌做,Facebook,现在亚马逊也在做。六块GPU就可以相当于一千个节点的CPU,正因为这样一件事情使得我们进入了一个新的时代,叫计算力的平民化的时代,创业企业能够利用有效的资源,搭建一个更高速的迭代,所以在GPU应用在人工智能和智慧城市的当中之后,能够促进AI算法的迭代。这两个部分的叠加,才是2012年底为什么会有一个新的突破。


平民化之后,大部分的企业有志于做人工智能研究的企业有了很大的突破,在很多垂直领域把一个生产力工具超过人的极限,突破人的准确率,这才是这一波行业爆发的主要原因。


AI技术如何在智慧城市取得突破

AI技术如何真正在智慧城市或者是人工智能城市里面取得突破,我觉得任何一个公司都没有办法去真正阐述我们整个全局的照片,所以我们从中选取了一些角度和维度,这也是我们过去两年商业化过程当中,提供了产品在打磨我们这样一个系统过程当中,取得了一些进展。每个人的生活,对整个社会的商业场景,以及对整个城市管理会有不同维度的突破。我们既然是一家视觉公司,我们后面呈现都是以视觉和视频,更好表达人工智能是可以通过视觉更好的展现出来。


AI和个人生活,人工智能到底有没有在我们大众发生,很多人讲人工智能很热,但是在每个人的生活当中,其实并没有产生影响,很多人说你这个行业非常热,但是人工智能对行业的普及还没有到,请你谈一谈为什么。我想说如果从个人的角度来说,我们每个人都或多或少对现有的这一波纯数据的驱动人工智能的改变或者是改造,比如说国产的华为、小米等手机,发现现在的拍照,已经可以做到了模仿卡片机。除此之外,现在能够做到的是手机还能够替代部分的单反效果,朋友圈晒的照片可以有变焦的操作,有非常浅的景深,这样一款产品,某种意义上不是因为传感器的神经造成的,是因为背后人工智能的算法突破造成的,而且这个算法是完全基于大量的数据迭代,所以在这个过程当中,已经用上了这一波人工智能。如果手机上用了华为、小米的手机,你拍一张照片的时候,你会发现你和你的家人,甚至你朋友的照片,完全可以分开。我有三个小孩,其实长得还蛮像的,他们的照片用iPhone拍完,非常自动的归为三类,这三类很准确,并没有搞混淆。像这样一种分类,场景标注的镜头,也是这一波人工智能带来的TO C端的产品突破。接下来一些产品都会有一些比较明确的变化,这是我们接下来手机上迎来比较大的突破。未来是手机刷脸解锁,指纹会越来越少,变得不太重要。而人脸作为你的生物特征,可以刷开你的手机,商汤科技将会和众多手机厂商进行合作,提供刷脸的服务。


你用人脸作为你的一个密码,是不是非常恐怖的一件事情,苹果出现这样一个功能的时候,很多人传来这样一个漫画,太太跟先生说,先生你看一看我这条裙子好不好,看完之后,刷脸成功支付。你这个刷脸到底安全不?半夜睡觉的时候,别人拿我的脸刷一下,钱就付了。一方面对新生事物的好奇心,即使苹果这个功能出来了以后,比传统密码多受到了60倍的攻击,一看上指纹,指纹也能够做支付,也能做解锁,这个事情听起来很神奇,所以有大量的攻击。所以人脸一定会有同样大量的攻击,可喜的告诉大家,用一张照片,突然之间偷偷地解锁,可能都会被挡住,背后有整个完善活体检测的方案,包括反欺诈攻击,甚至有一定的时间段,对用户习惯的学习,最后给出一个比较有价值的判断,你是不是你本人进行这样一个解锁。


有了背后的人工智能数据的支持,人脸解锁准确率要高于指纹的。这是两年前我们完成了用人脸做金融的支付。人脸的解锁某种程度上潜移默化进入了大家的产品中,一旦用到了终端手机,会受到大量的攻击,这个是会经得起时间的考验。


市面上没有任何一款实时人脸关键部位驱动的特效,同时能够做到低功耗的手机上,别人说加一些特效,说美颜和美白,还有大脸,还有瘦脸,背后大部分的算法都是数据驱动和深度学习的方法,难点是在于说你用一个大数据学习的方法,你背后模型尺寸就非常大,这样的算法原本意义上只能用在大规模的服务器,随着网络压缩的能力,可以把这一部分的能力迁移到大家的手机上,迁移到各种终端上,在这个终端上才能做到这么长时间的使用。我们让每个员工说出对这个平台的期望,有一个员工就提出了使用30分钟不烫手,我要看这个APP开30分钟不烫手,到最后我们发现在每秒实时的情况下,这样一个APP确实是非常低功耗的效果,这确实是人工智能算法的突破。


未来其实人工智能会带来很大的突破,包括人和社会,人和多人的交互,其实无人驾驶就是其中的一个场景,大家听了很多无人驾驶相关的进展和变化,无人驾驶会改变个人的出行习惯,以前开始的时候不能喝酒,未来不一定,要是有无人车的时候,开车和喝酒是完全不相关的事情。无人驾驶为什么大家觉得比较可行,或者在规定的道路上能够在几年之内看到有比较明确前景的内容,是因为这一波的算法是完全基于纯数据驱动的算法,而无人驾驶的数据积累是处在一个临界点,可以大规模收集视觉数据。


我们讲了对每个个人的影响,在这样一个大的环境下,对商业的影响。现在互联网企业挤压传统的商业,利润都挤压了,很多商店有这样的困惑,我的东西应该怎么摆,才能更有效,才能更好吸引客流。大的百货商场,女士的东西都要往上走,走到两三楼,走了一大圈,尽可能逗留,这样摆是有什么道理,很多是通过心理学,通过一些传统的数据分析。目前我们的SenseGo系统就能解决这个问题,男女老少,年龄和身高都可以做测算,通过哪条路径走过,最后到达出口,都有分析。还有对现有的商铺进行分类,这样一些智慧商业让整个变局变得更准确。BAT都会说未来人工智能发展到下一个阶段,真的有可能进入到了计划经济的时代,很多数据都可以经过精确的计算,来给出一个更好的答案。


能够有一个屏幕识别人,这个屏幕在商业显示上有更好的操作,首先可以测颜值,我们办公室有大的一面SenseU产品,是测大家的颜值。我们突然发现这样一个测颜值的产品,非常有用,用来吸引客流。我们在一些展会部署SenseU的产品,会排着队有人来测,昨天参加展会的同学第二天穿不同的衣服,打扮成不同的样子,他要刷新自己的记录,这是一个吸引客流的产品。这一款本身我们做纯娱乐的时候,是不是可以做商业化的操作,我摆在一个商场里面,他可以识别真正来里面的人,还有测颜值。同时还可以给在座的人进行一些分流,可以知道哪些人是属于哪个人群的。大家有一家公司是分众传媒,做广告做得很好,分屏是物理位置,像SenseGo的屏根据人工智能,根本把人分开,给大家推荐不同的商品和产品,除此之外还带来更加丰富的应用场景,包括做商业的排队,这是我们对商业改造的新零售的场景下的模式。


刚才是群像,群像之后有一个更精准的是身份认证,如果用手机的信用卡,各式各样的设备,其实会有一个点,都需要进行实名认证,现在做互联网的各种APP都需要视频认证,中国身份ID是一个可以有价值,并且可以做区分的。目前商业场景中如果说能用到人脸,对个人精准化的描述,其实会带来很大的应用。身份认证,中国移动在两年之内帮他完成了三个亿的实名认证,省去了很多柜面的手续,提升了中国移动的效率。


我们在商业场景中还能做什么样的操作?这是我们做的一个视频,通过人脸信息技术买单,可以轻松识别出来这个顾客,目前在南京苏宁未来店的场所,可以知道第三方的VIP系统。有些场所人很多,怎么样去说服这些人去进行这样一个VIP登记,我们服务的客单价很高的,比如说买楼,买车,其实顾客来了,超过两次以上,就说明他可能对这些商品有兴趣,每单成交的客单价很高,其实里面带来了很大的商业价值。假设一个人在商业环境下,重复在三个月之内,到达两次或者三次以后,我自动分析成VIP系统,可以提供更精准的服务,上一次看的货品,现在已经到货了。现在有了这样一个更精准的定向推送,我们来做很多的商业行为,就会变得更有效果。


最后讲一下更高维度的城市管理,城市管理是真正的解决城市治理的问题,海康也提到了可以用人脸来部署在安防的情况下,进行更安全的监控。我们在重庆的一个区,部署了叫人脸对比的系统,40天识别了69个嫌疑犯。在广州上半年的时间里,我们的系统帮助他们破获了200多起案件,它其实真正帮助我们现在城市变得更安全,很多人也会困惑,这么多的摄像头,大家有没有隐私呢?实际上有了现在这些技术,确实是把大家的隐私做得更安全,因为传统当中有一些摄像头楼里的保安看,公安干警看,很多都可以说这个链条上所有能够涉及到这些数据的人,都可以查看原始的视频,你的一举一动都有人来看你的原始视频,是不是非常恐怖?但是有了这个技术之后,可以把人脸变成一串条码,不能恢复原来真实的人脸,不把真实的ID放上去,原始的数据不能被获取,有了这样人工智能的技术,反倒是让大家的隐私得到更好的保护。


如果看不到人脸的情况,一个人在多个摄像头场景中出现过,他其实可以把这个人的轨迹进行还原,甚至还可以用人的自然语言,以前是用图片,现在可以简单说这个人穿灰色上衣,挎一个黑色的包,可以大幅度提升管理水平。其实某种意义上达到了一个新的高度的安全,就是用人工智能的方法。


我们可以做到更好单人的检测,多人的检,人群的分析,这些事情用wifi的信号也可以完成,但是如果用人工智能的算法,不但能检查出来人的密度,也可以知道某些地方有逆流,真正可能有预警的情况,极早的进行防范。并且还可以进行对人群轨迹的跟踪和恢复,这是一个火车站的场景,可以检测两波,第一波是流动人流,第二波是静态人群,大都站着不动的人,在火车站要引起警觉。


我们对于场景当中其他物体的识别,刚才讲到对于人脸整个个人,还有人群,其实还有一个更高的维度,就是所有场景中的物体,可以把视频当中所有的人、车、非机动车,车四千种车型,人40种属性,都进行结构化的梳理,你可以降低存储空间,如果每天的东西都存下来,存一个月,中国的硬盘可以大幅度的下降。未来只存储结构化被认证的条目,那么有了这些条目之后,你可以做到更好恢复原来的人、车、非机动车的轨迹,而且通过自然语言来进行管理。对于城市可以更有效缓解交通的压力,更有效的恢复一个人的行为。


往期精彩文章

点击图片阅读

德勤财务机器人正式上岗,工作视频曝光,效率惊人

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接