滴滴研究院副院长叶杰平:大数据和AI如何在出行场景中落地

看点 作者:共享经济 2017-04-26 08:03:56
4月25日晚,在北大AI公开课上,滴滴出行副总裁、滴滴出行研究院院长叶杰平老师,和北大人工智能创新中心主任、曾经的“百度七剑客”之一雷鸣老师一道,为同学们讲解了大数据和人工智能在滴滴出行场景中的应用,以及人工智能如何推动交通行业升级和未来的发展趋势与展望。 本文转载自新智元,作者叶杰平;由亿欧编辑,供行业内人士参考。

以下为叶杰平的演讲整理:

首先分享一下滴滴的大数据,以及大数据和人工智能在滴滴的应用。我想应该有很多人用过滴滴,滴滴解决的是出行的问题。我先简单介绍一下滴滴的背景。 我们先看一下目前交通状况。这里我列出了世界范围内车的密度前10的城市,密度是指每1000m²车的数量,可以看到前8都是中国的城市。也就是说中国国内车的密度已经很高,车已经很多,那么如果继续增加车辆,不能有效解决出行的问题。 那么一种有效的方式是让现有的车实现共享职能,司机和乘客两边的信息能够互通,然后有一个平台能够掌握所有的实时的信息,做出比较智能的决策来提高出行的效率,缓解拥堵。 滴滴是12年成立的,先是有出租车,后来到14年有专车,然后15年之后有了快车顺风车公交等等。现在每天订单超过2000万单。所以你要是做人工智能做机器学习,那这个样本量就一天是2000万,这是特别大的数据。现在这个平台上有4亿用户。 作为一站式、多元的出行平台,滴滴能够提供多元化的出行工具,连接司机和乘客。 提一下滴滴的社会价值。根据调研,我们拥有的私家汽车的使用率其实是非常低的,大部分时候私家车是停在家里的,或者停在公共停车场,所以使用率是非常低的。有了滴滴之后,北京的小汽车的使用率提高了12%,另外滴滴填补了很多空点,能够在更多地方解决出行的问题。然后也增加了很多就业机会,然后我们也通过顺风车实现拼车出行,减少了环境污染。 下面说一下我们的大数据。我们每天大概2000万单,平台的每一辆在开着的车,每几秒钟就会给我们传递GPS信息。现在滴滴每天新增的数据量是70TB,这个数据应该是几个月之前的,现在应该更大了。然后我们平台在做很多的预测,模型,等等,每天处理的数据是2000TB。 每天的路径规划是90亿,这个数据量特别大。然后是定位数据,我们必须要知道乘客在哪,司机在哪,所以定位是非常重要的,这个数据不光要精确,而且要快速。定位数据每天是130亿,特别大。下面我会介绍一下滴滴如何有效利用数据,即从海量的交通数据里面找出有用的信息来改变大家的出行,比如说提高出行效率,改善出行体验和安全性,这是比较核心的一个挑战。这也是滴滴大数据的核心价值。 我们希望实时地把整个城市的交通数据整合到一块,然后我们背后有算法,有计算平台,能够实时地做智能的决策,这是滴滴大脑的核心。 下面我会举几个例子,介绍一下滴滴过去一年半左右在大数据、人工智能方面的探索。这里列了一些核心的项目,第一个是ETA,就是预估出从A到B大概需要多少时间,这其实是滴滴的一个非常核心的功能。因为预估时间是非常重要的,比如你想6:40从家里来这个教室,你得大概预估一下多久能打到车,然后司机过来接你大概需要几分钟,然后你从你家到这里大概需要几分钟,如果能有个预估的话,你就能更精准地做决策。预估时间应该根据历史和实时的一些特征来预测,这是一个机器学习问题。 另外一个是智能分单,就是一个乘客发单,然后做智能搜索,搜索最近的一个司机来接你。所以分单简单来说就是乘客搜索司机,这个问题挑战性非常大,我们需要做实时的匹配。 你如果打开滴滴APP,这里会有一个预估价,比如说你大概需要69块钱。那么这个68块9是怎么来的呢?其实本质上价格是由两个因素决定的,一个是距离,一个是时间。那么距离就要做路径规划,就是从你的起点到终点应该怎么走。这其实是一个非常复杂的问题,而且你可能每秒钟需要做成千上万个计算。算出距离之后,再预估A到B的时间。结合时间、距离,然后有一个公式,加到一块就是预估价钱。预估需要越精确越好,预估价比实际过高或过低对乘客来说都是不好的体验。 下面介绍一下用户地点预测,这个极大地提高了用户出行体验。你可以想象打开APP,它会猜你去哪,不需要输入目的地,点一下发单就可以了。其实滴滴APP的首页已经用了非常多的大数据和人工智能,除了预估目的地,还有路径规划,预估时间,预估价钱等等,你可能没有感知,这个首屏其实已经有非常多的算法,这里面至少有好几十个算法。 完成了前面的搜索之后,如果你愿意发单的话,那下一步就是派单。我们每两秒钟会接到大量需求,我们也知道这两秒之内有多少运力,有多少空车是可以接单的,有些载人车也是可以接的,如果它是拼车单的话。派单是滴滴最核心的一个模块。 刚才讲到,每两秒钟我们就积累了一大批乘客,以及一大批司机,然后做最优的匹配,每个乘客我们会匹配最优的一个司机。那怎么做匹配?我这里讲的大部分是快车,会稍微讲一下顺风车,因为它们的匹配场景不一样。 我们分单有一个历史过程,最早期是抢单,就是我们把每个司机周围的订单都拨给他,所以司机会看到十几个订单,然后司机要选。后来发现这个效率不高。所以从15年我们开始做智能派单。 大部分情况下我们希望找的是最理想的一个乘客,所以就指派了,那这样的话就是一对一的匹配,之前是一对多的。那这样我们matching的精度就更重要了。 这里面就有一个匹配度的问题,就是这个乘客和这个司机匹配度高还是低。最早期的时候滴滴用的是直线距离,因为当时的很多基础功能还不完善。后来我们应该用路面距离,司机实际开过来的距离应该作为一个匹配度。所以从15年开始,路径规划比较完善了,我们就开始用路面距离。我们会先预估出来哪一条路径是最合理的,然后让司机去接乘客。但这个其实还不是最合理的,最合理的应该是时间,比如同样的两公里有情况一和情况二两种选择,比如情况二需要十分钟,情况一的距离可能是类似的,但是时间可能只需要五分钟,因为它的路况更好。最合理的应该是用时间来衡量。 派单里面我们讲到怎么去评估两个匹配的好坏,需要两个核心的算法,一个是路径规划,另外一个是ETA。 说一下分单的挑战。我刚才讲了,我们跟传统的搜索不一样,我们是实时的搜索,每两秒钟做预测,这里牵涉到非常多的地图的应用,比如说路径规划,ETA。因为其实我们不知道哪个司机离你最近,所以我们一般是找到你周围的所有的司机来做匹配,然后做路径规划和ETA。而且这是非拼车的方式,如果你是拼车单,那你们俩还要做匹配,复杂度就成了N的平方。所以这个复杂度特别高,而且要保证实时实施。 刚才我讲到,ETA是滴滴非常重要的一个功能,在预估价、分单等方面都有应用。比如说你从A到B,假设已经知道路径了,应该怎么算时间?我们把它看成一个机器学习问题,label很简单,就是时间。那这里最核心的特征怎么挖掘?这里有一大堆的路网特征,实时路况特征,历史特征,等等。我们从最早期的七八十个特征到最后有几千万的特征,这个特征量越来越大,效果的话是越来越好。误差的话,从15年开始,到我们去年完成大规模的稀疏的模型,误差明显降低。 这里面有几点,一个是数据量越来越大,同样的模型数据量越来越大,自然精度会提高。第二,我们的模型也是越来越智能了。比如最近我们用了深度学习模型来预估时间。 大家都知道深度学习在很多领域已经有非常成功的应用了,比如说在图像、文本、speech等方向。在交通方面其实还很少,所以大家如果对在深度学习探索新的应用感兴趣的话,我觉得交通是比较有潜力的,因为现在工作还非常少。但是深度学习在交通的数据还是非常有前景的。 深度学习我们现在刚刚上线不久,效果还是不错的,一上去模型的精度就完全比之前好了。它的好处是它还有很大的提高空间,数据越大,它的威力越大。我认为这肯定是一个大的趋势。 有了时间和距离之后,这里每一列是一个用户,每一行是一个司机,分别是不同类型的订单,有快车,专车,等等。每个车跟每个订单都有一个匹配度,比如说时间和距离,比如说时间越短的话,匹配度应该越好。这样得到一个大的矩阵,然后做订单的分配,得到最佳匹配。这个已经有很多年的研究,有最优解。 但是更有效的分单还需要考虑未来,找到未来一段时间收益最大化的最优解。最近我们上线了一套算法,用了增强学习。这个就涉及到供需预测,你需要知道比如说在未来半个小时,北京所有的区域大概有多少订单,哪个区域订单比较多,等等。这个就需要供需预测,这个对我们来说是非常重要的事情。去年滴滴举办了第一届算法大赛,主题就是供需预测,预测每一个区域大概会有多少个需求,多少个司机。我们现在的预测精度达到85%。 下面讲一下供需的不平衡。很多情况下打不到车的问题是供需不平衡。图中绿色表示这些区域车的空闲运力比较多,红色区域表示车比较少。怎么解决这个问题?我们第一个方法是做预测,刚才讲过了,我们如果能提前预测,比如说未来半个小时各个地方供需的情况,如果能预测到这个区域缺10辆车,我们提前把它调过去,这是最理想的。 另外一种方式就是拼车。比如说现在有100人在这个地方发单,我们只有50辆车,那最理想的情况是每两个人拼到一块,如果他们的路径类似。 这里面核心的问题是如何保证乘客的体验。 这里我们建立一个机器学习模型,根据历史上发生的大量的拼车单,分析哪一些是乘客投诉说体验很差的,哪一些是大家说好的,然后我们找出特征来。我们需要找出一些重要的特征,能够刻画这个体验。比如说这两单拼成了,我们大概能预测一下这个体验好还是坏,如果预估体验不好的话,我们就不让他们拼车成功。这背后其实是路径规划,相似性,以及体验的预测。 类似的是顺风车。这里比较重要的也是匹配度,相当于是拼车,时间要匹配,路线要匹配,所以这里有一个匹配的模型。 匹配成功了其实只是第一步,后面还有一系列的问题,比如说服务,我们得保证的司机服务是好的。我们发现也可以通过大数据来极大地提高司机的服务质量。怎么做的呢?每个司机我们会给他一个服务分,0到100之间,这个服务分也是通过模型算出来的。 最后我们讲一下司乘判责。就是当司机乘客发生不愉快的时候,比如乘客取消,应该判谁的责任。乘客取消其实不一定是乘客的责任,有时候是司机的,有时候确实是乘客取消。这种场景下这种订单取消行为,比如说乘客取消的,我们要判断一下司机有没有责任,乘客有没有责任,做一个自动的判责。我们做了一套判责系统,去年12月上线,这一系统会自动判断司机和乘客有没有责任。 最后提一下滴滴大数据潜在的价值。最近滴滴智慧交通组在济南做了一个项目,用滴滴的数据来控制红绿灯。大家知道红绿灯控制的目的是提高效率但其实大部分情况下红绿灯控制是不合理的,稍微优化一下可能潜力是巨大的。现有红绿灯控制系统不实时,也不精准。 但滴滴的数据是非常实时,非常精准,就是说我们大概知道东南西北当时的流量大概多少,通过滴滴数据能够比较精准地预测出来当时的流量,然后用来控制红绿灯。这个在济南的经十路已经上线一个多月,数据显示,经十路早晚高峰期的交通延误时间均下降了超过10%。所以可以看出滴滴的数据潜力还是巨大的,在红绿灯控制方面,在客户体验方面,在分单效率方面,等等等等,都有非常大的发挥的空间。 那我今天就讲到这里,谢谢大家。

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接