酷应用

专访 | Drive.ai 联合创始人王弢：「我们不依赖深度学习，而是深度学习优先」

百家作者：机器之心 2017-10-29 05:30:19

机器之心原创

作者：高静宜

编辑：吴欣

10 月 24 日，机器之能对 Drive.ai 联合创始人王弢进行了专访，他分享了 Drive.ai 在技术方案方面的创新、商业化合作进展以及公司的下一步。

如果你关注自动驾驶领域，一个雨夜穿行美国加利福尼亚州山景城街道的自动行车 Demo 可能在今年 2 月进入过你的视野，发布这段 4 分钟视频的公司 Drive.ai 也正式露面。

尽管成立于 2015 年 4 月，但在这之前的近一年时间公司专注于研发，鲜少为外界知晓。该公司创始团队来自斯坦福大学人工智能实验室，他们想要研发出依靠深度学习技术的全栈式自动驾驶解决方案，让普通汽车能够升级为自动驾驶汽车。

在完成不同路况的路测之后，Drive.ai 进一步完善技术研发，与此同时，公司开始探索商业化的落地。今年 9 月，公司曾宣布与美国第二大打车服务商 Lyft 展开合作，并在加州推出试点计划。

不到一个月时间，Drive.ai 获得在东南亚占据垄断地位的打车服务商 Grab 1500 万美元的投资，还透露将在新加坡设立办事处。在此之前的 6 月，公司完成 5000 万美元 B 轮融资，由恩颐投资（NEA）领投，北极光创投、纪源资本等跟投，Google Brain 创始人、前百度首席科学家吴恩达也加入董事会。

10 月 24 日，机器之能对 Drive.ai 联合创始人王弢进行了专访，他分享了 Drive.ai 在技术方案方面的创新、商业化合作进展以及公司的下一步。

Drive.ai 联合创始人王弢

更新传感器解决方案，激光雷达数目减少 30% 到 50%

在之前公布的信息中，Drive.ai 的传感器方案采用了 9 个高清摄像头、2 个雷达和 6 个 16 线 Velodyne 激光雷达。那么在进行试点计划后，目前的传感器方案是否有所更新调整？

目前我们最新一代的传感器整合系统会减少 30% 到 50% 的激光雷达数量，即 4 个左右，摄像头和毫米波雷达的数目则基本保持不变。因为从成本的角度出发，摄像头和毫米波雷达这两个跟激光雷达比就是九牛一毛，如果要做成本的优化，那么第一个入手的肯定是激光雷达。我们很高兴看到国内有很多激光雷达创业公司的兴起，这对于国内外自动驾驶产业的推进都是一个很好的现象。目前我们也在与国内激光雷达厂商接触。

在更新传感器方案时，都会从哪些方面进行考量？

我们觉得冗余度肯定还是需要的，冗余度越多，可靠性越强。我们不会只采用一个激光雷达，这不是我们的技术路线。因为目前所有主流的激光雷达都没有达到车规级，所以要让可靠性满足 L4 的要求，冗余度是必须存在的。如果一个激光雷达有 0.1% 出故障的可能性，那么两个同时出故障的可能性则是一百万分之一，三、四个同时故障的可能性就更是微乎其微了。通过这样的方式，可靠性大大提高，我们就无需自己专门设计、制造或是购买一个达到车规级的激光雷达了。

当然，我们并不是把这些硬件简单地堆积起来，而是需要软件的支持。以 RAID 为例，它是一种独立磁盘构成的具有冗余能力的阵列。一般商用需要非常大的硬盘，安全级别可以达到服务器级别，但这个方案是非常昂贵的。现在主流的解决方案是把多个非常普通的硬盘串起来，上层用软件系统重新进行架构，可以保证在一个或者两个硬盘出故障的情况下，不会影响文件系统的使用。这实现了用多个比较低廉的硬件加上软件的优化，达到昂贵硬件的水平，甚至能够超过昂贵硬件的可靠度。我们在自动驾驶领域的解决思路亦是如此。

一些自动驾驶技术公司选择使用 64 线激光雷达，而 Drive.ai 则一直采用 16 线的原因有哪些？

激光雷达的发展非常快，单个激光雷达的可靠性也在提升，不过目前还没有出现达到车规级或者满足 L4 可靠性要求的产品。如果用单个激光雷达，很多创业公司、大型科技公司都会选择使用 64 线。但是 64 线激光雷达也存在一些问题，比如价格较高，暴露在外的旋转机构的可靠性比较差。

我们从一开始就没有选择这个路线，一个是 64 线激光雷达的产能可能会受到一些限制，很多都是人工在打造，没有自动化的生产线；二是大批新兴的互联网巨头追捧这个传感器。因为想做样车的话，这种传感器是最快得到结果的最佳选择，但一旦陷进这个坑想跳出来就需要花上一定功夫了。所以我们一开始就选择了 16 线激光雷达。16 线有几点优势，一是有较高的灵活性，对于多个传感器的安装方案来说比较灵活；二是没有暴露在外的旋转机构，虽然内部还是有机械机构在动，不过不暴露在外的话还是有一定的保护作用；三是 16 线的生产线自动化程度比较高。其实 Velodyne 下一代主打产品的核心技术也是基于 16 线的。

如何看待未来固态激光雷达的发展以及所带来的冲击与挑战？

到目前为止，我们还没有看到比较靠谱的固态激光雷达。有些公司愿景描绘的非常好，但我们还没有接触到可用的实物。如果激光雷达能够实现固态，那么整个成本就降下来了，可能几百元成本的固态激光雷达就能够提供丰富的三维信息，这对我们来说将会是重大的利好。

我们一开始选择的就是多个传感器融合进行冗余设计的路线。固态激光雷达的落地有助于我们使用更多的传感器，那么冗余度也就更高了。我觉得对于一开始就选择采用单个传感器的公司可能会形成一定的冲击，因为他们的整个算法可能是基于 64 线的，或是自己设计了一个高精度的激光雷达。

Drive.ai 使用深度学习技术，特别是在感知和探测上面用了大量的深度学习算法。深度学习有一个优势是对数据本身的形式没有那么挑剔。举例来说，深度学习在图像识别、语音识别、自然语言处理等方面使用的都是很相似的网络结构，喂给模型不同的数据就能实现不同的效果。同理，我们用深度学习也可以很快地适应不同激光雷达的不同组合。

深度学习优先

对于深度学习算法的使用，Drive.ai 有哪些考量？

我们并不是完全使用深度学习，而是深度学习优先。解决困难问题的时候，我们会优先考虑采用深度学习算法。我们整个公司内部人员的配置，以及搭建基础设施架构的时候也是首先考虑深度学习的需求。业界有一些很激进的深度学习方案，例如英伟达把摄像头输出的图像直接当成控制信息。我认为这是一个不错的研究方向，但要真正实现 L4 无人驾驶，这个方法的挑战性还是很大的。我们的方案是把传感器输出的信号当成决策信号。

业界有观点认为把传感器输出的信号当成决策信号也是比较激进的，您如何看待这个问题？

决策的话要看是哪一种、哪一个级别的决策。如果是生成实时应该要走的路径，那么可能是比较激进。比如前面有个卡车停在路边，打着双跳灯，你需要从旁边绕过去。如果直接用深度学习生成从旁边绕过去的路径，我觉得这个可能是比较激进一点。但有一些决策是可以用深度学习来做的，比如说有一辆卡车打着双跳灯，现在的问题是要不要从旁边绕过去。这个卡车挡住路的原因是在于交通拥堵，还是在路边卸货，这个决策完全可以用深度学习来解决的。在做了这个决策之后可以再用其他的方法进行路径的规划。这样的例子有很多，最浅显的就是红绿灯的决策问题，目前我们现在已经用深度学习来判断红绿灯了。

在定位模块，drive.ai 的解决方案有什么独特之处？

在定位方面，我们有自己的地图和系统，可能跟主流的定位系统有一点不同。通过 Waymo 展示的可视化系统可以发现，他们的地图是平面的，没有三维信息。据我了解，Waymo 主要用于定位的特征是地面的反射率。地面反射率比较高的是车道线，比较低的是深色的水泥或者柏油路，利用这个方法构建一个高精地图。在行驶的过程中，系统通过激光雷达反射回来的信息，利用反射率进行车辆的定位。这个方案的优点是与车道线契合的程度比较高，车辆可以行驶在车道的中间，而且在一般情况下也具有比较高的可靠性。但这个方案在遇到雨天时会遇到一些问题，这时地面的反射率会发生很大的改变。特别是地面有一层薄薄积水的时候，激光雷达会发生镜面反射，地面上车道线的特征就不那么明显了，定位也会相应产生问题。我们的定位方案的特征肯定不完全依赖于车道线的反射率，会涉及很多高维的信息，所以我们的地图是三维的。

数据是自动驾驶技术的一个门槛，为此，Drive.ai 开发一套自研的自动标注系统，能否介绍一下这套系统如何提升数据的利用效率？

在自动驾驶领域，数据的质和量同样重要，多种异质数据可以提供丰富的环境信息。数据的瓶颈不在于数据量，而在于标注的效率。我们的自动标注系统做了多种不同数据的融合，在车上和线下都有融合系统。

在线下我们可以做很多事情，因为在车上实时行进的过程中你可能没有预知未来的能力，但线下可以查看历史信息，能够在某一时间点调用未来收集到和过去收集到的数据。利用不同时间段收集到的数据可以形成一个城市的三维地图，地图上有各种语义信息，包括车道线的位置、车道与车道之间的连接关系以及一些动态信息，例如点云中车辆的位置。因为我们已经针对摄像头和激光雷达之间的空间关系做过很精确的校验，所以当我们知道点云中某一个点的三维位置信息后，就会有一套自动的方法把它转换到摄像头中对应的像素，从而完成标注。所以只要标注了一份信息，就可以在多个传感器上得到不同的训练数据。

在测试的过程中，团队遇到了什么问题，是如何攻克的？

其实深度学习算法只是自动驾驶中需要攻克的问题之一。我可以讲一个与深度学习完全无关的难题。自动驾驶是一个系统工程，中间有许多子系统需要集成，这其中的硬件和软件都需要进行沟通。目前业界主流的方案，特别是创业公司，使用得最多的是一些开源的信息交流框架（Message Passing Interface），非常易于上手。但是，这些开源系统最初设计的目的并不是用于自动驾驶领域，而是为了高校里面进行机器人研究使用的信息传输框架，无法达到车规级的标准。而且，开源系统的体量比较大，不断有新的开发者添加自己的应用，但有很多应用我们并不会在自动驾驶里面使用到。所以如果我们要用到开源系统的话，得把这些部分引进来，给我们的系统增加了很多不必要的复杂度。这是我觉得是每一个自动驾驶领域的创业公司都希望成功攻克的难题。

我们内部有自研的信息交流平台，这也是我们一个长期的规划。未来，我们希望它能成为一个自动驾驶开发的基础性工具。现阶段还不会公开，但是之后会有这样的考虑。这个系统是专门为自动驾驶打造的，体量较轻，对自动驾驶所需要传输的数据会做一些特殊的优化，也会加入一些自动驾驶所需求的特殊特征。

尝试客货两用新车型，合作对象锁定「三个 P」

九月初，Drive.ai 与 Lyft 达成合作协议，能否透露一下目前的合作及路测进展？

目前，我们正在积极推进与 Lyft 的合作，会把重点放在路测上，主要在加州尝试进行商业落地。

除了之前透露的林肯 MKZ 和奥迪 A4 这两款路测车型，我们最近还尝试使用了第三款车型。具体的车型暂时还不能透露，但选择这款车是考虑到它的客货两用性，具有电气化改装的空间。主机厂在生产这个车的时候就考虑两种不同的版本，不但有燃油车的版本，也有新能源车的版本，而且它采用了同一个控制协议，具有非常高的灵活度。这其实对我们改装和控制不同的车型、不同的应用来说，是一个非常好的平台。

Drvie.ai 的定位以及对自动驾驶技术的最终愿景？

Drive.ai 的设想是成为 L4 无人驾驶平台的供应商，打造 L4 无人驾驶的全栈式解决方案，然后在底层核心技术上引入不同的合作商，可以是 Lyft 这样的共享出行服务商，也可以是物流公司，或者是外卖应用。我们有一个说法是「三个 P」——People、Pizza、Package，也就是送人、送外卖和送货，这三个方向是我们以后主要的合作对象。目前我们在后两个方面也在同一些合作商进行洽谈。

Drive.ai 主要致力于通过工具包将普通汽车变为无人车，也就是后装套件的研发上。从后装向前装发展是一个大的趋势，公司对这方面的部署及规划？

从整体上看，消费者对于自动驾驶的接受程度并不高，很多人还持疑虑的态度，我们需要正视这个现象。我认为，最先有可能成功实现商业落地的是商业车队，所以我们会最先在这上面进行商业尝试。在这个商业模式得到验证的情况下，我相信会有更多的主机厂以及供应商才会愿意跟我们进行更深入的合作和整合。

九月末，Drive.ai 拿下东南亚垄断型共享出行公司 Grab 领投的 1500 万美元融资，并表示将在新加坡搭建分部。为什么选定新加坡？目前进展如何？

今年内我们会在新加坡设立分部。我们认为新加坡是一个对无人驾驶创新非常友好的环境。新加坡与中国有类似性，不仅有执行力较强的政府机构，同时也有地少人多的问题。新加坡政府大力提倡不拥车，极力控制个人拥车的数量，普通人买车税也非常高，政府也是非常鼓励出行方面的创新。目前我们跟新加坡政府也在进行洽谈。

对于中国市场，公司有哪些进一步打算？

我们对中国也有相应的计划。中国拥有非常大的市场，政府的政策也非常有力。但要实现在中国落地，还要寻找适合的场景。昨天我乘坐出租车时发现，在北京实现自动驾驶还是有很大挑战的。未来，我们还是会继续跟进，尝试在中国找到合适的落地点。