酷应用

“中国版英伟达”深鉴科技完成4000万美金新一轮融资，蚂蚁金服三星领投，AI芯片领域中国创业公司正在全面崛起

百家作者：DeepTech深科技 2017-10-24 07:07:31

年度订阅用户可加入科技英语学习社区，每周科技英语直播讲堂，详情查看“阅读原文”

过去美国的硅谷借着晶体管、半导体站到世界科技的中心，不过，现在由人工智能（AI）发动的新一代半导体芯片大战，中国企业特别是创业公司，已经是不容忽视的角色了。

当 AI 成为众人追寻的新边疆后，各式各样的商机跟着显现，其中一个就是半导体，昨日在台积电举办的 30 周年大会上，科技大佬们的话题始终离不开人工智能，不过要让 AI 应用执行的又快又好，传统的 CPU 恐怕难以满足，而这恰恰给了新创公司一个大好的机会：要从根本上改变计算机的运作方式，就得开发更适合深度学习等算法的新芯片架构。

图丨在昨日举行的 30 周年庆论坛中，台积电邀集了苹果、英伟达、高通、ARM、博通、ADI和ASML等主要合作伙伴，一起畅谈半导体产业的下个 10 年

现在不仅硅谷已经重新兴起了一股新的“硅公司”诞生潮，将场景拉到中国，更是有过之而无不及。“在 AI 芯片的战场中，中国创业公司堪称是热闹非凡！”研调机构 CB Insights 相当生动的描绘这一个正在蓬勃发展的局面，芯片创业公司在今年的募资金额有望达到 16 亿美元，比起 2016 年的 13 亿美元、 2015 年的 8.2 亿美元增加不少。但在这之前，芯片创业公司被视为“有毒”，风投们生怕一碰就受伤，会有此巨大的转变就是他们从 AI 芯片看到了庞大的商机。

中国一直以来积极推动半导体自主化，现在看来，“中国芯”这个目标极有可能率先在 AI 领域实现。而有一家新创公司，让全球知名的 IC 设计公司联发科、Xilinx、以及三星愿意掏钱投资，甚至放话要挑战 NVIDIA 的 TensorRT，这就是深鉴科技（DeePhi Tech）。

今天下午，深鉴科技在北京召开新品发布会，首次展示了深鉴的一系列全新产品，包括基于深鉴DPU平台的一站式智能 IPC 解决方案、视频结构化方案，面向DPU平台的深度学习开发套件DNNDK等。

图丨深鉴科技 2017 新品发布会

同时，深鉴科技也正式公布完成 A+ 轮融资。此次融资总额约 4000 万美元，由蚂蚁金服与三星风投领投、招商局创投与华创资本跟投。本轮融资一部分将继续用于安防和大数据领域的产品开发和市场销售，落地更多安防监控的终端产品和服务。

据深鉴科技 CEO 姚颂向 DT 君表示，蚂蚁金服的战略资源注入，会帮助深鉴进一步开拓包括金融在内的更多应用场景；与三星之间，则侧重于存储等方面的合作，为 AI 芯片打造以深度学习处理器为核心的智能化解决方案和高效的整体系统，以便多领域拓宽和产品落地，加速深鉴科技迈进商业化阶段。

图丨深鉴科技 CEO 姚颂

本轮融资跟投方之一、华创资本合伙人熊伟铭先生向DT君表示：“深鉴科技在稀疏计算领域的研究是世界领先的，他们在FPGA领域的口碑也得到了国际大厂的认可，而且从产品演进角度考虑更加容易走向ASIC应用，所以我们非常看好深鉴在人工智能领域的发展。”

凭借深度压缩算法在竞争中成功突围

在深度学习领域，过去一直都是由 GPGPU 架构领跑市场的发展，但如今 FPGA 和基于 TPU 架构的加速方案也不断冒出头，这些产品不约而同的具备可程序化的能力以及极佳的计算效能。然而，对 AI 产业而言，计算硬件最终效率都会因为彼此学习而走向一致，那么决定整体方案优劣的关键因素何在？答案就是软件环境了。

深鉴作为近两年最受瞩目的 AI 创业公司，发布了不少硬件计算架构，也打进了不少应用环节中，然而深鉴之所以被格外重视，并非仅靠这些硬件方案而已，其重点在于基于完全自主的深度压缩算法。

这个算法有多重要？要知道目前 AI 分成云端和终端，当然还有部分边缘计算，这些数据的收集，模型的建立、存储，到把模型传送到应用终端上，其间需要多少存储空间，以及消耗多少带宽，相较于计算硬件本身的固定支出，这些变动成本累积起来只会更庞大，且模型容量因为存在太多不必要的信息，传输过程会额外消耗不少时间，即便只是做个终端的简单 AI 模型更新，都会让消费者感到漫长无比。

所以深鉴的核心概念就是，通过压缩法把神经模型中的冗余部分去除，帮模型大幅瘦身，这样一来可以减轻对带宽的传输负担，二来降低模型存储的空间需求，对于现有的网络环境，以及云端服务设备，都可大幅减轻相关的营运与维持成本。

另外，深鉴也配合专利算法开发相关深度学习方案硬件，包含视觉辨识平台、语音识别平台，以及针对 CNN 计算的 Aristotle 平台，通过片上存储的技术，来存放压缩过后的模型，减少对内存的读取，不仅可大幅降低功耗，同时也能强化效能表现。

揭露最新进展

深鉴在北京时间 10 月 24 日下午举办的发表会上，公布了其在深度学习领域的最新进展，发表了多款包含图像识别以及语音识别的新方案。

图丨深鉴三大核心竞争力

图丨凭借深度压缩能力，深鉴可以把深度学习应用推广到更边缘的计算终端里

图丨深度压缩的特性

图丨 DNNDK 是国内首款针对深度学习开发环境的 SDK

图丨人脸检测识别模块，可以让打造人脸识别相机更简单

图丨 DP-2100-F16 则是针对性能需求较高的大批量人脸识别计算方案

图丨 DP-2100-O16 则是作为较”通用”的视频结构化分析计算方案

图丨全新的 CNN 处理 Aristotle 平台

图丨语音识别加速方案，目前已经在 AWS workplace 上线

为了应对深度学习所针对的各种越来越复杂的数据类型和量级，各家厂商的深度学习计算硬件在本身计算能力的强化之余，重点几乎都摆在系统本身的带宽改善上，比如说使用的内存从 DDR3 升级到 DDR4，而且从双通道增加到更多通道，亦或者是在计算芯片上集成了 HBM 内存。

当然，这种寻常硬件发展思维下的做法本无可厚非，然而，这么一来不但成本增加，二来功耗也变得更难看，且更重要的是，很多时候瓶颈不是在系统计算核心的部分，而是来自于数据传输的过程，也就是说，这些硬件厂的作法并没有对症下药，反而在某种程度上加重了病情。

例如，提供 FPGA 边缘计算服务的企业常会面临几个挑战，不论是在学习的过程，或者是学习后的模型建立，很多时候都卡在带宽上，这会造成两个结果，一个就是在学习的过程中，系统来不及把数据喂给计算硬件，导致计算硬件空转。第二个是学习完建立的模型非常庞大，不仅提高了存储的成本，也增加系统传输的负担，模型很难被下放到一般储存空间有限的智能终端硬件，限制了应用可能性。

也正因为此，“未来深度学习的应用成败关键，就在于有没有好的压缩算法可以降低带宽的负担。”深鉴科技 CEO 姚颂一语道破。

压缩算法带来效能提升，比换硬件架构更划算

图丨在不同网络下的性能比较

如果可以把模型直接压缩到几十分之一，权重数量减少到三分之一，那就意味着你可以减轻带宽负载到数十分之一，并同时把性能提高到 3 倍。目前市场上的 AI 计算硬件，鲜少有企业敢宣称自家相邻两代的计算硬件性能在同等芯片／计算密度下，可以有 3 倍性能提升。但是，深鉴单纯借由压缩算法的导入，就可大幅改善现有计算硬件的效率，这对于业界而言，带来的影响是革命性的，因此深鉴甚至被誉为是中国版英伟达。

图丨物体识别的效率并不因为压缩的过程而有明显减损，但可省下九成的模型存储空间

英伟达开创了深度学习时代，而深鉴则是革新了深度学习的模型建立逻辑，狠狠踩破了传统计算硬件的发展思维。

这个算法倒底强在哪里？

这个算法是由深鉴科技的联合创始人韩松博士所发明，借由稀疏化来加速深度学习的过程，并且大幅为学习后的模型瘦身。其算法结构用上了剪枝（Pruning），量化（Quantization），权重共享（WeightsSharing）以及霍夫曼编码（HuffmanEncoding）等深度学习专用压缩技术。

图丨深鉴的压缩算法拥有不同的粒度设定，可针对不同规模的学习模型自适应调整出最佳设定

类神经网络就好像人类的大脑一样，每个神经元能连结其他神经元的数量有限——也就是说，当类神经网络在“思考”的时候，其实是包含了很多没有任何意义的冗杂信息，以及对结果判断没有影响的权重，而最简单的作法，就是为这些权重的绝对值设立一个阈值，只要小于这个被预先定义的范围，我们就直接把相关数值舍弃，只保留绝对值较大权重对应的连接。

图丨通过 DECENT 神经网络压缩工具可在不损失算法精度的前提下，将网络模型的计算量和规模压缩几分之一到几十分之一

凭借这种压缩逻辑，最终产生的模型规模可获得大大的缩减，不仅改善带宽占用，同时也能强化后端平台使用此模型的 AI 应用执行效能。当然，韩松所发明的这套算法拥有专利，虽然业界要避开专利发展类似算法不是不可能，但难度非常高，且前面还有深鉴这堵高墙存在。

DNNDK 直接对标英伟达的 TensorRT

图丨深鉴的 DNNDK 借由更有效率且更弹性化的开发环境，解决开发者在产品开发上的问题

深鉴之所以被称为中国版英伟达的另一个原因，就是在深度学习的开发 SDK 方面，直接和英伟达才刚发布不久的 TensorRT 打擂台。

TensorRT 作为探索 GPU 计算潜力的必备软件工具，不仅设计上简单易用，且能够将深度学习中的推理算法更好的发挥出来，作为英伟达布局深度学习的第二个阶段，那就是把 GPGPU 从单纯学习，增加推理计算应用，其重要性不言自明。

那么 DNNDK 又是怎么回事？这套 SDK 是深鉴针对自行发展的 AI 异构计算平台 DPU（Deep-learning Processor Unit）所推出，提供全自动的压缩与编译工具链等流程的支持，涵盖了神经网络推理（Inference）阶段从模型压缩、异构编程、编译到部署运行的全流程支持，帮助深度学习算法工程师和软件开发工程师轻松利用 DPU 的深度学习计算能力，实现 AI 计算负载的加速。

图丨 DNNDK 与自家 DPU 平台紧密结合，带给业界更高效，且一致性高的开发环境

举例来说，依靠 DNNDK 提供的轻量级 C/C++ APIs，开发一个 ResNet50 图像分类应用，大概只需要两百行左右的代码量，其中与 DPU 编程相关的代码只有五十行左右，大大减轻了程序开发者的工作负担。当然，最重要的压缩功能，DNNDK 已经做到全自动化的地步，完全不需要人力介入。

目前， DNNDK 已经支持了主流的 Caffe 框架神经网络模型，另外对 TensorFlow 和 MXNet 框架的支持很快也会在后续的改版补上。

吸引业内巨头三星、联发科等大咖投资

正因为深鉴的定位极为特殊，刚好又站在 AI 计算生态兴起的风口上，从创立之初就极受关注。

联发科和三星同样都对 AI 的应用和技术发展有着浓厚的兴趣，尤其是三星，其 Bixby 以及延伸出来的自然语音服务体系，已经贯穿整个三星企业的核心产品，但尴尬的是，三星还没有自己的终端 AI 计算方案，虽然已经开发一段时间，但是看到苹果的神经引擎，以及基于寒武纪的华为 NPU 在 AI 计算效能上技惊四座，维持闭门造车的作法恐怕不能再和这些方案竞争。

也因此，为了在相关的 AI 终端能够卡到更好的位置，拥有绝佳专利的深鉴开发方案就成为首选。三星风投参与新一轮投资，是在 8 月以个别投资的方式加入深鉴的股东行列，目前投资金额不明，但预估不会少于 A 轮募资中几大首要投资者。而值得一提的是，深鉴也是三星风投对外投资的第二家 AI 方案公司，可见其对深鉴的重视程度。

联发科的处境和三星有点类似，同样是想通过移动方案加入 AI 计算能力来提升整体方案的竞争力，并且希望能扩及到更多的产品应用。但与三星不同的是，联发科的 AI 发展基础相当薄弱，目前该公司也还没有任何 AI 服务形成生态。因此对于联发科而言最快的方法，就是导入目前业界已经被普遍使用的 AI 架构，直接取用现成的生态。

值得关注的是，深鉴目前在语音与图像识别方面已经拥有不少客户，相关的开发资源也算得上丰富，若直接集成深鉴的 AI 技术，对于往后方案的竞争力，以及提升方案的应用广度上将有正面帮助。虽然联发科在 AI 技术领域还没有太显眼的结果，但联发科在其汽车方案的图像识别技术上，正是选择了深鉴作为合作对象。

当然，除了三星风投和联发科以外，Xilinx 是另一个重要的核心支持者，这家 FPGA 方案公司在深鉴开创之初就已经了解到其应用上的潜力，因此 Xilinx 不但在方案供应上与深鉴有相当紧密的合作，并且还借助深鉴的深度压缩算法，改善市场竞争力。

深鉴、地平线以及寒武纪

DT 君用简单的描述来区分这三家方案公司，深鉴的团队多由清华出身，特色是用专利深度压缩带领其 DPU 方案打入市场，其强大之处在于借用压缩手段，可以把 AI 的推理判断带入更多、更细微的终端应用。虽然目前是基于标准 FPGA 架构，但不久后也会推出自己的 ASIC，借以进一步优化性能与功耗表现。

地平线则是在应用的算法上有其独到之处，尤其是针对自动驾驶的视觉判断算法上，可达到低功耗与高效能表现。地平线的团队是从百度出来，着眼于算法加上自有芯片的开发，但市场面向较深鉴更有针对性，目前主要业务目标是针对汽车 ADAS 或自动驾驶需要的视觉判断方案进行开发，与视觉判断相关的智能家居、安防也有涉猎，并于日前宣布完成由 Intel Capital 领投的 A+ 轮融资。

而抢下全球 AI 芯片第一只独角兽封号的寒武纪，定位比较特殊，主打高“通用性”的深度学习方案，与前两者“针对性”较高、方案只能一个萝卜一个坑的作法不同。由于寒武纪投入开发的时间较早，目前主流的深度学习标准几乎都有支持，且虽然强调通用，但其理论性能非常强大，与国外方案相较之下甚至有过之而无不及，现阶段最为人所知的应用案例，就是华为在其最新的高端手机方案麒麟 970 中集成了寒武纪的 NPU 计算单元。

由于三者针对的市场领域各有不同，所以 DT 君也不做技术优劣的区分，事实上，硬要比的话只会落入关公战秦琼的尴尬局面。总之，这三家厂商都在各自的领域成功打下一片江山，技术层次与市场竞争者相较之下，毫不落后。