百亿AI数据标注市场,如何突围?

百家 作者:创业最前线 2021-03-31 23:41:56

在AI产业高速发展的背景下,数据标注服务的缺口一定是巨大的。



出品 | 创业最前线

作者 | 小葳


在人工智能三要素“数据、算力、算法”中,数据相当于人工智能算法的“燃料”。作为一项重要的人工智能基础数据服务,近年来数据标注市场发展迅猛。


简单理解,数据标注相当于为“投喂”AI准备“饲料”。机器学习中的监督学习和半监督学习都需要人工标注好的数据进行学习,其训练集、验证集和测试集都是标注过的数据。


比如,如果要教AI认识苹果,可以用1000张标注“苹果”的图片以及更多的不包括“苹果”的图片作为训练集,机器会从中学习得到一个模型,以后再遇到相关图片时就能认出是不是苹果。


随着人工智能产业的飞速发展,产生了大量垂直领域的数据需求,也驱动着众多企业涌入数据标注市场。那么,国内AI数据标注市场的现状和发展趋势是怎样的?什么样的玩家能够突围?


 1

  高速发展,鱼龙混杂的数据标注市场


随着人工智能在各个行业加速落地,近年来数据标注行业飞速发展。据统计,目前国内市场上可查的数据标注公司将近40家。专家表示,人工智能领域整体融资金额中,约有15-30%都投向了数据标注市场。由此,保守估计国内数据标注市场规模已达150亿到300亿元。


在整体AI产业中,数据标注属于上游的数据生产环节,为下游的AI算法企业提供“原材料”。


数据标注有着广泛的应用场景。比如,人脸关键点标注、人脸特征标注,可以为人脸识别算法提供所需数据。自动驾驶技术需要大量的标注数据对算法模型进行训练和调优。在世界级无人驾驶大赛中,主办方往往提供近亿张图片和数十万张标注图片供参赛团队训练使用。



市场供给方面,除了少数大厂选择自建数据标注基地之外,大部分服务供给来自第三方服务商。根据艾瑞咨询发布的《中国人工智能基础数据服务行业白皮书(2019年)》,服务商提供了整体数据标注市场79%的服务,企业自建只占21%。


与任何发展初期的行业相同,目前国内数据标注行业处在高速发展、粗放竞争的初级阶段。服务商鱼龙混杂,临时外包模式、众包模式很常见,有些小型服务商甚至只是负责转包的中间商。行业标准不清晰,服务商质量参差不齐,缺乏专业技能和经验,都导致了数据标注质量难以保障。


另一方面,由于获取数据标注服务是一项长期固定成本,AI算法公司普遍希望有更好的性价比选择。总体来看,数据标注市场亟需专业玩家来引领。


 2

  服务同质化,竞争加剧,如何突围?


企查查数据显示,截止2021年3月,我国共有人工智能相关企业32.3万家。其中,2020年全年新注册企业16.9万家,同比增长323.6%。在AI产业高速发展的背景下,数据标注服务的缺口一定是巨大的。


目前,数据标注的手段以人工标注为主,机器辅助。由于数据标注工作门槛比较低,属于AI领域的入门级岗位,操作员经过简单培训即可上岗。相信随着AI数据处理平台学习能力的不断提升,机器终将不断取代人工承担主要标注工作。但是在此之前,依赖人工进行数据标注将长期存在。


那么,未来数据标注行业将走向何方?


一方面,经过数年高速发展,国内数据标注市场中,各家公司的产品和服务趋于同质化、竞争呈胶着状态。随着竞争的加剧,行业格局方面,一些服务质量不达标的小企业将面临淘汰,头部公司实力将逐渐凸显。


另一方面,随着AI技术加速落地各个行业,服务需求方对数据标注的要求也水涨船高。最典型的就是,垂直场景的定制化数据标注和采集将成为主流。比如,针对人脸识别场景的人脸人像数据服务、针对视频主体的视频标注服务,针对自动驾驶场景的数据服务。


图 / 摄图网,基于VRF协议


一些AI公司甚至希望数据公司能够更懂算法技术、更懂需求场景,甚至能参与到算法的研发中来,给出数据采标方面的优化建议,这也成为数据服务商打造差异化竞争的着力点。


此外,数据安全、合规也成为AI公司着重考虑的因素。一些数据标注过程中会涉及到很多敏感数据,比如人脸、语音等内容,这就要求从数据的采集、数据的标注,再到数据的存储,每一个环节都必须保证数据不被泄露、不被窃取。


 3

  立足东南亚的数据标注专业玩家

尽管市场同质化严重,但一些头部服务商凭借差异化优势已经初步崭露头角。


领创智信(ADVANCE.AI)是一家总部在新加坡的专业数据服务品牌。多年来坚持自建数据标注基地和自建数据采集服务,为AI企业提供全流程一体化的数据服务解决方案。


领创智信的业务范围覆盖图像、语音、视频等全领域的数据标注和采集服务,满足市场上90%的标注需求。目前,领创智信的数据采集和标注业务已经服务超过几十家行业客户,在金融科技、零售、电子商务、医疗、物联网、出行等领域积累了良好的口碑。

通过对领创智信企业优势的分析,我们可以从侧面看出如何靠差异化竞争力在数据标注市场突围:


首先,领创智信的业务覆盖国内和东南亚,可以借助东南亚人力资源成本优势,提供更高性价比的数据标注服务。


过去几年,在全球人力资源市场,中国正在失去低价劳动力的优势。因此带来劳动密集型产业、低端制造业等向东南亚等地区转移,这对国内产业升级和经济转型其实是利好。


领创智信在印度尼西亚、菲律宾和泰国设有数据交付中心和数据采集基地,很好地利用了东南亚人力成本优势,赋能中国AI产业。以印尼为例,其总人口 2.7亿,是仅次于中国、印度和美国的全球人口第四大国家。而且印尼社会总平均年龄只有约 30岁,有超一半以上的人口年龄低于30岁。领创智信正是将印尼的人口红利为己所用。


其次,领创智信采取自建数据标注团队和数据采集基地的模式,具备交付高质量数据服务以及深耕垂直场景的能力。


领创智信拥有数百人的自建数据标注团队,团队稳定,有长期标注采集经验。领创智信在东南亚各地搭建了本地化的执行团队,他们熟悉海外人力环境、宗教文化、政府关系。而且这些团队具备丰富的AI数据项目管理经验,可以协调多个国家的标注资源。专业的团队使得领创智信的服务可以满足90%以上标注需求,数据标注服务合格率达到99%以上。


在垂直场景方面,领创智信在面部识别、文件识别、文件处理、货架物品识别等领域积累了丰富的经验。比如,在人工智能面部识别领域,领创智信可以提供关键点标注、拉框标注、语义分割等全品类标注服务,支持活体检测、人脸图像对比、人脸搜索、人脸反欺诈、多维数据人脸信用评分等丰富的应用场景。



第三,小语种数据标注优势,赋能国内AI企业出海东南亚。在语音标注采集方面,除中文、英文外,领创智信还拥有印尼语、越南语的语音采集、语音转写、语音判断、语音分割能力。近年来,由于区域经济潜力大、消费互联网产业蓬勃发展,东南亚已经成为很多中国企业出海的首站。领创智信独特的小语种优势,将为中国出海的AI应用提供小语种场景数据基础。


此外,在数据安全方面,领创智信的所有产品和服务均内置强大的安全保障技术,这些技术能够协助检测并阻止黑客攻击。其还与合作伙伴白帽子合作,提高金融数据安全标准,为金融企业提供更安全的数据环境。


为了让更多AI初创企业享受更具性价比的数据标注服务,行业头部企业领创智信开展了为期3个月的促销活动。3月31日到6月31日期间,凡数据标注服务每月付费超过或累计超过5万元人民币的企业,即可免费获得领创智信提供的整套采集/标注的方案设计。


在路上的AI创业者们,还在为标注数据太贵发愁吗?点击阅读原文的产品试用链接,赶快申请试用吧!



*中题图来自摄图网,基于VRF协议。

END


 往期精彩回顾 


中国领先创投新媒体
100W创业者及投资人关注
合作交流  微信:cyzqx2013


在看点这里

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接