AI落地:被忽视的数据标注、最隐秘的数据标注

人类创造了AI,但AI也同时改变了人类。从AlphaGo 初出茅庐大杀四方,到Zero绝迹江湖却搅起围棋行业的腥风血雨开始,人们对于这个聚光灯下的行业所抱有的期望就一直在不断上升。

而将目光转移到聚光灯外,作为AI技术的底层支撑,数据采集与标注相较算法研究、数据挖掘等AI领域的其他工种,似乎一直以来都是被边缘化乃至低视的一个存在。

尽管,在通常情况下,人工投喂数据的质量往往直接影响着智能的精度。

而摘掉廉价劳动力的帽子,我们会发现,在被忽视的角落之中,AI数据服务行业也在进行着日新月异的变化。

小到用数据爬虫抓取互联网现存数据,并进行拉框,大到根据用户定制化的硬件以及场景需求,去完成数据的采集与多维度数据标注。这个行业,如今正朝着专业化、细分化、场景化的方向不断演进。而在这一过程中,一批诸如百度数据众包、云测数据等更加专业、更具备实践经验的团队与企业也正应运而出成为行业中的佼佼者。

他们的诞生一方面是这个行业前行的见证者,同时也是开拓者。

那么他们是如何成长起来的?这个一直被忽略、被边缘化的行业究竟又发展到了哪个阶段?

最后,从他们的角度出发,AI又经历了怎样的发展与变迁?

爆发初始:最基础的 数据服务 ,被忽视的数据服务

作为谷歌首席架构师、谷歌 人工智能 团队谷歌大脑(Google Brain)的负责人,Jeff Dean曾在公开场合这样强调数据对于人工智能算法的重要性:

AI落地:被忽视的数据标注、最隐秘的数据标注

以上横轴为数据量,纵轴为准确率,蓝色以及绿色线条分别代表深度学习以及传统算法。根据Jeff Dean的预判,随着数据规模的不断扩大,未来深度学习算法的精度也将不断提升。

也就是说,处在技术大爆发与数字洪水阶段,谁掌握了更多的数据、更精准的数据,那么谁的算法精度也就会更领先一步。

但一直以来,在AI的发展中,数据的采集与标注却始终在有意或者无意的被忽视着,乃至被边缘化。

但是在云测数据的总经理贾宇航看来,对于算法落地来说,“数据不仅充当饲料,同时也在逐渐充当婴儿的奶粉,运动员的优质蛋白一样,拥有了就可以更好的成长具备竞争力”而想要为算法提供足够优质的婴儿奶粉,并没有那么容易。举个简单的例子,如果只是人脸检测,那么开源数据集或平台众包就可以很快满足需求。

但随着技术要求的提升,AI不仅仅是做人脸检测,而是视线追踪、或是微表情检测。很显然,这类需求很难通过互联网或者众包用户采集完成。

那么如何解决这个问题?或许只有更专业的数据采集与标注团队才能完成这一任务。

从网络爬取到场景化采集,数据服务行业的三场战事

在AI的落地中,数据服务行业也在不断自我演进,同时也见证与反哺着下游AI企业的成长与变化。

如果回顾数据服务行业这二十年来的发展,我们会发现在这个行业一定经历了三大阶段的战事,每一场中都有其代表性的玩家出现,每一阶段,也都印证着AI行业发展的脚步。

第一阶段,可以简单概括为免费阶段。

这一时期,AI也基本还停留在初步的实验室阶段,对于数据本身的精确度要求并不算高。比如有企业需要人脸数据,只要把来自社交网络或者对搜索引擎图片进行简单的爬取就能够满足基本的需求。

进一步演化出,以ImageNet等开源数据集为代表,企业不再需要自己爬取网络数据,而是直接使用网上开源的现成数据,进而可以减少很多时间以及精力成本。但是这种数据偏通用,无法满足定制化需求。AI的发展也在这一时期进入一个小高潮,但是距离产业化应用却还有一定距离。

第二阶段,数据服务行业开始有了初步的商业化,众包成为了这一阶段行业的代表性服务形态。但是相应的,专业性也成为这一时期行业的代表性问题。首先,是众包用户无法满足客户对于诸如疲劳驾驶检测、情绪捕捉等方面的复杂需求;其次,对于客户需求的理解方面,众包用户由于没有经受专业的训练,可能会出现质量参差不齐或者理解不到位的情况。因此整体所能做的事情相对简单,无法满足AI企业往下一个阶段进化时的数据需求。

发展至如今,数据服务已经走入第三阶段。这一时期, AI落地 已经成为行业发展的一大重要阶段,AI+ 5G +IoT催化了数据大爆炸,带来了广阔的行业机遇,相应的数据服务也走入了场景化以及精细化时代。

结语:脱离刀耕火种,数据服务进入精细化运营时代

从贵阳、河南农村走向北京城里,理念更先进、技术更硬核、服务更专业的AI数据服务企业正将数据采集与标注带入精细化运营时代。

一方面,AI落地,让技术脱离实验室刷榜走向实际场景,也让数据服务行业从幕后走到台前,成为这一过程之中最隐秘的见证者。

另一方面,5G+AI+IoT时代来临,为市场带来新的爆发机遇,台前是百花齐放的AI产品,背后则是默默无闻的数据服务产业,正是他们托起了AI发展的基石。

在这片蓝海市场中,未来机遇广阔,但是淘汰也在持续进行,可以肯定的是专业化、场景化、定制化将成为行业趋势。


AI落地:被忽视的数据标注、最隐秘的数据标注

由亿欧公司主办、粤港澳大湾区研究院(广外)联合主办的“2019大湾区国际科创峰会(BATi)”结合湾区科创和青年特色优势,将第二届大湾区国际科创峰会的主题定位于“科技赋能、青年引领”,将围绕5G生态、硬件创新、工业数字化、AI企服、科技出海等热点展开探讨,欢迎科技创新的观察者参与!

报名链接: https://www.iyiou.com/post/ad/id/875


本文已标注来源和出处,版权归原作者所有,如有侵权,请联系我们。