- 作者:点我
- 发表时间:2019-01-10 11:26
- 来源:点我科技
数据标注是最近两年兴起的一个人工智能行业里的一个不可缺少的工作,在中国的各个城市,县城甚至农村都有着他们的身影!
在河南郑州一家网销公司做业务的小张,从未想过自己有一天也能进入人工智能行业。因公司今年销售业务大幅下降,公司转形做起了数据标注,公司最近安排员工做数据采集,听着一个很高大上的工作,实际上是打开手机APP,对着手机按着屏幕显示的文字和规则用正常的说话方式说出来,文字的内容是小度,连续说三遍,小张就对着手机,小度小度小度的说了起来,一个人要说上百遍,起初小张并不知道这么说着有什么意义,只知道说完就会有钱,就按着要求老才实实的把这两个字从最开始的不太准确到最后说的非常清晰明了。直到最近出现了一种叫智能音箱的电子产品,可谓是抢尽风头,各大公司几乎同一时间都推荐了这款产品,都想在人工智能领域抢占一部分市场,其中一款产品的名字就叫小度小度,就是小张公司当时采集的语音,没想到这么快就变成产品了。
跟小张同乡的小王也是这家公司的员工,21岁刚从老家过来,第一份职业就进去了人工智能这个行业,正对着电脑用鼠标“画个各种形式的标注”:把一张十字路口图片上的小轿车、行人、非机动车,大巴车,一个一个框起来并加上标签,这种用鼠标画的各种形式的标签,是用于人工智能图像识别,严格来说这是应用在无人驾驶汽车领域,这个工作被称为“数据标注员”。
当前,以物联网、大数据、人工智能,为代表的新一代信息技术日新月异。人工智能在去年、今年两度被写入政府工作报告;而大数据中的数据标注已经成为人工智能必不缺少的一部分,没有人工智能背后的这群数据标注员每日每夜的标注这些数据,智能也就更加谈不上了。因此数据标注员成为一个新兴职业。目前国内至少有大小上万家数据标注公司,几十万人的数据标注员。
“让未来机器认识这个世界”
这是一张微笑的普通女性的脸,她的鼻子、嘴巴、眼睛、眉毛和脸部轮廓布满了点,一共有266个点,它们被叫做“人脸标点”。
在这家公司,小张与同事们坐在电脑前,将图片放大,用鼠标移动这些小点,使它们落在合适的位置。小张浏览了成千上万张人脸图片,在他的眼中,这些人脸没有肤色、性别、老少之分,只有清晰与模糊的区别,一张像是从监控摄像里截取的模糊图片会让他多花几倍时间。
人工智能本身不会识别物体,而要依靠海量训练。当人脸关键点被一一标注之后,计算机才能建立起对人脸的认知。而人脸关键点的数目并不固定,不同数目的背后连接的是不同的算法。“吴潘威们”只需按照人工智能工程师们设定的数目规范来标注。换言之,这些数据标注员并不需要了解算法之复杂,他们所做的,更像在工厂流水线重复作业。
百度无人驾驶汽车,是这家公司接手的第一个项目。公司人工智能服务部总监王总说:“刚接到无人车项目时,我们所有人都是蒙的,觉得这个事情不大靠谱,毕竟无人驾驶在我们眼里是高精尖的科技。”
今年5月,百度派技术人员来开讲座,开诚布公——“你们就是在训导机器,教未来机器认识这个世界。”那时,所有人都不知道有“数据标注员”这个职业,小张和一起实习的小伙伴们互相称呼“画框的”。
可不就是“画框的”几十个人坐在电脑前按动鼠标画框,机动车分成大型车、小型车,非机动车分成自行车、摩托车、三轮车,还有行人、交通信号灯,都要一一框起来。
“数据标注员都是‘滚雪球’带教带出来的,那时一个人一天要画上万个框,以至于后来走在路上看什么东西都想画个框把它框住。”小张回忆说。
“后来,看到无人驾驶汽车在美国的硅谷跑,在乌镇的世界互联网大会跑,说实话还是蛮振奋的。”小张腼腆地笑着说,不管科技有多先进,至少无人车里出现的路况扫描图像他是熟悉的,“也许那就是我之前标注过的。”
那种感觉,就像一不小心踩到了时代潮流的浪尖上。
说起无人驾驶,小张后面接触到了很多家公司,都是做无人车研发,也标注过他们不少的图片,每一次的标注他都心里在想,我一定要把这个图标好标准,未来有可能我也要做着无人车出去,安全是第一位。
最早在2014年,王总在一次互联网文章里看到了人工智能的影子,未来怎样怎样的,当时里面提到了数据处理打标签,那时候并没有特别在意,没想到今天竟然形成了一个行业。
国务院发布的《新一代人工智能发展规划》显示,到2020年,我国人工智能核心产业规模超过1500亿元,带动相关产业规模超过1万亿元。王总判断,未来人工智能领域一定会出现巨大缺口——对于由人标注的数据的需求。“因为现在的人工智能还只是两三岁的孩子,需要我们不断地教它认识杯子、水果、玩具和汽车等更多东西”
今天的人工智能已经应用到了各个领域,无人车,无人超市,人脸识别,小区门禁,安检,除了识别人,车东西,连动物植物都在被识别,有一天我们眼睛能看到的东西统统都会被人工智能识别。
作为人工智能产业的下游端,“王总他们公司骨干”谈起这个行业也是信心满满。
“从去年起,一个个项目接踵而至。”王总说,“目前所承接的项目几乎包括所有人工智能领域:图片、文本信息、语音、视频、问答,在线审核等,其中图片和语音是最大的一块。”
小张和他们的同事已经记不清标注过多少项目,“五花八门,难以想象”。无人售货超市里,商品种类数以万计,光背包就有十几种;甚至有美甲店要求训练能识别指甲区域的机器人,那样就不会把指甲油涂到指甲外……
在公司的办公区,我们看到办公室的柜子上摆放着几十种可口可乐饮料。项目组长小李介绍,标注员需要先记住所有产品的类别、口味、容积,同一款产品要仔细看包装颜色和图案细微的不同之处,“否则标注的时候再去看就太慢了”。
“最奇怪的是给猫脸和狗脸打点。”项目主管小林说。两个多月前,他们花了整整两个星期给一万多张猫和狗的图片打点,每张脸上要打34个点,“想来想去也没想明白这到底是用来干啥的”。
“越来越多的人来做这个”
小张和他们的同事都在抱怨这个行业没前途,任务时有时无,忙的时候很忙,闲的时候很闲。不知道为什么还是有很多人要做。
“大学生为什么要来做这个事情?”小王也不止一次问过自己。
小苏正在做的项目是语音识别,每天的基本任务是将约1800秒的语音输出成文字,将重叠在一起的几个音色分开,这会花费他五六个小时;最麻烦的是专业术语,不懂的名词要上网查;做完之后由质检员核对,如果有错误就会被打回来重新修改。
“我完全不知道意义在哪里。”小苏说,“你看我开着音乐,听几百秒就切过来放首歌放松,否则一直听会受不了。”
标注工作单调重复。“再难的项目3天之内就能随便耍了。
数据标注行业有一套明确流程:上游的人工智能公司将项目交给中游的数据标注公司或外包平台,之后再把企业通过众包的形式分包给下游的小公司、小作坊,有的小作坊还会分发给“散兵游勇”,比如学生或二三线城市的兼职人员。或是农村租个大院,找些闲人就可以开工了。
而到了下游,项目经过层层转包,利润已经低得吓人。“这与我们一线标注员的付出是不对等的。
如今,上游的人工智能公司仍保留少量数据标注员。“我们的全职标注团队主要是处理隐私性高和有特殊要求的数据,比如处理医疗领域的数据就需要有一定专业背景。”科技研究院副院长周教授介绍,“其余的数据处理便交给下游几十家数据标注团队。”在被称作“国内首档人工智能挑战类节目”的央视热门节目《机智过人》中,曾与模拟画像专家林宇辉在同一舞台竞技的,就是我们所打造的人工智能“御眼重明”。
对一般的数据标注员而言,职业生涯是一眼望得见头的:从一线标注员做起,然后是质培专员(相当于质检)、项目组长、项目主管、项目经理,最后是部门总监。
“简而言之,就像上世纪80年代的来料加工,大工厂可以,家庭作坊也可以。小张说,“甚至有人把数据标注员比作流水线上的工人,几个学生、几个零散人员都可以接单。”
小张并不否认目前数据标注确实是一个需要大量劳动力的行业,但他强调,应该看到行业发展的未来,“不能现在看到他们在画框,就判断未来十年他们还在画框。”
今年7月,小张终于作为正式员工与公司签约,成为一名商务助理。实际上,他从未想过自己能留下来。当初一起实习的有近百人,和他一样最终成为正式职工的仅有11人。他们不再做标注员,而是走上项目组长等管理岗位。
“也许这是我们接触最前沿科技唯一的机会。”小张说,他的大多数同学毕业后都去从事销售、中介等工作,而在这里,他能与最先进的科技公司对接,感受信息技术带来的震撼。
“不如我们发明标注机器人来解放自己”
每天早上9点,小张准时到公司。一旦进入工作角色,每个人都是紧张而严肃的,相互之间很少交流,若遇到紧急项目,他们还需要加班加点完成。
短短几个月的时间,从小小的鼠标一端,小张便感受到了另一端世界前沿科技进步的速度,“以前无人驾驶汽车框出基本轮廓就可以了,现在不只是从2D平面进化到3D立体,还要标注车头的方向。”
在这里,“大数据,让一切变得更智慧”等标语随处可见。医疗、金融等人工智能近年来踏进的领域,都在日新月异地改变,而起点就在这群年轻人的手指尖。在河南分布着各种各样大小的数据标注公司,和数据标注团队,他们每天都是为人工智能这个行业标注着最准确的标签。希望未来的人工智能其中有一部分也是他们自己创造 。这也许让他们很骄傲。
实际上,数据标注本身也是一个要用人工智能来改造的行业,标注工具也正在迭代升级。比如,人脸识别最早均由人工标注关键点,但眼下吴潘威接到的项目里,机器已经打好点,标注员要做的只是最后的校正。
在王总看来,其实不必把数据标注看得过于神秘,“说到底人工智能数据标注只是商业外包行业一个非常细的分类,几十年前这种数据外包业务就已存在,比如替银行处理电子表格的公司,但因为人工智能,数据标注才变成了一个独立的行业”。
在数据标注领域,更大的潜在威胁可能并非同行竞争,而是来自机器——当算法足够先进时,少量的数据就能达到效果,到那时,还需要这么多的数据标注员吗?
“也许有一天人工智能会全面取代人类,但数据标注员一定是最后被取代的那批人。”王总对此保持乐观态度,“最高明的算法也需要基础的数据学习,而数据标注员,一定是坚持到最后一班岗才把数据交付给机器模型的。”
王总说:“想象把人工智能当作婴儿,而我们可以把他训练成天才。”
人们似乎乐意见到“机器天才”与人类的竞争。根据百度搜索指数,公众对人工智能的关注从2016年起呈显著上升趋势,当年3月的围棋人机大战——AlphaGo击败围棋世界冠军李世石,第一次将人工智能带入大众视野。
人工智能是否会替代人类?
对公司负责人来说,这是一个值得考虑的话题,如果有天人工智能真正实现了智能,不在需要人的时候我们将何去何从,负责人告诉我们,人工智能的机器人未来是不会代替人类,中国是一个很有特色的国家,古代一样,到现在也是一样,未来还是一样,我们只会让机器更懂人类,让机器为人们工作,让我们的活更加方便快捷,让我们有更多的时间享受人生,这才人类发明人工智能的根本。即使有一天人工智能代替了人类,也只是部分代替,并不能完全代替。