为什么人工智能标注数据采集成本越来越高?
- 作者:dianwo02
- 发表时间:2019-09-10 03:18
- 来源:未知
目前人工智能技术的飞速发展,产业政策的不断加力,在这些有利因素的带动下人工智能相关的产业也迎来了爆发性的成长,这其中与人工智能密切相关数据采集、数据清洗、
数据标注方面的需求量是非常的庞大。
那么人工智能数据方面强大需求的同时,越来越多的人工智能项目研发团队与专业的数据外包服务公司他们发现目前国内标注数据采集的成本是越来越高。按行业普遍的预测
在人工智能应用开发领域我国有着巨强大的人口数量优势,数据样本量巨大的优势。
那目前到底是什么原因导致标注数据采集成本越来越高了呢?通过对行业发展趋势的调查分析我们发现出现这种问题的原因有着多方面复杂的因素,下面我们就大致分析下目前
标注数据采集成本逐渐上升的若干原因:
一、人工智能行业经过最近几年的快速发展,多数项目研发团队已经积累了相当多的开发经验。人工智能项目已经逐渐摆脱行业发展最初计算机深度学习技术的低识别率、识别
精度低,准确率低等指标。各个项目研发团队逐渐找到了低识别率、准确率低等技术指标偏低的原因,这种问题最主要的原因就是原始标注数据采集的素材质量要求低,这里面就
包括 标注数据的清楚度低,数据的完整性不高,采集数据样本覆盖的场景少,采集数据的环境过与简单等等。
二、数据研发需求项目方对数据需求程现多样化,多环境,多场景,多维度,复杂场景的需求也同样导致成本的上升
三、之前数据采集项目很多都是通过公共场所拍摄,固定摄像头视频捕捉,商家或者公共摄像头监控录像截取,行业录音截取,网络爬虫采集等简单粗暴的方式一次性获取数据
就达到数据需求量,这种成本本来就很低。
四、数据研发需求项目方对数据需求极为细化,最常见的不同人群,不同年龄段,不同地方区域,不同性别数据量比例,不同表情,不同眼神,不同姿势,不同肢体动作,视频
语音的多场景等等需求需求的细化,这种细化的需求有的成本甚至是成倍的增加。
五、虽着我们国家在法律法规方面的的宣传力度不断增加以及抖音,今日头条这种信息媒传播平台的用户量覆盖范围的极大增加,全民信息传播量传播速度都 极大的提高,人们
对各种利用个人身份信息进行违法犯罪活动或者是未经授权的使用个人信息的行为是极大的愤怒和忌讳。人们对个人信息不法利用危害认识的提高增加了人们对个人信息保护意识的
提高,这样也自然的提高了数据信息采集难度。
六、很多早先做标注数据采集公司团队对采集到的个人信息未经授权随意用途其它途径,随意出售获利,还有的标注数据采集公司团队在人不知情的情况下随意 采集个人信息并
多渠道的的出售获利,这些行为也极大增加人们的采集个人信息的厌恶与痛恨,无法进行后续的合作。