- 作者:dianwo
- 发表时间:2019-08-20 09:41
- 来源:未知
首先给大家介绍AI产品经理需要了解的知识面:概率论通识、线性代数通识、微积分通识,本篇文章中主要为你介绍AI产品经理需要了解的数据标注,供大家一参考学习。
前几天参加京东的AI技术沙龙,在提问环节,有个小伙说:
“我是做销售的,刚才您讲的我都没听懂,我就知道,现在AI是风口,只要做AI相关的就能挣钱,您能说几个现在我们这类人能做到吗?能挣钱就行!”
台上技术出身的老师自然一时语塞。小伙说的没错,百团大战的时候确实一批刷单公司赚得盆满钵满。但是这些投机取巧注定不能长远。
让更多人卷进这次AI浪潮的可能就是数据标注了,All in AI的百度拥有大量的标注业务,大部分河南标注工厂用的是百度的标注工具,干的是百度的活。开始的时候标注的利润空间可以达到60%—70%。有些企业盲目扩张,一下子招了几百人;但是陆奇离开后,百度需求减少。准确率又普遍提高至95%-96%,活难干了。这些工厂只会百度的标注工具,很难接别家的业务,因此死了一批。
不断地用标注后的数据去训练模型,不断调整模型参数,得到指标数值更高的模型。
数据的质量直接会影响到模型的质量,因此数据标注流程设计和监督纠错就显得异常重要。
一般来说,数据标注部分可以有三个角色:
- 数据标注员:标注员负责标记数据。(文本、图像、视频)
- 数据审核员:审核员负责审核被标记数据的质量。(抽检)
- 标注管理员:管理人员、发放任务、跟进流程。
只有在数据被审核员审核通过后,这批数据才能入库使用。
一般众包数据标记流程
- 任务分配:一般数据分配由后台自动分发,根据用户选择标注类型每次分发几条内容,标注完成后再次分发。
- 复核入库:一般一条任务会分配给大于三个人的基数人员完成,根据少数服从多数原则确定该条数据的最终标签。
- 质量验收:一般会根据用户标注总数量和入库数量计算该用户的标注质量,和计算有效标注数量,质量高的和质量低的薪酬计算方法会有差别,以此来淘汰不能完成高质量标注的人员。
数据标注类型
图像标注-线标注
根据需求标注检测对象相对应的线型位置,例如:车道线。
图像标注-边框标注
标注检测对象相对应的区域,例如:汽车/行人等各种物体。
图像标注-3D边框标注
将图像中待检测物体以立体形式标注,例如汽车检测。
图像标注-语义分隔
根据检测区域不同,将图像标注为不同的像素,例如来自汽车拍摄的图像。
图像标注-多边形标注
根据需求标注检测对象的形状,例如:标注图像中的汽车轮廓(示例图)或标记污损边界。
图像标注-点标注
根据需求标注检测对象参考点的像素坐标,或者图像中的关键点标记,如人脸。
图像标注-3D点云标注
在3D空间中,标注点云数据中指定的检测对象,如汽车、行车道等。
视频标注-跟踪标注
在视频或者连续的图像中跟踪标注检测对象,形成有ID关联的运动轨迹。
文本标注-中英文语音转写与校对
英文语音转中文文本,或中文文本转英文语音。
文本标注
实体命名,标注文本中的实体。
语音标注-客服语音标注
外呼机器人进行外呼记录语音标注呼叫成功或者失败,从而训练话术。
标注流程
- 需求确认:对标注任务需求确认,标注数据集准备完成,规范标注需求,指定标注模型。
- 人员筛选:确定标注人员及人员角色
- 人员培训:针对不同角色培训标注规范和标注标准
- 开始试标:先标注少量数据,试用标注数据,调整标注流程,使得效率最优。
- 正式标注:完成整体标注任务。导出数据。
总结
快速、高效的进行数据标注,是机器学习和深度学习的基础,现在一些标注工具通过深度学习模型和主动学习技术,通过NLP模型来提高标注效率,集数据标注、数据管理、模型训练和模型服务于一体,使数据标注更加轻松、更高效。离AI最近的重复复杂的工作,是首先会被机器取代的。