RELATEED CONSULTING
相关咨询
选择下列产品马上在线沟通
服务时间:9:30-18:00
你可能遇到了下面的问题
关闭右侧工具栏
提高AI数据标注质量的基本要素
  • 作者:dianwo
  • 发表时间:2019-09-21 13:53
  • 来源:未知

        在每个行业中,工程师和科学家都在竞相整理和构建大量的AI数据。 计算机视觉工程师团队使用标注数据来设计和训练自驾车用于识别行人,树木,路牌和其他车辆的深度学习算法。 数据科学家正在使用标注数据和自然语言处理( NLP )来自动化法律合同审查,并预测患有慢性疾病风险较高的患者。
这些系统的成功取决于循环中熟练的人,他们为机器学习(ML)标注和构建数据。高质量的数据可以提高模型性能。 当数据标注质量低时,ML模型将难以学习。
根据分析公司Cognilytica的报告,大约80%的AI项目时间用于聚合,清理,标注和增加ML模型中使用的数据。 AI项目时间的20%用于算法开发,模型训练和调优以及ML操作。 这些任务是人工智能开发的核心,需要战略思考,以及更先进的工程或计算机科学技能。 最好将更昂贵的人力资源 - 例如数据科学家和ML工程师 - 部署到需要专业知识,协作和分析技能的任务上。

比较数据标注员的机器学习

        越来越多的数据标注团队正在使用下面一个或多个方式为为AI项目寻找数据标注服务。 每种选择都会带来好处和挑战,具体取决于项目需求。
        1.全职和兼职员工可以管理高质量的数据标注,这种方法可以正常运营项目,但当项目规模扩大后。 必将会有一些工人流失,现有团队必须加快每个新员工的工作速度,这样也必然会增加成本和管理负担。
        2.外包工作室和自由职业者是一种选择。 采购和管理自己的合同团队需要大量时间。 如果人力资源不涉及雇用承包商,工人可能不会受到与全职雇员相同的文化和技能评估。 在标注质量方面,这可能是一个大问题,因此需要额外的时间进行培训和管理。
        3. 标注项目众包 使用云将数据任务一次性发送给大量人员。 质量是通过共识标注规则确定的:几个人完成相同的任务,大多数工人提供的答案被选为正确的。 我们过去曾使用此模型进行CloudFactory的数据工作,我们的客户成功团队发现,每个任务的共识模型成本比首次通过时可以满足质量标准的流程高出约200%。 人工智能团队负担大规模管理工人数据输出的负担。 标注项目众包是短期项目的理想选择。
        在过去十年中, 托管云工作者已成为一种选择。 这种方法将训练有素的内部团队的质量与人群的可扩展性相结合。 它是高质量数据标注的理想选择,这项任务通常要求工人了解上下文 。 管理团队中的贴标人随着时间的推移增加了对业务规则,边缘情况和上下文的理解,因此他们可以做出更准确的主观决策,从而获得更高质量的数据。
 
        经过十年的全球组织数据标注,转录和注释,我们了解到在AI项目团队和数据贴标人之间建立一个封闭的反馈循环至关重要。 随着开发团队对模型进行培训和调整,任务可能会发生变化,因此标签团队必须能够快速适应并更改工作流程。
        按小时而非按任务收费的劳动力解决方案旨在支持这些迭代。 2019年的Hivemind研究表明,按任务支付可以激励工人以牺牲质量为代价快速完成任务。

在寻找数据标注团队时要问的关键问题

        我们鼓励组织在比较选择数据标注人员团队选项时向员工供应商询问以下这些问题:
        ·  规模:标注团队能否根据需求增加或减少他们为我们完成的任务数量?
        ·  质量:能否让我们了解工作质量和员工生产力?
        ·  速度:您按时交付数据标注工作的记录是什么?
        ·  工具:我们必须使用您的工具还是我们可以自己构建?
        ·  敏捷:如果我们的工具或流程发生变化,会发生什么?
        ·  合同条款:如果我们需要取消与您的标签团队合作,会发生什么?
        要进一步了解研究如何提高AI项目数据标注质量,速度和规模的数据标注工作人员,请下去了解: 优化数据标注质量培训要点内容提高员工标注素养并避免费人力成本 。