RELATEED CONSULTING
相关咨询
选择下列产品马上在线沟通
服务时间:9:30-18:00
你可能遇到了下面的问题
关闭右侧工具栏
人工智能:让您的用户为您标记所需要的数据
  • 作者:dianwo
  • 发表时间:2019-09-19 12:04
  • 来源:未知

      原本想把这篇文章称为“人工智能训练数据的寄生标记”,但显然这太复杂了。 在这里想告诉大家的是机器学习经常被忽视的方面:数据标注的标签。

      使用深度神经网络监督机器学习是最常见的AI类型。 监督学习意味着从标注数据中学习。 但通常你没有标注数据,您有未标记的数据 。 更常见的是,您没有GROWING整组的数据信。 标记与否,如果您的训练数据输入AI是固定大小的数据集,那么您的AI将不会随着时间的推移变得更聪明。 你真正想要的是一个系统,人工智能从野外标记的数据中学习。 你睡觉时会变得更聪明,而你却不付一分钱。

      不幸的是,最近引导人工智能的最常见机制是基于人的数据标注标签与机械式的标注员,甚至是全职数据标注公司。 有时,作业是注释文本语料库,而在其他情况下,它们注释图像。
      当您考虑我们为客户部署机器学习的原因时,它通常会使人类直觉自动化。 我们正在用软件替换以前由人类执行的功能。

      机器学习是关于找到将输入数据X映射到输出数据Y的函数f 。 或者,正如我们在高中学到的那样:Y = F(X)
      因为我们试图近似( f )的东西是人类,我们需要收集关于人类做出的决定( Y )的训练数据,以及决定基于( X )的原始数据。

      现在我们谈到了人工智能正在做什么,以及是否需要标记数据( XY ),让我们看看我们如何免费获取数据标签。 我们讨论过为了避免支付数据标注的费用,这就需要一些神奇的数据注释解决方案。 尽可能让AI的用户进行标记。 如果你做得对,他们甚至都不会注意到。
      将一项功能隐藏到您的设计中以增加您的训练数据就显得非常重要。 例如,想象一下,在Google地图中,您会对着智能手机说话,并要求提供地址“46 delaCôte-des-Neiges Rd。”这会导致应用程序返回错误的法语口音地址,如下图所示。
 

      这里的神奇之处在于:当我立即按下后退按钮时,谷歌知道我按了后退按钮。 这是一个暗示,我的声音中的地址转换是不正确的。 按后退按钮意味着地址转换中的错误可用于提高应用程序的准确性。 同样,当我按照地址指示时,这是一个好的迹象,表明模型正确猜到我说的地址是我想要的地址。
      在一个类似的示例中,我在Google收件箱中固定到收件箱的邮件向Google显示了我可能希望将来作为重要项目添加的未标记邮件。 瞧,几天前,Inbox开始了一个“亮点”部分,向我展示了哪些消息看起来最紧急。
      当你收集这些数据时,有一种错误的方法和正确的方法。 如果用户感觉他们的时间被浪费(例如,在您结账之前,标记此图像),那么您将获得的结果是低质量的垃圾。 当YouTube要求您填写调查时,结果将是AWFUL。
 
      来自用户的高质量数据收集可用于改善机器学习,但为了相信数据质量很高,它必须毫不费力。 另一个技巧是使用户的激励与数据标记任务保持一致。 例如,当AI出错时,用户很有动力按下用户流程中的后退按钮,但这样做的动机很小。 有时这种数据收集方法是不可能的,但值得尽最大努力使其正常工作。
     最后,让您的UX团队参与机器学习对话。 找到一种方法将数据收集功能捕捉到您的AI解决方案中,这样您就可以获得用户生成的高质量数据的诸多好处。