智能的数据标注工具与智能注释技术的发展
- 作者:dianwo
- 发表时间:2019-09-20 20:12
- 来源:未知
智能的数据标注工具与智能注释技术的发展
我们都理解数据的不合理有效性,而且数据通常被认为是新的石油。 然而对于ML模型而言,数据标注的标签数据是最珍贵的商品。 现代ML模型需要大量特定于任务的训练数据,并且手动创建这些标签通常太慢且昂贵。 在The Hive产品组合中构建许多AI初创公司所获得的最大教训是,构建AI产品最难的部分不是AI或算法,而是数据准备和标签。 这个由三部分组成的系列将解释我们对该领域的研究,标记数据的技术以及Hive如何解决这个问题。
智能企业是企业自动化的标志; 其中,操作和战略决策都可以通过基于人工智能(AI)的实时原始数据流的高级推断来自动化。 智能计算的最大推动力来自数据的可用性。 特定域中的重要历史信息库将使AI应用程序能够通过将领域知识与本体合并来提取关键概念,识别实体,关联和层次结构并生成我们称之为智能数据的内容。
“如果智能是一块蛋糕,无监督的学习将是蛋糕,监督学习将是锦上添花,强化学习将成为蛋糕。 我们知道如何制作糖衣和樱桃,但我们不知道如何制作蛋糕。 我们缺少的一个关键因素是预测(或无监督)学习:机器对环境进行建模,预测可能的未来以及通过观察并在其中行动来了解世界如何运作的能力。“
无监督学习是人类创造能力的唯一可持续发展人工智能建筑算法的可靠方式。 然而,这是非常困难的,我们没有办法接近那个目标。 纯粹的无监督学习很困难,因为很难知道提前训练什么。 要训练模型,需要提取不同的功能。这些功能取决于应用程序或任务,需要进行监督才能有效学习。 因此,理解数据,它的变化和行为是非常重要的。
在监督学习中,输入数据或训练样本带有标签,学习的目标是能够为新的,无法预料的例子预测标签。 标记数据非常昂贵且容易出错。 数据质量问题可能导致机器学习中的“垃圾进入,垃圾进出”。
例如,视网膜图像用于开发用于病症的自动诊断系统,例如糖尿病性视网膜病,年龄相关性黄斑变性和早产儿视网膜病。 为了做到这一点,我们需要结构上由各种条件标记的注释图像。 与CT图像相同。 这是一项相当耗时的任务,其中需要识别非常小的结构,并且专家通常需要花费数小时来仔细地注释它们,使得标注图像的体积大小非常昂贵。 我们需要几位专家来标记相同的图像以确保诊断的正确性,因此获取给定医疗任务的数据集将是注释单个图像所需数量的数倍。 由于数据稀疏性,数据质量和缺乏领域专家,传统企业设置中的问题更加困难。
为了解决成本和可扩展性问题,有许多技术,在本系列中我们将讨论:
1.预训练模型/转学习
2.监督不力
3.主动学习。
预培训/转学习:
预训练背后的想法是在相关域中的廉价和大型数据集上训练神经网络,或者在同一域中使用噪声数据。 这将通过粗略地了解数据来引导网络来解决冷启动问题,并且通常在该第一遍中结果的准确性可能不高。 神经网络的参数在与域问题相关的更小且更昂贵的数据集上进一步优化。 如果任务或数据集具有共同点,则使用预先训练的网络通常是有意义的。
CNN用作特征提取器,并且最后一个完全连接的层从CNN的其余部分移除,作为新数据集的固定特征提取器。 在新数据集上重新训练网络,并通过继续反向传播来微调权重。
这种转移学习方法非常有效,并且在计算机视觉方面产生了很好的记录结果。 它还可以使用不同类型的数据(如传感器数据,业务流程数据,语言数据等)适应其他领域。我们目前正致力于通用语言建模任务与领域驱动的噪声标记数据相结合,用于数据支持工程师的Q&A中心域名。
在后面的文章中,我们将介绍一种在数据相似但标签集不同时利用现有注释的方法。 该方法基于标签嵌入,其将设置减少到标准域适应问题。
弱监督:
弱监督是使用启发式,经验法则,现有数据库,本体等以编程方式生成训练数据。它通常被称为远程监督或自我监督。
对信息提取进行弱监督的想法并不新鲜。 Craven和Kumlien(1999)通过将酵母蛋白质数据库(YPD)与PubMed中的论文摘要相匹配并培养幼稚贝叶斯提取器来介绍该想法。描述了一个动态生成词典以处理稀疏数据的系统,学习超过5000个信息框关系,平均F1得分为61%。 姚等人。 (2010)执行弱监督,同时使用选择偏好约束来共同推理实体类型。 另一个值得一提的是NELL System (Never-Ending Language Learner)。 NELL系统不是学习概率模型,而是使用半监督方法引导一组提取模式进行多任务学习。
浮潜系统在这里值得注意,并且已经获得了很大的吸引力。 作为DAWN项目的一部分,Snorkel使用户无需手动标记任何训练数据即可训练模型。用户使用任意启发式定义标签功能。 Snorkel通过结合他们最近提出的机器学习范例(数据编程)的第一个端到端实现来对其输出进行去噪,而无需访问实际情况。
在Snorkel系统中
1. 主题专家编写标签功能(LF),表达弱监督来源,如远程监督,模式和启发式。
2. Snorkel将LF应用于未标记的数据,并学习生成模型以将LF的输出结合到概率标签中。
3. Snorkel使用这些标签来训练判别分类模型,例如深度神经网络。
主动学习
主动学习是半监督学习的一种特殊情况,是一种通过让模型选择应标记哪些数据点来减少执行任务所需的监督量的方法。 它通过建模获取未标记数据标签的过程来解决数据标签挑战。 系统需要在过程中仅请求一些精心选择的点的标签,以便生成准确的预测器。 强化学习自然适合主动学习,并且通常使用深度递归神经网络函数近似来表示动作 - 值函数。
在这篇文章中,我们研究了各种数据标注的标记方法。