- 作者:点我
- 发表时间:2019-01-06 13:01
- 来源:点我科技
AI永远不会忘记我的“数据标注”时刻。我在IBM工作,是Watson Visual Recognition的产品所有者。我们知道API在返回图像的“准确”标签时并不是最好的,我们需要改进它。
我对我们的模型中存在偏差的可能性感到紧张。机器学习(ML)模型中的偏见是ML社区一次又一次看到的确切问题,从对不同个体的不良面部识别到人工智能选美出错和无数其他情况。我们对我们用于项目的数据标签看起来很长很难,乍一看,一切都很好。
就在发布之前,我们团队的一位研究人员引起了我的注意。其中一个训练我们模型的图像分类被称为“失败者”。其中很多图像都描绘了残疾人。
我吓坏了。我们开始疑惑,“我们还忽略了什么?”谁知道看似无害的标签可能会训练我们的模型表现出内在或潜在的偏见?我们聚集了所有人 - 从工程师到数据科学家到营销人员 - 来梳理成千上万的标签和数百万相关图像,并根据IBM的行为准则提取我们认为令人反感的所有内容。我们掏出了一些不能反映我们价值观的其他课程。
我的“啊哈”时刻帮助避免了危机。但我也意识到我们在这方面有一些优势。我们有一个多元化的团队(不同的年龄,种族,民族,地理位置,经验等),以及对什么是和不反对的共同理解。我们还有时间,支持和资源来寻找令人反感的标签并修复它们。
并非所有构建支持ML的产品的人都拥有IBM团队的资源。对于没有我们所拥有的优势的团队,甚至对于那些没有优势的组织来说,不受欢 以下是各种规模的团队在开始他们的ML之旅时的一些最佳实践。
- 定义并缩小您正在解决的业务问题
尝试解决太多场景通常意味着您需要在无法管理的课程数量上使用大量标签。缩小定义问题,首先,将帮助您确保您的模型表现良好,原因在于您构建它的确切原因。
例如,如果你正在创建一个计算机视觉模型,它正在回答一个相当直截了当的问题,比如“这是一个人吗?”,你需要定义“人类”的意思。漫画是否算数?如果该人被部分闭塞怎么办?躯干是否应该算作模特的“人”?这一切都很重要。您需要明确“人类”对此模型的意义。如果您不确定,请向人们询问有关您数据的相同问题。您可能会对存在的模糊性和您所做的假设感到惊讶。
帮助定义范围的一种方法是考虑用于模型的信息。即使像ImageNet这样的学术数据集也可能有类和标签,会在算法中引入意想不到的偏差。您理解和拥有的数据越多,并且可以映射回您正在解决的业务问题,您就越不可能对令人反感的标签感到惊讶。
2.聚集一支多元化的团队,提出各种问题
我们都为工作场所带来了不同的经验和想法。来自不同背景的人 - 不仅仅是种族和性别,而是年龄,经验等 - 将固有地提出不同的问题,并以不同的方式与您的模型互动。这可以帮助您在模型投入生产之前发现问题。
建立一个多元化的团队还需要以允许不同意见的方式收集数据。单个数据点通常有多个有效的意见或标签。收集这些意见并解决合法的,通常是主观的分歧会使您的模型更加灵活。
3.考虑所有最终用户
同样,要了解您的最终用户不会像您或您的团队一样。要善解人意。预测与您不相似的人将如何与您的技术互动,以及他们这样做可能会出现什么问题。
考虑到这一点,重要的是要记住模型很少保持静态。您可以犯下的最严重错误之一是部署模型,而最终用户无法向您提供有关模型在现实世界中的应用方式的反馈。
你需要让人类成为你的过程的一部分,以应对变化,边缘情况,你可能错过的偏见等等。您希望从模型中获得反馈,并提供自己的反馈,以提高其性能,不断迭代以获得更高的准确性。
4.注释多样性
当您使用人类来注释数据时,最好从多样化的池中进行绘制。不要使用来自一个学院的学生,甚至不要使用来自一个国家的学生。池越大,您的观点就越多样化。这确实有助于减少偏见。
毕竟,这是经常隐藏偏见的地方。几年前,华盛顿大学和马里兰大学的研究人员发现,对某些工作进行图像搜索显示出严重的代表性不足和结果偏差。搜索“护士”,例如,你只会看到女性。搜索“CEO”,这都是男人。
让具有不同背景的人员注释数据将有助于确保您的团队提出不同的问题,考虑不同的最终用户,并且希望创建一种兼顾同理心的技术。
偏见的核算对于良好的人工智能至关重要
知道我现在所知道的,我认为将AI系统投入到生产中既不疏忽又不顾后果,而不考虑这些基本最佳实践的偏见。请记住:减少模型中不需要的偏差并非不可能。当然,这需要一些勇气和努力工作,但它会降低到同情心,在整个模型构建和调整过程中进行迭代,并且非常谨慎地处理您的数据。