- 作者:点我
- 发表时间:2018-12-18 05:56
- 来源:点我科技
在深度学习的时代,数据成为构建强大智能系统的重要资源。在几个领域,我们已经看到构建竞争系统所需的数据量如此之大,以至于新玩家几乎不可能进入市场。例如,可以从诸如Google或Nuance等主要参与者获得的最先进的大词汇量语音识别系统被训练多达100万小时的语音。凭借如此大量的数据,我们现在能够训练语音到文本系统,准确率高达99.7%。考虑到系统不需要休息,睡眠或者经常尝试,这接近甚至超过了人类的表现。
除了集合之外,还需要对数据进行注释。对于语音示例,一小时的语音数据需要大约10个小时的手工劳动来记下每个单词和非语言事件,如咳嗽或笑声。因此,即使我们可以获得100万小时的语音,仅仅转录忽略了实际的软件开发成本 - 给出5美元的小时费率 - 将相当于5000万美元的投资。因此,大多数公司更愿意从当前的软件供应商之一获得最先进的语音识别系统。
对于医疗数据,情况甚至更复杂。患者健康数据 - 出于好的理由 - 受到患者数据法的良好保护。不幸的是,这些标准因国家而异,使问题更加复杂。最近,几家大医院,公司和卫生部门以匿名的方式公开数据,以推动深度学习研究。这些数据集仍然只能达到从几十到几个的计数,并且相关的注释通常显示出显着的变化,因为注释通常仅针对每个数据集进行一次。
特别是在医学图像分析中,这些公共数据集对于推动当前的研究非常有用。正如我们在语音处理中看到的那样,这种较小的数据集(用于语音约600小时)适合于开发良好的软件来完成任务。在演讲中,这些系统能够识别90-95%的口语。然而,改变了99.7%的游戏规则是100万小时的语音数据。
这种观察导致要求我们在某些时候需要数百万个注释良好的训练图像来构建最先进的医学分析系统。实现这一目标的方法很少:大型行业参与者,政府机构组织或非政府组织的大量投资。
虽然语音和其他机器学习培训数据已经主要由行业控制,但人们可能会问我们是否希望我们的医疗记录发生相同的情况。这些数据得到很好的保护是有充分理由的,例如,在我们不知情的情况下不会出售给保险公司。因此,我们每个人都应该问她或她自己这是否是一个合理的解决方案。
一些国家已经开始在政府控制的数据库中处理医疗数据,以便获得研究人员和工业发展。丹麦就是一个已经走过这条道路的例子。看到丹麦和其他国家的未来发展将会很有趣。
仅在今年,在德国成立了一个名为“ 医疗数据捐赠者eV”的小型非营利组织。他们遵循第三条道路,要求患者捐赠图像数据用于研究和开发。遵循新的欧洲数据保护准则,它们强加了高道德标准。即使在这个强大的监管框架内,他们也可以在全球范围内收集和共享数据 虽然这项工作才刚刚开始,而且组织规模很小,但看看它们能走得多远将会很有趣。这特别有趣,因为他们试图通过游戏化来解决注释问题。该游戏的故事板已经可用。因此,他们不仅会收集数据,还会生成高质量的注释。
总之,我们发现医疗数据问题远未解决。我们确定了三种不同的可行解决方案来解决问题:工业投资,国家控制或非政府组织。虽然所有这些都是可能的,但我们必须问自己哪些是我们喜欢的。无论如何,这个问题迫在眉睫,需要解决,推动医学深度学习研究。