人工智能在分析多个卫生系统的数据时可能会出现不足
芒特市伊坎医学院(Icahn School of Medicine)进行的一项研究显示,在接受来自外部卫生系统的数据测试时,训练用于胸部x光检查肺炎的人工智能(AI)工具的性能显著下降《公共科学图书馆·医学》杂志上机器学习和医疗保健这些发现表明,医疗领域的人工智能必须在广泛的人群中进行仔细的性能测试;否则,深度学习模型可能不会像预期的那样准确。
比如对使用电脑的兴趣系统一种叫做卷积神经网络(CNN)的框架来分析医学成像并提供计算机辅助诊断随着时间的推移,最近的研究表明,人工智能图像分类可能不会像通常描述的那样适用于新数据。
西奈山伊坎医学院(Icahn School of Medicine at Mount Sinai)的研究人员评估了人工智能模型如何在三个医疗机构的15.8万张胸片中识别肺炎:美国国立卫生研究院(National Institutes of Health);西奈山医院;还有印第安纳大学医院研究人员选择研究胸部x线诊断肺炎的常见病、临床意义和在研究社区的患病率。
在五分之三的比较中,cnn在使用其网络以外医院的x射线诊断疾病方面的表现明显低于使用原始卫生系统的x射线。然而,cnn却能够检测到医院在这个系统中,x射线的获取具有很高的准确性,并且在他们基于肺炎流行率的预测任务中作弊。研究人员发现,使用深度学习模型的困难在于医学他们使用了大量的参数,这使得识别驱动预测的特定变量具有挑战性,比如医院使用的CT扫描仪的类型和成像的分辨率质量。
“我们的发现应该让那些考虑快速部署人工智能西奈山伊坎医学院(Icahn School of Medicine at Mount Sinai)神经外科讲师、资深作者埃里克·厄曼(Eric Oermann)医学博士说:“这些平台没有严格评估它们在真实临床环境中的表现,这反映了它们被部署在何处。”“训练用于医疗诊断的深度学习模型可以很好地泛化,但这不能被视为理所当然,因为不同机构的患者群体和成像技术存在显著差异。”
“如果CNN系统用于医学诊断,他们必须根据仔细考虑临床问题,测试各种真实场景,仔细的评估,以确定它们如何影响准确诊断,”第一作者约翰·泽赫说,伊坎的医科学生在西奈山医学院。
这项研究基于今年早些时候发表在《放射学》(Radiology)和《自然医学》(Nature Medicine)杂志上的论文,这些论文为计算机视觉和深度学习技术(包括自然语言处理算法)的应用奠定了框架,用于识别CT扫描放射学报告中的临床概念。
进一步探索
用户评论