合成x射线能解决医学成像数据的空白吗?
专攻罕见病的医生只有这么多学习的机会。缺乏多样化的医疗保健数据来培训学生是这些领域的一个主要挑战。“当你在一个数据稀缺的环境中工作时,你的表现与经验相关——你看到的图像越多,你就越好,”胸科放射科医生、斯坦福大学医学与成像人工智能中心(AIMI)博士后研究员克里斯蒂安·布鲁根(Christian Bluethgen)说,他在过去七年里研究了罕见的肺部疾病。
今年8月,当Stability AI向公众发布其文本到图像的基础模型“稳定扩散”(Stable Diffusion)时,Bluethgen有了一个想法:如果你能将医学上的真实需求与简单的文本提示创建美丽图像的轻松结合起来,会怎么样?如果稳定扩散可以创造医学图像能够准确地描述临床背景,可以缩小训练数据的差距。
Bluethgen与斯坦福大学计算与数学工程研究所的研究生、AIMI的机器学习研究员Pierre Chambon合作,设计了一项研究,旨在扩大稳定扩散的能力,以生成最常见的医学图像类型——胸部x光片。
他们一起发现,通过一些额外的训练,通用潜伏扩散模型在创建具有可识别异常的人类肺部图像的任务中表现得惊人地好。这是一个很有希望的突破,可能会导致更广泛的研究,更好地了解罕见疾病,甚至可能开发出新的治疗方案。
从通用到特定领域
直到现在,基础模型训练自然图像语言在特定领域的任务中表现不佳。医学和金融等专业领域有自己的行话、术语和规则,一般训练数据集中不包括这些。但该团队的研究有一个优势:放射科医生总是准备一份详细的文本报告,描述他们分析的每张图像中的发现。通过将这些训练数据添加到他们的稳定扩散模型中,该团队希望该模型能够在提示相关医学关键词时学会创建合成医学成像数据。
Chambon解释说:“我们不是第一个训练胸部x光片模型的公司,但在此之前,你必须使用专用的数据集,并为计算能力付出很高的代价。”“这些障碍阻碍了许多重要的研究。我们想看看你是否可以引导这种方法,并使用现有的开源基金会模型,只做一些小的调整。”
三步过程
为了测试稳定扩散的能力,Bluethgen和Chambon检查了模型架构的三个子组件:
- 变分自编码器(VAE),它压缩源图像和解压缩生成的图像;
- 文本编码器,它将自然语言提示转换为自动编码器可以理解的向量;
- U-Net,在潜在空间中作为图像生成过程(称为扩散)的大脑。
研究人员创建了一个数据集来研究图像自动编码器和文本编码器组件。他们从两个大型公共数据集CheXpert和MIMIC-CXR中随机选择了1000张正面x光片。然后,他们添加了5张手工选择的正常胸部x光片图像和5张明显可见的异常图像(在这种情况下,组织之间的液体积聚,称为胸腔积液)。这些图像与一组简单的文本提示符配对,用于测试各种微调组件的方法。最后,他们从LAION-400M开放数据集中提取了100万个一般文本提示的样本(这是一个大规模的、非策划的图像-文本对集合,用于模型训练和广泛的研究目的)。
以下是他们在高水平上提出的问题和发现:
文本编码器:使用来自Open AI的连接文本和图像的通用域神经网络CLIP,当给出像“胸腔积液”这样特定于放射学领域的文本提示时,模型能否生成有意义的结果?答案是肯定的——文本编码器本身为U-Net创建医学上准确的图像提供了足够的上下文。
在自然图像上训练的稳定扩散自编码器能否在解压缩后成功地呈现医学图像?结果还是肯定的。“原始图像中的一些注释被打乱了,”Bluethgen说,“所以它并不完美,但采用第一流的方法,我们决定将其标记为未来探索的机会。”
U-Net:考虑到其他两个组件的开箱即用能力,U-Net能否根据提示创建符合解剖结构的图像并表示正确的异常集合?在这种情况下,Bluethgen和Chambon得出结论,需要进行一些额外的微调。“在第一次尝试时,最初的U-Net不知道如何生成医学图像,”Chambon报告说。“但通过一些额外的训练,我们能够得到一些有用的东西。”
对未来的一瞥
在使用定量质量指标和定性放射科医生驱动的评估进行了提示实验和基准测试后,学者们发现,他们表现最好的模型可以在合成放射图像上插入看起来逼真的异常,同时在深度学习模型上保持95%的准确性,该模型经过训练,可以根据异常对图像进行分类。
在后续工作中,Chambon和Bluethgen加大了培训力度,使用了数万张胸部x光片和相应的报告。最终的模型(称为伦琴,是伦琴和Generator的组合)于11月23日宣布,可以创建具有更高保真度和增加多样性的CXR图像,并通过自然语言文本提示对图像特征(如大小和发现的横向性)进行更细粒度的控制。(预印本在这里。)
虽然这项工作建立在以前的研究基础上,但它是第一个研究胸部成像的潜在扩散模型的同类工作,也是第一个探索用于生成医学图像的新的稳定扩散模型的工作。不可否认,在团队反思该方法时,出现了一些局限性:
- 测量生成图像的临床准确性是困难的,因为标准指标没有捕捉到图像的有用性,所以研究人员增加了一个训练有素的放射科医生进行定性评估。
- 他们发现,经过微调的模型生成的图像缺乏多样性。这是由于用于调节和训练U-Net域的样本数量相对较少。
- 最后,用于进一步训练U-Net的放射学用例的文本提示是为研究创建的简化单词,而不是从实际的放射学家报告中逐字逐句地引用。Bluethgen和Chambon已经注意到需要根据全部或部分放射学报告来调整未来的模型。
此外,即使这个模型有一天能完美运行,也不清楚医学研究人员是否可以合法使用它。bob88体育平台登录Stable Diffusion的开源许可协议目前禁止用户生成用于医疗建议或医疗结果解释的图像。
艺术还是注释x射线?
尽管目前的限制,Bluethgen和Chambon说,他们对他们能够从第一阶段的研究中生成的图像感到惊讶。Bluethgen说:“输入一个文本提示,然后以高质量图像的形式返回你写下的任何内容,这是一项不可思议的发明,适用于任何环境。”“看到肺部x光图像重建得如此之好,真是令人兴奋。它们是真实的,而不是卡通的。”
接下来,该团队计划探索强大的潜在扩散模型如何能够学习更大范围的异常,开始在一张图像中结合多个异常,并最终将研究扩展到x射线和不同身体部位之外的其他类型的成像。
Chambon总结道:“这一行的工作潜力很大。“有了更好的医疗数据集,我们或许能够了解现代疾病,并以最佳方式治疗患者。”
“将预训练的视觉语言基础模型适应医学成像领域背景”发表在预印本服务器上arXiv10月。