科学家们确定特征以更好地定义长冠状病毒
由美国国立卫生研究院支持的一个研究小组已经确定了长冠病毒感染者和可能患有长冠病毒的人的特征。科学家们利用机器学习技术,分析了前所未有的可用于COVID-19研究的电子健康记录(EHRs),以更好地确定谁感染了COVID-19。研究小组探索了国家COVID队列协作(N3C)中未识别的EHR数据,N3C是由美国国立卫生研究院国家先进转化科学中心(NCATS)领导的国家集中式公共数据库,利用这些数据发现了截至2021年10月的10万多例可能的长COVID病例(截至2022年5月,数量超过20万例)。这一研究结果发表在5月16日的《纽约时报》上《柳叶刀》数字健康.
长冠肺炎的特征是广泛的症状,包括呼吸短促、疲劳、发烧、头痛、“脑雾”和其他神经系统问题。在最初的COVID-19诊断后,这些症状可能持续数月或更长时间。长冠病毒难以识别的一个原因是,它的许多症状与其他疾病和病症相似。更好地描述长冠病毒可能会改善诊断和新的治疗方法。
北卡罗来纳大学教堂山分校的临床信息学家、合著者艾米丽·普法夫博士说:“利用现代数据分析工具和像N3C这样独特的大数据资源是有意义的,长冠状病毒的许多特征都可以在N3C上得到体现。”
N3C数据飞地目前包括代表全国1300多万人的信息,其中包括近500万例covid -19阳性病例。该资源有助于对COVID-19疫苗、疗法、风险因素和健康结果等新出现的问题进行快速研究。
这项新研究是一项相关的、更大的跨nih计划的一部分,该计划名为“研究COVID以增强恢复”(RECOVER),旨在提高对COVID-19长期影响的了解,称为SARS-CoV-2感染的急性后遗症(PASC)。RECOVER将准确识别PASC患者,并开发预防和治疗方法。该计划还将通过临床试验、纵向观察研究等,回答有关COVID长期影响的关键研究问题。
在《柳叶刀》在这项研究中,科罗拉多大学安舒茨医学院的Pfaff博士和Melissa Haendel博士及其同事研究了N3C中97995名成年COVID-19患者的健康记录中的患者人口统计数据、医疗保健使用、诊断和药物。他们利用这些信息,以及来自三个长COVID诊所的近600名长COVID患者的数据,创建了三个机器学习模型来识别长冠患者。
在机器学习中,科学家“训练”计算方法,快速筛选大量数据,以揭示新的见解——在这种情况下,关于长冠病毒。这些模型在数据中寻找模式,可以帮助研究人员了解患者的特征,并更好地识别患有这种疾病的个体。
这些模型的重点是在N3C数据库中的三组人群中识别潜在的长COVID患者:所有COVID-19患者、因COVID-19住院的患者和患有COVID-19但未住院的患者。这些模型被证明是准确的,因为被确定为有长冠风险的人与在长冠诊所看到的患者相似。机器学习系统在N3C数据库中对大约10万名患者进行了分类,这些患者的资料与长冠患者非常匹配。
NCATS的高级临床顾问、RECOVER的科学项目负责人乔什·费塞尔(Josh Fessel)说:“一旦你能够在一个庞大的人群数据库中确定谁患有长冠状病毒,你就可以开始询问这些人的问题。”“这些人在患上长冠病毒之前有什么不同吗?他们有什么危险因素吗?他们在急性COVID期间的治疗方式是否有可能增加或降低他们患长COVID的风险?”
这些模型搜索了COVID诊断呈阳性、距离急性感染至少90天的患者的共同特征,包括新药、看医生和新症状。如果患者去了长COVID诊所或表现出长COVID,这些模型就会识别出长COVID患者症状很可能患有这种疾病,但没有被诊断出来。
“我们想要融入新元素模式我们正在研究COVID的诊断代码,并将其纳入我们的模型,以试图提高它们的性能,”科罗拉多大学的汉德尔说。“这些模型可以从更多种类的患者身上学习,变得更加准确。我们希望能够使用我们的长COVID患者分类器进行临床试验招募。”
更多信息:Emily R Pfaff等人,在美国识别谁长时间感染了COVID:使用N3C数据的机器学习方法,《柳叶刀》数字健康(2022)。DOI: 10.1016 / s2589 - 7500 (22) 00048 - 6