机器学习表现出与传统风险预测模型相似的性能
一些人声称机器学习技术有潜力改变医疗系统,但一项发表于英国医学杂志发现机器学习模型与传统统计模型具有相似的性能,在对个体患者进行风险预测时具有相似的不确定性。
NHS已经投入了2.5亿英镑(3.23亿美元;但研究人员表示,在用于为个别患者做出治疗决定之前,应该评估模型内部和模型之间的一致性(稳定性)水平。
风险预测模型广泛应用于临床实践。他们使用统计技术除了有关人们的信息,如他们的年龄和种族,以确定哪些人有罹患疾病的高风险,并对他们的护理作出决定。
以往的研究发现,传统的风险预测模型如QRISK3在总体水平上具有很好的模型性能,但在个体风险预测方面具有相当大的不确定性。
一些研究声称,机器学习模型的性能可以超过传统模型,而另一些研究则认为,机器学习模型无法在其预测背后提供可解释的原因,这可能会导致不恰当的行为。
更重要的是,机器学习模型经常忽略检查——当患者在研究过程中迷路(无论是错误还是无法联系到),而模型假设他们迷路了疾病免费,导致有偏见的预测。
为了进一步探索这些问题,英国、中国和荷兰的研究人员开始评估机器学习和统计技术在预测个体水平和人口水平心血管疾病风险方面的一致性,以及审查对风险预测的影响。
他们评估了19种不同的预测技术(12种机器学习模型和7种统计模型),使用的数据来自1998年至2018年期间在英国391家全科诊所注册的360万名患者。
来自一般实践、住院和死亡记录的数据被用来测试每个模型与实际事件的性能。
所有19个模型都得出了类似的结果人口水平的性能。然而,相同患者的心血管疾病风险预测在不同的模型之间有很大的差异,特别是在高风险患者中。
例如,传统QRISK3模型预测的心血管疾病风险为9.5-10.5%的患者,其他模型预测的心血管疾病风险为2.9-9.2%和2.4-7.2%。
忽略了审查的模型(包括常用的机器学习模型)大大低估了心血管疾病的风险。
研究人员解释说,在使用QRISK3(一个确实考虑了审查的模型)的223,815名心血管疾病风险高于7.5%的患者中,有57.8%在使用其他类型的模型时将被重新分类到7.5%以下。
研究人员承认,在比较不同的模型时存在一些局限性,比如可以考虑更多的预测因素。然而,他们指出,经过更详细的分析后,他们的结果仍然相似,这表明他们经得起仔细审查。
他们写道:“尽管模型的表现相似,但各种模型对同一患者的风险预测非常不同。”“因此,可以通过任意选择另一种建模技术来做出不同的治疗决定。”
因此,他们建议这些模型“不应该在不考虑审查的情况下直接应用于长期风险的预测”,并且模型内部和模型之间的一致性水平“应该在用于临床决策之前进行常规评估”。
进一步探索
用户评论