科学家利用人工智能和社交媒体创建了预测抑郁和焦虑的模型

巴西São保罗大学(USP)的研究人员正在使用人工智能(AI)和世界上最大的社交媒体平台之一Twitter,试图创建焦虑和抑郁预测模型,未来可以在临床诊断之前提供这些疾病的迹象。
该研究发表在该杂志上的一篇文章中语言资源与评价。
这项研究的第一步是建立一个名为“九月brobr”的数据库。这个名字是指黄色九月,一个年度自杀意识和预防运动,也有一个事实数据收集这项研究始于9月的某一天。
第二步仍在进行中,但已经提供了一些初步发现,比如仅根据一个人在社交媒体上的朋友和粉丝,而不考虑他们自己的帖子,就可以检测出他是否有可能患上抑郁症。
该组织编制的数据库包含与文本语库(葡萄牙语)有关的信息,以及涉及3900名推特用户的联系网络,这些用户报告在调查前被诊断患有精神健康问题或接受过精神健康问题治疗。该语料库包括这些用户单独发布的所有公开推文(不包括转发),共计约4700万条此类短文本。
“首先,我们手动收集时间轴,分析了大约19,000个用户的推文,相当于一个村庄或小镇的人口。然后,我们使用了两个数据集,一个用于报告被诊断患有糖尿病的用户心理健康问题另一组随机抽取用于对照。我们想要区分抑郁症患者和普通人群,”这篇文章的最后一位作者、USP艺术、科学和人文学院(EACH)的教授Ivandre Paraboni说。
根据观察,有心理健康问题的人倾向于关注某些账户,比如论坛、有影响力的人和公开承认自己患有抑郁症的名人,这项研究还收集了朋友和粉丝的推文。“这些人相互吸引。他们有共同的利益,”人工智能中心(C4AI)的研究员帕拉波尼说。
包括抑郁和焦虑在内的心理健康障碍日益成为全球关注的问题。世界卫生组织(世卫组织)根据2021年的数据估计,世界人口的3.8%(约2.8亿人)受抑郁症影响。
世卫组织还估计,这些心理健康问题的全球患病率增加了25%在COVID-19大流行期间。在此期间,研究人员收集了这些推文。
在巴西卫生部最近一项涉及78.4万名参与者的调查中,11.3%的人表示他们被诊断患有抑郁症。其中大多数是女性。
根据先前的研究,心理健康问题通常反映在患者使用的语言上。这一发现导致了大量涉及自然语言处理(NLP)的研究,重点是抑郁症、焦虑和双相情感障碍等。然而,这些研究大多是分析英语文本,并不总是符合大多数巴西人的特征。
模型
研究人员对语料库进行了预处理,删除了标签、url、表情符号和非标准字符,同时保留了原始文本。然后他们展开深度学习这是一种人工智能技术,它教计算机以受人脑启发的方式处理数据,创建四个文本分类器和字嵌入(单词之间关系的上下文依赖数学表示)使用基于变压器双向编码器表示的模型(BERT),这是一种用于NLP的机器学习算法。这些模型对应于一个神经网络,它通过监测序列数据关系来学习上下文和含义,比如句子中的单词。
训练输入包括从每个用户随机选择的200条推文样本。通过对训练数据进行5次交叉验证并计算平均结果来定义参数。
结论是BERT在预测抑郁和焦虑方面表现最好,与其次的最佳选择LogReg之间有统计学上的显著差异。由于模型分析了单词和完整句子的序列,因此可以观察到,例如,抑郁症患者倾向于写与自己有关的主题,使用第一人称的动词和短语,以及死亡、危机和心理学等主题。
帕拉波尼说:“看医生时能检测到的抑郁症症状不一定与社交媒体上出现的症状相同。”“例如,使用第一人称单数代词我和我是非常明显的,在心理学上,这被认为是抑郁症的典型迹象。我们还观察到抑郁的用户经常使用心形表情。人们普遍认为这是情感和爱的象征,但也许心理学家还没有把它定性为情感和爱。”
所有收集到的文本都是匿名的。“我们既没有公布实际的推文,也没有公布用户的姓名。我们小心翼翼地确保参与该项目的学生无法访问用户数据,以保护人们的身份。”
研究人员现在正在扩展数据库,改进他们的计算技术和升级模型,以看看他们是否能产生一种工具,将来用于筛查潜在的癌症患者心理健康问题帮助那些有风险的年轻人的家人和朋友抑郁症和焦虑。
巴西在消费最多的国家中排名第三社交媒体根据Comscore 3月初发布的一项调查,中国在全球的发展速度落后于印度和印度尼西亚,但领先于美国、墨西哥和阿根廷。其1.315亿用户平均每月在线46小时。最广泛使用的平台是YouTube、Facebook、Instagram、TikTok、Kwai和Twitter,后者最近改变了规则,开始对某些服务收费。
更多信息:Wesley Ramos dos Santos等人,september brobr:抑郁症和焦虑症预测的社交媒体语料库,语言资源与评价(2023)。DOI: 10.1007 / s10579 - 022 - 09633 - 0