2021年4月2日功能
研究人员发现罕见的奖励在学习期间扩增多巴胺反应
过去的研究一直突出了多巴胺神经元在奖励学习中的关键作用。奖励学习是一种过程,人类和其他动物通过在执行特定行动后接收奖励或向一个问题提供“正确”/期望的响应后,人类和其他动物通过接收奖励来获取不同的信息,技能或行为。
当个人接受比他们期望接收的更好的奖励时,多巴胺神经元被激活。相反,当他们收到的奖励比他们预测的奖励时,多巴胺神经元被抑制。这种特定的活动模式类似于所谓的“奖励预测误差,“所接收的奖励与预测的基本上存在差异。
匹兹堡大学的研究人员最近进行了一项研究调查奖励和奖励预测误差的频率可能会影响多巴胺信号。他们的论文,发表在自然神经科学,为奖赏学习的多巴胺相关神经基础提供了新的有价值的见解。
“奖励预测错误对动物和动物至关重要机器学习,“William R. Stauffer,Ph.D.是一项研究的研究人员,告诉Medical Xpress。然而,在古典动物和机器学习理论中,”预测奖励“部分的等式简单地bob游戏是平均值过去结果的价值。虽然这些预测是有用的,但预测平均值是更有用的,以及反映不确定性的更复杂的统计数据。
研究人员通过Wolfram Schultz,Wellcome Principal研究员(剑桥大学)和Stauffer的后医生导师的神经科学教授Wellcome Chinalipal研究员Welfram Schultz,从2005年发表的一项研究中吸引了灵感。今年2005年的研究表明,多巴胺奖励预测误差响应根据标准偏差,舒尔茨及其同事作为最大和最小的结果之间的范围。
“这项研究是开创性的,因为它表明,神经元的预测实际上反映了不确定性,”Stauffer说,“然而,调节不确定性有几种不同的方式,我怀疑它们在心理上并不等同。”
舒尔茨及其研究中使用的范围调制(改变标准偏差)留下了相同的预测概率的每一个潜在奖励。
“如果范围是恒定的,我们很想知道多巴胺神经元会如何应对多巴胺神经元,但在该范围内的奖励的相对概率发生变化,”Stauffer说。“因此,我们研究的主要目的是了解多巴胺神经元是否对概率分布的形状敏感。”
在他们的实验中,Stauffer和他的同事使用了两种不同的视觉提示来预测从两个不同的“奖励概率分布”中汲取的奖励。这两种虚拟分布都包含三种类型的奖励,即小,中,大汁液。
然而,其中一种奖励概率分布与正态分布相似,在大多数试验中,中心值(即中等大小的果汁滴)被传递,而大小果汁滴却很少被传递。另一方面,第二个奖励概率分布遵循所谓的“均匀分布”,即小型、中型和大型奖励以相同的概率提供(即相同的次数)。
Stauffer和他的同事使用电极记录了当猴子从两个不同的奖励概率分布中观察与奖励相关的视觉线索时多巴胺的反应。他们还记录了当猴子从虚拟奖励概率分布中“抽取”奖励时多巴胺的反应。
值得注意的是,研究人员观察到,用较低的频率(即罕见奖励)施用的奖励扩增了猴子的大脑中的多巴胺反应。相比之下,完全相同的卷曲,但随着更大的频率诱发多巴胺反应。
斯托弗说:“我们的观察表明,预测性神经元信号反映了围绕预测的不确定性水平,而不仅仅是预测值。”这也意味着大脑中一个主要的奖励学习系统可以估计不确定性,并有可能向下游大脑结构传授这种不确定性。在其他神经系统中,我们很少有这样直接的证据来证明神经元反应的算法本质,而这些令人着迷的结果表明了神经算法的一个新方面。”
该研究人员执行的研究突出了奖励频率的影响多巴胺奖励学习期间引起的答复。这些调查结果将通知进一步的研究,这可以大大提升目前对奖励学习中所涉及的神经机制的理解。
最终,研究人员想要探索关于概率的信念如何应用于在模糊情况下(即当结果概率未知时)所做的选择。在这些特定的决策场景中,人们通常被迫基于他们对奖励概率分布的信念做出决策。
斯托弗说:“这项研究是了解大脑中主观奖励概率分布是如何编码的第一步,以及这些信念会以何种形式出现。”有了这些结果,我们现在将回到研究选择的话题。然而,我怀疑这些结果将有更广泛的含义,对生物和基于人工智能的学习系统也很重要。”
进一步探索
©2021科学BOB体育赌博X网络
用户评论