日本玉川大学脑科学研究所的木村实名誉教授、酒井裕教授等人,在与东京医科大学、福岛县立医科大学以及京都大学的联合研究中,运用基因重组动物、光遗传学、神经科学和计算模型,发现大脑基底核主要回路之一的间接通路承担着不同于既往已知学习功能的新功能。木村名誉教授表示,“人类和动物在获得良好结果时会重复同样行为。不过,也会遇到状态不佳、与伙伴关系变得紧张的情况,此时大脑会积极从失败中学习。大脑的这一工作机制此前一直未被阐明,而我们此次明确了其中的一部分”。相关成果已发表在《Science Advances》上。
图1 木村实名誉教授(左)和酒井裕教授(右)(供图:科学新闻社)
图2 间接通路细胞在尝试低价值行为且没有获得预期结果时,会持续活动(供图:玉川大学)
已知大脑基底核的直接通路有助于强化期望行为,间接通路有助于避免非期望行为。根据行为与结果的经验,直接通路与间接通路会协同作用,以便获得结果(奖励)最大化的行为。在稳定环境下,最优化的行为会带来期望的结果,但在环境发生变化时,习惯化的行为可能会妨碍新的试错探索,这是一个难点。
本次研究发现,间接通路不仅避免了非期待行为,还在期待行为未取得预期结果时,发挥继续探索替代方案的作用。
本次研究,在大鼠身上实施了在不确定的状况下通过试错来学习获得期望结果的行为试验。大鼠在头部固定的状态下,用前肢推动或拉动把手,可以得到水(推或拉得到水的概率为8比2)。得水高概率的方向会在数十次尝试后被切换。大鼠必须通过试错改变推或拉的选择。经过训练,大鼠从切换开始经过20~30次尝试后,能以8成以上的概率选择奖励高的推拉动作。
研究团队在调查这一行为课题中的间接通路神经活动时发现,在行为结果无奖励的提示信号出现后,间接通路的神经活动立即在200~500毫秒内升高。此外,当大鼠选择奖励概率较低的一侧时,神经活动会在之后约2秒内持续升高。如果无奖励信号后的短暂神经活动幅度较大,大鼠往往会切换下一行为。这与既往研究所知的间接通路活动特性一致。另一方面,而当在稍作间隔后出现的持续性神经活动较强时,重复无奖励行为的情况会增多。后者的神经活动与行为之间的关系,与既往研究形成了相反的调控机制。
采用光遗传学的方法,在出现持续性神经活动的时间段刺激间接通路时,与未刺激相比,持续探索低价值行为的程度增加,而抑制该通路时则减少。此外,神经活动的操控会影响随后2~3次试行后的选择。
研究证实,在期望行为未取得预期结果时尝试代替行为,即使替代行为没有结果,仍会持续探索的功能,与大脑基底核的间接通路有关。
酒井教授表示,“这或许是一种并非仅反映即时结果,而是反映长期视角下的评估,来加速那个反映即时结果的奖励最大化系统的功能。”
原文:《科学新闻》
翻译:JST客观日本编辑部
【论文信息】
期刊:Science Advances
论文:Dorsomedial striatum monitors unreliability of current action policy and probes alternative one via the indirect pathway
URL:https://www.science.org/doi/10.1126/sciadv.adt4652

