2021年1月29日

理解婴儿感知语言的计算方法

语言在他们使用的声音中有所不同。例如，日语不会区分“r”和'l'声音，就像“摇滚”与“锁”一样。值得注意的是，在学会发言之前，婴儿在他们母语的声音中逐渐变得。例如，一岁的婴儿，在生活在日本而不是英语的环境中，在日本而不是英语的环境中，较少地辨别“摇滚”和“锁定”。

这种早期语音学习现象的有影响力的科学陈述最初提出，通过称为分布学习的统计聚类机制，婴儿组声用统计聚类机制发出原生元音和辅音语音类别。

然而，婴儿学会辅音和元音语音类别的想法已经受到挑战，这是本周发表的一项新研究国家科学院的诉讼程序。

在该研究中，一个多机构的认知科学家和计算语言学家团队介绍了一种定量建模框架，其基于大规模模拟语婴儿学习过程。使用计算上有效的机器学习技术，这种方法允许系统地将学习机制与对其母语的婴儿对婴儿的可测试预测系统方式相关联。

“假设什么正在被婴儿的学习传统上推动了研究人员试图了解这种令人惊讶的现象，“马里兰州高级计算机研究所（Umiacs）马里兰州大学博士助理的博马斯·施塔茨（Umiacs）是该研究的主要作者。”我们建议从假设开始如何婴儿可能会学到。“

除了Schatz之外，该研究的作者还包括马里兰大学语言学副教授的Naomi Feldman，在Umiacs预约;爱丁堡大学信息学院语言，认知与计算研究所教授Sharon Goldwater;Xuân-nga cao是一位康斯·正常的研究工程师（恩诺）在巴黎和兰宁诺夫和Gazouyi初创公司的联合创始人;和Emmanuel Dupoux是指导认知机器学习团队的教授。

对于他们的研究，研究人员通过在现实语音输入上培训计算有效的聚类算法来模拟婴儿的学习过程。该算法是以常规时间间隔采样的谱图状听觉特征，其从目标语言中的自然语音记录获得。在这项研究中，美国英语和日语是两种语言。

研究人员说，这产生了日本婴儿的早期语音知识的候选模型。接下来，他们询问了训练有素的模型的两个问题。他们可以解释日本和英语学习婴儿如何鉴别语音声音的观察到的差异吗？而且，模型是否学习元音和辅音语音类别？

早期语音学习的主导科学账户预计这些问题的答案会匹配（两者都应该是“是”或两者都应该是'否'）。研究人员发现，第一个问题的答案是积极的：他们的模特确实占婴儿的观察行为，特别是对于日本婴儿的难以区分“摇滚”和“锁”。然而，第二个问题的答案是否定的：发现模型已经学习了语音单元过于简短和声学的变量，以对应于元音和辅音语音类别。

这些结果表明对早期语音学习的现有文献的重新诠释。在缩放分配语音类别的分配学习到现实学习条件的困难可能会被更好地解释为质疑这个想法什么婴儿学习是语音类别，而不是这个想法如何婴儿学习是通过纯粹的分布学习（传统口译）。

Schatz说，认知科学并未使用这种大规模建模，但近期计算能力，大型数据集和机器学习算法的进步使得这种方法比以往任何时候都更加可行。

Schatz和Feldman是umiacs的计算语言学和信息游行（Clip）实验室的一部分，费尔德曼是目前的主任。费尔德曼说，剪辑实验室和巴黎的认知机器学习实验室的强大计算资源和巴黎的认知机器学习实验室有助于研究项目。

总之，研究人员认为，基于计算上的建模方法 - 以及该领域的持续努力，以大规模收集实证数据，例如婴幼儿学习环境的大规模记录和大规模评估婴儿“学习成果 - 打开对早期语言习得更深入了解的道路。