2025年9月7日上午,浙江大学外国语学院“子衿讲座”系列第101期顺利举行。本期讲座主题为“变速条件下的音乐与言语加工:模型—大脑机制对照”,主讲人为香港城市大学语言学系李吉星助理教授。讲座聚焦大语言模型与人脑在音乐与言语加工方面的对比研究,吸引了线上线下师生的积极参与。
讲座伊始,李吉星博士回顾了模型与大脑机制对照研究的发展脉络。她指出,此类研究最早开展于视觉领域,随着大语言模型的出现,研究逐渐拓展至语言加工。通过让模型与人类同时处理文本或语音材料,研究者可以比较其内部表征与神经信号的匹配程度。近年来,这一趋势进一步延伸到多模态模型,尤其是能同时处理语音和音乐等复杂听觉输入的模型。
在介绍语言与音乐的差异时,李吉星博士指出,传统语言加工遵循“双通路模型”,腹侧通路负责从声音到语义的理解,背侧通路涉及语音到发音的映射,主要由左脑主导。而音乐加工则更多激活右脑,尤其涉及运动区和情绪相关区域,反映出节奏感知与身体响应的紧密联系。为了探究多模态模型与人类大脑在复杂条件下的相似性,李吉星博士选择“变速”作为实验条件,通过比较不同倍速下人类与模型的表现,揭示听觉加工规律。
在讲座的后半部分,李吉星博士详细介绍了研究中的行为测试与脑电(EEG)分析。行为测试中,研究使用一首AI演唱的中文歌曲作为刺激材料,以一倍速至四倍速不同条件播放,收集34名被试的听写结果,并与大语言音频模型的歌词转录输出进行对比。结果显示,随着播放速度加快,人类和模型的识别准确率均明显下降,且错误类型呈现相似性。但两者的表现也存在差别,模型在高倍速下仍倾向于生成完整句子,而人类则趋向于只写出部分关键词,反映出模型具有“过度联想”倾向。
脑电实验中,研究提取了模型的音频特征与文本特征,并分别与被试的EEG信号进行回归分析。结果显示,在高倍速条件下,模型音频特征与人脑EEG信号的相关性反而增强。对此,李吉星博士解释说,这可能源于高速条件下人和模型都“听不清”,因而错误模式更加一致,从而提升了表征层面的对齐程度。
在答疑环节,听众围绕“实验材料为何选择AI歌曲”“脑电时间精度的影响”等问题展开探讨。整场讲座中,李吉星博士通过生动的实验案例与可视化数据,为听众展示了多模态模型与大脑机制对照研究的前沿进展。最终,讲座在热烈的讨论中圆满结束。
图/文:王振飞
主办单位:子衿学社