2026年6月10日下午,北京师范大学胡韧奋副教授应邀在浙江大学紫金港校区东五青荷吧作题为“数据驱动的词义共时比较和历时演变研究”的学术讲座。讲座由浙江大学外国语学院邵斌教授主持,校内外四十余位师生参加了本次讲座。
讲座伊始,胡老师从“计算机如何表征词义”这一问题切入,系统梳理了计算语义研究的主要发展路径。即1960年代以来的基于词典和知识库的词义表征,到2000年以来的词向量研究,再到2018年以来的语境化的义项向量以及2022年以来的大语言模型的随文释义。

在词义的共时比较部分,胡老师首先提出问题:不同语言所反映的概念结构在多大程度上具有普遍性? 围绕这一问题,胡老师先介绍了诸多前人研究:Youn等学者关于人类词汇语义普遍结构的“共词化”研究。Jackson等关于情感语义的跨语言研究。毕彦超团队最新的关于自然环境与跨语言语义差异的研究等。
之后,胡老师介绍了她和合作者的词向量研究。该研究以3380组汉语和日语同形词为例,考察这些词在两种语言中的语义范围、典型搭配和联想关系发生的分化。借助跨语言对齐词向量,研究者可以在较大规模上量化同形词的语义相似程度,从而为跨语言词汇比较提供数据支持。

在历时词义演变部分,胡老师介绍了她以及合作者如何将深度语境的义项向量应用于历时义项建模,根据词语在具体句子中的语境表征识别和追踪不同义项,从而将语义演变研究的分析颗粒度由词语整体推进至具体义项。
报告还讨论了义项层面的词汇复杂度研究。通过识别词语在具体句子中使用的是哪一个义项,并结合义项对应的频率和语言等级信息,研究者可以构建更加细粒度的词汇复杂度指标。这种方法能够更准确地分析文本难度、学习者词汇使用和语言能力发展,有助于改进阅读材料分级和词汇教学。
胡老师进一步展示了词义演变在语言教学、词典编纂和古汉语研究中的应用价值。她指出,借助大规模历时语料、语境化词向量和大语言模型,研究者可以系统考察词语在不同时期和不同语域中的真实用法,发现既有词典释义与实际语言使用之间的差异,从而为词典义项的增补、删减、拆分、合并和释义修订提供数据依据。
在古汉语研究方面,胡老师以团队建设的 “AI太炎” 古汉语大语言模型为例,介绍了人工智能辅助古籍整理和文言文教学的具体路径。“AI太炎”针对古汉语低资源、知识密集和时代跨度较大的特点进行专门训练,可以结合词语所处的上下文,对文言文中的多义词进行随文辨析和解释。系统不仅能够给出字词在具体语境中的释义,还可以辅助完成文白翻译、句读标点和用典分析等任务。通过将模型生成的随文释义与古汉语词典中的既有义项进行匹配和对齐,研究者还可以在大规模历史语料中追踪不同义项的分布和变化,为古汉语历时词义语料库建设、古籍整理和辞书修订提供支持。这一应用表明,词义演变研究并不仅限于描述语言在历史上的变化,还可以转化为服务语言学习和文化传承的实际工具。对于文言文学习者而言,语境化的义项辨析能够帮助理解“同词异义”的现象;对于古籍整理和数字人文研究而言,相关技术则有望降低大规模语料标注与释读的人工成本,使数量庞大的古代文献能够得到更加系统的整理和利用。
在提问交流环节,与会老师和同学围绕多义词的义项识别、模糊用例的处理以及社会文化因素与语义变化之间的因果关系等问题,与胡老师进行了深入讨论。

本次讲座从计算机如何表征词义出发,贯通了跨语言词义共时比较、历时语义演变、义项层面的词汇复杂度分析,以及词典更新、语言教学和古汉语智能处理等多个研究方向。讲座既展示了数据驱动方法在揭示语言规律方面的广阔潜力,也说明词义研究可以进一步服务于辞书编纂、文言文教学、古籍整理和传统文化资源的智能化利用,为传统语言学问题与人工智能技术的深度融合提供了丰富启示。讲座在热烈的交流与讨论中圆满结束。
图/文:吴欣莹/王贵
审核:邵斌
浙江大学外国语言学及应用语言学研究所
浙江大学文学风格计算创新团队
子衿学社



