2024年6月17日下午,美国伊利诺伊香槟分校(University of Illinois at Urbana-Champaign,UIUC)副教授闫逊应邀在东五201为外国语学院师生们带来了一场题为“What makes listening comprehension difficult?:A feature-based machine learning approach to understanding item difficulty”的精彩讲座。此次讲座由外国语学院闵尚超教授主持。
闫逊副教授在学术界享有盛誉,不仅是UIUC语言学、第二语言习得与教师教育以及教育心理学专业的副教授,同时也是贝克曼高级科学技术研究所(Beckman Institute for Advanced Science and Technology)的教职成员。他的研究成果发表在多家顶尖期刊上,包括Language Testing、TESOL Quarterly、Assessing Writing、System和Journal of Second Language Writing。此外,他还担任国际权威期刊Language Testing联合主编及TESOL Quarterly研究报告专栏的共同主编。
本次讲座中,闫老师重点分享了其团队通过机器学习方法预测听力题目难度的研究。讲座伊始,闫老师首先强调了听力理解研究的复杂性和挑战性,并指出由于语言科学研究方法及技术的进步,借助更复杂的测试数据的获取,可以对影响听力理解难易度特征有新的理解;但随着听力构念的不断变化,以及听力理解过程的复杂性,需要对这些特征进行重新审视。
随后,闫老师指出选择题可能在未来依然会保持其主流测试题目类型的地位,但其题目语言特征对题目难度的影响,相对还未得到广泛的研究。而这些特征对于项目难度的预测,可以通过构建统计模型来完成。但传统统计模型存在项目难度预测力表现不佳的问题,那么针对听力选择题目这种多层结构的数据类型,是否可以探索一些机器学习方法,比如比较常见的套索回归(LASSO)、决策树(decision tree)、支持项量机(support vector machine)、 随机森林(random forest)等基于特征的模型,以明确地对这种多层次结构进行建模,是其团队在本研究中关注的重点问题。
在具体研究方法及内容部分,闫老师分享了以225个单项选择听力项目数据为基础,925个结构和声学特征,采用四种不同的方法进行模型选择和特征选择的分析过程。通过特征工程(feature engineering)以及特征选取(feature selection),消除对于项目并不是很重要的特征,并通过删除概念上重复的项目,以及主成分分析(Principal Component Analysis)等技术对特征进行进一步处理,采用多级机器学习方法,最终成功提高了听力题目的难度预测的准确性,并发现了一些重要的特征和趋势,如是/否问题(yes/no questions)最为容易,而最困难的实际上是语境特征(contextual features)等。在讲座的最后,闫老师展望了未来的研究方向,他强调了机器学习方法在语言测试和评估中的潜力,并提出了一些可能的改进和扩展方案。
讲座期间,与会师生们积极参与讨论,提出了许多有价值的问题,现场气氛热烈。闫逊副教授针对每一个问题进行了详细解答,并分享了自己在研究过程中的经验和心得。他的精彩讲解和丰富的研究成果赢得了师生们的热烈掌声和高度评价。此次讲座不仅拓宽了师生们在听力理解研究方面的视野,也为今后相关研究提供了新的思路和启发。
文/图 侯卓含/王燕心
浙江大学外国语言学及应用语言学研究所
浙江大学语言能力发展与评估研究中心