科学研究

科学研究

俄语所成功举办《俄语语料库构建与处理实践》学术讲座

发布者:刘芳   发布时间:2025-11-21

20251120日晚,由浙江大学外国语学院俄语语言文化研究所主办的《俄语语料库构建与处理实践》学术讲座在紫金港校区顺利落幕。国防科技大学外国语学院教授、博士生导师原伟受邀主讲,为现场俄语学习者、俄语语言文学研究者带来了一场兼具理论深度与实战价值的学术分享。本次讲座系浙江大学外国语学院“求是导师学校”系列活动。

本次讲座聚焦俄语语料库构建与处理的核心逻辑,以“从零入门、实战导向”为特色,系统梳理了语料采集、语料处理、语料分析及语料应用的全流程框架。原伟教授结合Python编程技术,深入浅出地讲解了俄语语料库构建的关键方法与实用工具,通过真实案例和现场演示展示了语料库在语言、文学、翻译、文化、国情等研究中的应用价值,为不同研究背景的师生提供了可落地的技术解决方案。

在语料采集模块,原伟教授详细讲解了网络语料的获取方式,包括网页爬虫工具及代码实现,现场演示了如何爬取新闻内容和链接,并分析了txtxlsxmlcsvrdfjson等不同格式的存储方式及其适用场景,指出大规模语料库和知识图谱构建中的格式选择策略。

语料处理与分析环节中,原伟教授针对俄语研究常见的技术痛点展开讲解:从乱码清理到零宽字符、不可见控制字符的移除方法,再到停止词的筛选策略,结合spaCy内置俄语停止词表,分析了不同研究场景下停止词保留与去除的判断标准。此外,他还重点介绍了pymorphy2工具的俄语词形还原功能,以及词法分析、词频统计、命名实体识别、句法分析等核心处理技术,为后续研究筑牢数据基础。

语料应用部分,原伟教授通过具体的案例展开了文体计量分析,包括词特征、句特征、可读性和情感分析,选取了几个具有代表性的句子展示了主题建模实施步骤。他特别阐述了情感分析的基本概念和核心目标,区分了文档级、句子级、方面级三个分析层次,以实例对比了传统情感词典法与深度学习方法的优劣,并分享了零代码与代码实现的双路径方案。

讲座不仅覆盖了语料库构建的核心技能,更拓宽了跨学科研究视野,提出了多个兼具创新性与可行性的研究方向。原伟教授不仅将数字技术与人文研究深度融合,解决了实际研究中的技术问题,还为后续学术探索提供了新思路,引发在场师生广泛共鸣。在座的老师与学生就关注的学术问题与原伟教授展开了热烈且丰富的讨论,大家纷纷表示收获颇丰。

此次讲座的成功举办,搭建了跨校学术交流平台,展现了数字化时代人文研究的创新路径,为拓宽研究领域的边界筑实了根基。


图文/王柳兮

俄语语言文化研究所


联系我们

电话:0571-88206044

邮编:310058

地址:杭州市余杭塘路866

官方微信学生会微信