“基于R的语言研究多变量分析”暑期课程简介 “基于R的语言研究多变量分析”暑期课程简介

data science and L2 studies.

Page content

01 背景介绍

     本课程是基于我们团队正在编写《基于R的语言研究多变量分析》的教材而开设的暑期课程。语言研究中的很多重要问题,尤其是一些突破性的难题都必须通过语言实验才能解决,因此实验研究,尤其是数据的分析和处理至关重要。但是,受专业训练的限制,语言学专业的硕博研究生在数据处理和分析方面存在一些短板,这也限制了他们专业能力的发展。遗憾的是,在当前市场上很难找到一本有关语言数据处理的、适合语言学专业研究生的多变量分析教材。现存的书,要么对前置知识,尤其是数理统计知识要求太高,要么是教材所涉及案例与语言研究无关,导致语言学专业研究生难以阅读。本教材以及以此教材为基础的课程可弥补此类空缺,将助力研究生打下扎实的量化研究基础,让他们插上学术研究的“翅膀”,以在将来飞得更高、更远。编写团队之前在外语教学与研究出版社已经出版了《第二语言加工及R语言应用》、在科学出版社出版了《R在语言科学研究中的应用》两套书。但是仍然缺少一本以多变量统计建模为主题的教材。因此,《基于R的语言研究多变量分析》的出版以及同名课程的开设,将与前两套书组成一个教材和课程体系。

02 课程设置

     本次暑期课程一共开设10讲,围绕主讲者所在研究团队近3年来开展和发表的相关研究而展开,10讲的内容大致安排如下:

      第一讲:多变量分析的概念问题。 这一讲将以语言研究的案例为基础,对多变量分析的内在逻辑和概念层面的问题进行系统介绍,为开展多变量分析奠定扎实基础。

     第二讲:解析二语阅读的多维变量关系。 这一讲将通过真实而又有趣的二语阅读研究案例展示如何对同一组数据既拟合固定模型又拟合混合模型,以帮助读者理解模型拟合的一些关键而又根本的问题。

      第三讲:RfD教学模型对外语词汇学习和长时记忆的影响。 本讲将以我们团队前期开展的一项2 x 2实验设计的教学研究案例为基础,介绍方差分析和混合模型的数据拟合。本项实验成果已经发表在国际SSCI期刊IRAL上,题目为Consolidating EFL content and vocabulary learning via interactive reading,它的数据分析具有典型性和代表性,此内容将能帮助学习者举一反三,提升自己独立开展研究的能力。

      第四讲:中国学生外语学习的“瓶颈问题”。 这是我们课题组近两年来开展的一项重要研究,成果即将发表在国际重要的SSCI期刊。这是一项非常典型的研究,通过这一讲,学习者将学会对不同类型的因变量进行模型拟合,是数据分析能力的重要拓展。

      第五-六讲:外语词汇学习的多变量交互。 这是我们新近完成的多项实验,探讨了多种不同的变量在外语阅读过程中对词汇习得所发挥的影响。通过这两讲的内容,学习者将学会如何解读复杂的交互效应,一项无比重要的数据分析能力。

      第七-八讲:反应时数据的多重拟合(1)(2)。 本课程的7-8讲,将介绍我们课题组前期开展的多项行为实验的研究成果,展示如何对一种特殊的数据即反应时数据进行模型的拟合。将详细介绍反应时的任务、特点,反应时的异常值处理,模型的拟合和解读。这三讲的内容将极大提升学习者数据分析能力,包括模型解读和可视化的能力。

      第九讲:眼动数据的模型拟合、结果解读和可视化。 如题,详细待定。

      第十讲:语料库或文本挖掘数据的模型拟合、结果解读和可视化。 如题,详细待定。

     以上内容会根据课程的进展作适当调整。

     课程将于2022年7月初开始,每天一讲,通过腾讯会议在线直播,并提供回看录像。课程将展示数据分析的每一个细节,共享数据、共享代码。欢迎咨询,欢迎参与。

上海交通大学外国语学院 语料库跨文化研究中心

2022年6月29日