“基于R的语言研究多变量分析”暑期课程10讲(线上/线下)
data science and L2 studies
语言是“人类进化最复杂的现象”(见Gries, 2013),因此开展与语言相关的研究,不管是语言的习得、产出、理解、加工,还是涉及语言本体等各种各样的研究,都会牵涉到同时对很多变量之间关系的考察。因此,多变量分析是语言研究的常态。本次暑期课程是在前几期课程的基础上,基于我们正在编写的新书《基于R的语言研究多变量分析》,基于实证研究的思维,从量化的视角,来探讨语言研究的多变量分析。
基于“最真实的案例”是这个课程最大的特点。以介绍我们课题组近期开展过的多个真实案例为主线,展示这些研究的动机和背景、数据收集的过程(如何设计材料和操控变量),重点展示数据分析和统计建模的经过以及结果的呈现、解读和讨论等等。虽然这些研究案例都有它们自己的特点,而且读者要开展的每项新的研究在研究目的、研究问题、研究假设以及研究设计等方面可能也都与这些研究案例不一样,但是我们认为在数据分析的核心过程上所有的研究都会存在很多共同点,因此,这些具体的研究案例能帮助大家提升多变量分析能力,帮助大家在开展语言实证研究,进行数据分析时做到举一反三。
10讲内容将根据主题以及(因变量的)数据类型分以下五个板块进行:
- 第一,方差分析的原理和实例(2讲)。方差分析是多变量分析应用得最多的统计方法之一,尤其是独立测量、被试间设计,其应用仍然非常广泛,而且,方差分析也是理解多变量分析前后逻辑的有效途径。我们将通过2-3个实例介绍其原理及应用,并为后面内容奠定基础。
- 第二,因变量为二元变量的多变量分析(3讲)。尽管我们对连续型数值变量习以为常,但实际上语言研究存在大量的二元变量,比如,试卷答案可以按正确或错误划分,单词在语料库中可分为出现或不出现,被试的反应可以分为是和否两类,等等。实际上二元变量是语言研究者需要经常面对的变量。传统上,对这种类型的因变量,常常是计算百分比,然后进行方差分析,但是,这种方法存在很大局限。我们将通过近期开展的研究向大家介绍三个典型案例,详细介绍如何对这种二元变量拟合逻辑回归的混合效应模型来进行多变量分析。
- 第三,反应时(Reaction Time, RT)数据分析(2讲)。反应时亦称作为响应时间(response time)或反应潜伏期(response latency),是以时间来计量(通常为毫秒)的一种简单或许也是应用最为广泛的对行为反应的测量,它一般指实验任务开始呈现到它完成的这段时间。无论是国际还是国内,研究者都大量地使用反应时数据作为因变量。从统计分析看,反应时数据在分布形状、趋中度以及离散程度方面都反映出区别于其他类型数据的鲜明特点。因此,反应时数据的统计分析往往也有别于其他数据类型的技术要求和门槛。这两讲内容将基于我们的多项研究,探讨反应时数据处理方法的原理和实践,包括数据转换、异常值处理等等。
- 第四,离散型因变量的数据分析(2讲)。正如二元变量一样,离散型数据也是语言研究者经常面对的数据类型,比如一些类型的眼动数据,使用李克特量表所获得的问卷数据以及各种正整数数据,等等。因此,理解这类变量的数据分析很有必要。我们将向大家展示我们开展的两项研究,从而介绍这类数据的分析方法。
- 第五,其他。将根据课程的进展向大家介绍三个内容。其一,功效分析(power analysis)。当前,基于功效分析来确定实验的被试量已经成为很多学术期刊的要求。我们将向大家展示如何通过模拟的方法来确定基于混合效应模型的实验所要求的被试量。其二,贝叶斯统计推断。这一内容近年来越来越受到关注,我们将通过实例向大家展示它的应用。其三,基于文本挖掘的外语教师课程话语的促学特征研究。基于近期我们开展的国家社科课题所获得的数据,向大家展示我们如何分别使用R和Python来分析教师课堂话语的促学特征。这部分内容不是这一次课程的主要内容,目的是丰富课程内容,让大家理解不同类型的数据获取和分析思路。
课程将通过cctalk付费报名,也将通过cctalk在线直播(视频可回看),线上线下同时举行,大家自由选择参加方式。欢迎参加!
Your passion for learning is our reason for being.
课程时间: 2023年7月26日至2023年7月31日
课程费用: 2500元/人
主讲教师: 吴诗玉教授及其团队。
联系方式:
姜老师:lingzi0708 (微信,请备注“姓名+学校+R”)
李同学:lixianbei131 (微信,请备注“姓名+学校+R”)
吴诗玉教授简介:
吴诗玉,上海交通大学外国语学院教授、博士生导师,上海交通大学晨星青年学者,上海市“浦江人才”计划获得者。主要研究方向:应用语言学、二语习得、心理语言学。在《外语教学与研究》、《心理学报》等CSSCI期刊以及Second Language Research, Journal of Pragmatics等SSCI期刊区发表50多篇研究论文,在Routledge等出版5部著作。主持2项国家社科项目以及教育部、上海市哲社项目。出版《第二语言加工及R语言应用》(外研社)、《R在语言科学研究中的应用》(科学出版社)、《基于R的语言研究多变量分析》(2023年待出)。
个人主页链接:
[link] https://sfl.sjtu.edu.cn/Data/View/1928