第三章 RfD教学模型对二语词汇学习和整固的影响

Page content

knitr::opts_chunk$set(echo = TRUE)

3.1 引言

我国的大学英语教学曾经一度面临很多批评的声音，有指责为“费时低效”，亦有指责为“哑巴英语”，等等。在笔者看来，很多指责或批评都是不公平甚至是没有道理的，“是来自外行的评头论足”。试问有哪一门学科或学问不是“费时低效”的？数学？物理？之所以会有人会提出“费时低效”的观点，我认为是因为有些人并不了解外语学习之难，尤其是成年的外语学习之难，甚至简单地认为只要靠记忆，记住了单词或语法就能学会一门外语。事实显然不是这样，如果把“达到跟母语本族语者一样的水平”当作是外语学习的目标的话，那么它的难度可能要超越任何其他学科的学习，更何况外语学习也同时意味着对目标语国家的文化和风俗习惯等的学习。

但是，就外语教师或者应用语言学研究者来说，则不妨把上述批评当作是一种督促，外语教师和学者们确实有必要通过不断地探索和实践，寻找适合我国国情的有效外语教学方法，提升外语教和学的效率以及学生外语学习的获得感。笔者甚至认为这是国内应用语言学研究者或者说二语习得研究者不可推脱的历史责任：我们的研究根本上还是要落实到解决自己的问题上，不能只满足于发表几篇研究论文。尽管二语习得研究者反复强调为教学问题提供解决方案并不是二语习得研究的主要任务(Gass, et al., 2020)，但是无论如何从专业人的角度提出专业的方法和策略是对“来自外行的评头论足”最好的回应。

笔者对外语教学怀有深厚的兴趣，一直在尝试并实践一种称作为“阅读基础上的讨论”的外语教学模式，英译为Reading-for-discussion model，简写为RfD 教学模型。笔者在《当代外语研究》曾经发表过两篇相关的研究论文，分别是：《何为“有效”的外语教学?——根植于本土教学环境和教学对象特点的思考》(2019)和《大学英语教学,为什么要坚守“阅读和讨论”?》(2018)。最近的一篇文章发表在国际SSCI期刊International Review of Applied Linguistics(IRAL)上，标题为：Consolidating EFL Content and Incidental Vocabulary Learning via Interactive Reading。在这篇文章里，我们把RfD 教学模型称作为Interactive reading approach。这个章节主要介绍这个研究的起因、背景和教学实验实施的过程，然后详细展示这个研究的数据分析。

3.2 背景

这项研究已经发表，故此处只对研究背景及研究问题作简要介绍，目的是让读者了解本章节要分析数据的来源，更好地理解数据的结构。但强烈建议读者阅读原文以更详细了解这项研究的背景、动机、目的以及详细的实验过程。

阅读在语言学习中起着非常重要的作用（Koda 2007），尤其是在外语学习中，它构成输入(input)的主要来源，并由此成为学习者语言发展的驱动力。因此，开展有效的阅读教学对提升英语学习举足轻重。然而，从历史上看，英语阅读教学在提高学习者的语言技能方面所发挥的作用并不明显，主要原因可能在于学生在英语阅读学习中很大程度上扮演着相当被动的角色：独自阅读（默读或朗读），然后回答一些理解问题。学生之间通常很少就阅读内容进行互动和讨论。自20世纪70年代末以来，受新的二语习得理论的影响，如互动假说（Long 1981，1996）和社会文化理论（Lantolf 2006；Vygotsky 1978），各种互动阅读教学实践开始引入课堂，如“拼图阅读”（Geddes & Sturtridge 1982），“读-问-说”方法（Wajnryb 1988）和“ER +“方法(ER plus即extensive reading plus after-reading group discussion，泛读+阅读后小组讨论）（Boutorwick等人 2019），等等。然而，由于各种原因，主要可能是受传统教学理念和实践的影响，英语阅读教学在一些地方并没有跟上新的教学理念发展的步伐，在英语阅读学习中学生仍然扮演着相当被动的角色。例如，Hu 和 Baumann（2014）的《中国英语阅读教学研究》报告称，大多数教师仍然遵循传统的教学模式，让学生单独阅读，然后聚焦语法和词汇，并回答问题。从另外一个角度看，新的互动教学方法虽然已经获得一些研究者的重视，并开始应用于教学实践，但系统的实证研究，尤其是检验这种方法有效性的研究仍然比较缺乏。只有Boutorwick等人（2019）研究并检验了ER-plus阅读方法的有效性。

在此背景下，本研究旨在通过实验，比较“阅读—讨论”互动阅读方法与传统的非互动阅读教学对中国大学生英语阅读理解和词汇习得的有效性。这一新的阅读教学实践方法以 “互动”语言学习理论（Long 1981，1996）和“学习的社会文化理论”（Lantolf 2006；Vygotsky 1978）为理论基础，在教学实践中通过操控阅读内容分配，使其在在不同学生之间形成信息差，由此构造交流和互动的驱动力，促使学生之间进行口语和书面形式的组内和组间互动。

之所以将词汇学习纳入考核这一教学方法有效性的指标，是因为通过阅读进行词汇学习，尤其是附带词汇学习，长期以来一直是一个非常重要的研究课题（例如Boutorwick et al., 2019；Godfroid et al., 2018；Henderson & James 2018；Horst et al., 1998）。这些研究通过不同的设计（如案例研究、实验和访谈），并采用各种学习成果评估手段（如意义关联、定义、拼写、意义多项选择和翻译），发现阅读（尤其是目标词多次出现的泛读）在词汇学习的数量和质量上都有积极作用（词汇知识的广度和深度）。

本研究试图回答以下研究问题：

(1)“阅读—讨论”教学法对英语学习者的内容学习是否有即时的和延迟的影响？
(2)“阅读—讨论”教学法对英语学习者的词汇学习是否有即时的和延迟的影响？

3.3研究设计

3.3.1 被试

来自中国北方一所大学的两个平行班级（各40名学生）一共80名学生参加了本研究，其中一个班作为实验组（即阅读讨论班），另一个作为对照组（传统班）。这些学生年龄在21至23岁之间，都是从小学三年级开始学习英语，现在是这所大学的在读研究生，专业包括机械工程、电子和通信工程以及海洋建筑和工程。在进行这项研究时，他们已经在学校学习了大约13年的英语，都通过了大学英语四级考试（CET-4）。此外，这两个班的学生在上学期都参加了同样的英语期末考试，成绩非常接近（实验组为M=85.7分，对照组为M=85.9分），没有显著差异（t (72.99) = −0.32，p = 0.75）。

3.3.2 材料

使用弗吉尼亚州车辆部发布的2012年版《弗吉尼亚州驾驶员手册》第2节和第3节作为阅读材料(手册的当前版本见https://www.dmv.virginia.gov/webdoc/pdf/dmv39.pdf）。整个手册共有8节，17,733字。本研究选取的两节共有5,905个单词，共12页。第2节涉及“信号、标志和路面标线”，而第3节涉及“安全驾驶”。只选择了两节而不是整个手册作为学习材料是因为整个手册对于一个1小时的阅读课来说可能太长了。采用本手册作为阅读学习材料的理由有四：(1) 该手册是地道的英文文本。(2) 它涉及的主题是许多中国大学生感兴趣的内容。(3) 手册中有许多高质量的说明性图片，有助于阅读理解。(4) 该手册的词汇难度适当。文本中85.6%的单词是一般事务词汇表（GSL）中的单词，其中包括2000个最常用的英语单词，另有4.5%的单词在Coxhead（2000）的学术词汇表（AWL）中。换言之，文本中至少90.1%的词汇是本研究被试认识的词汇。

为了测试词汇学习效果，我们选择了以下10个单词作为目标词汇项：intersection（31）、yield（35）、pedestrian（21）、roundabout（19）、lane（89）、curve（16）、markings（19）、vehicle（75）、flash（27）和pass（34）。之所以选择这些单词，是因为它们在12页的文本中出现的次数都在16到89次之间，在页面上的分布相当均匀，平均每两页中每个单词至少出现三次。在这10个目标词中，有6个（60%）属于GSL和AWL词汇（yield、 roundabout、curve、vehicle、flash、pass），其余4个（40%）（intersection、pedestrian、lane和markings）属于第3组（即GSL和AWL之外的单词）。然后，我们将这10个单词替换为假词（见例1和例2），以确保所有被试都事先不认识它们。这些假词的词形或发音都与其替代的目标词不同，以防止学生根据其相似性猜测单词的含义。在词汇习得研究中，使用假词也是一种常见的做法（例如，Godfroid et al, 2013；Leach & Samuel 2007）。
例1：Traffic signals apply to drivers, motorcycle riders, bicyclists, moped-riders and spoists (代替pedestrian).
例2：Red light: At a red light, come to a complete stop before you reach the courch (代替intersection), stop line or crosswalk. Remain stopped unless turns are allowed on red.

3.3.3 程序

3.3.3.1 阅读讨论班（实验组）

该班的40名学生被分为六组，前四组各由七名学生，后两组各有六名学生。12页的阅读文本平均分为六个部分（每个部分有两页加上手册的封面），每组阅读一个部分。这意味着每个小组只有文本信息的六分之一，形成了“知识差”。如前3.3.2节所述，每个目标假词在每组阅读材料中至少出现三次，这意味着每个词在整个12页材料中的总出现次数至少为18次。课堂包括以下四个关键步骤（活动）:（1）阅读，收到阅读材料后，每个学生花大约15分钟阅读，要求为理解而阅读，并且不能查字典。（2）组内讨论，阅读完材料后，学生在指定的小组中参加20分钟的小组讨论。讨论仅用英语进行，涵盖可能遇到的与阅读内容和语言相关的问题。在讨论中，鼓励大家记笔记。（3）总结：讨论结束后，要求每组花5分钟一起写一篇他们所读内容的总结。（4）组间讨论：在完成组内讨论并写好总结后，每组学生依次换到另一个组，告诉别的组自己所阅读的内容。每次换两名学生，留在组中的学生则欢迎来自其他组的学生，听他们介绍所在组所阅读的内容。在小组讨论期间，学生们不能看阅读材料，但可以查阅他们前面写的书面笔记。小组讨论也仅用英语进行。等到所有学生都曾到别的小组交流，并最返回到原指定小组后，组间讨论阶段结束。整个组间讨论持续了25分钟。通过这项活动，学生们获得了其他五个小组阅读部分的信息。老师的作用主要是作为引导者，随时准备提供帮助，并确保一切顺利进行。讨论结束后，立即进行词汇和学习内容的测试。不包括测试时间，整个实验持续约65分钟。

3.3.3.2 传统班（对照组）

与实验组不同的是，对照组每个学生都要阅读完整的12页材料。这个班的课堂同样包括四个活动，其中三个与实验组不同：（1）阅读，收到材料后，要求学生按照自己的节奏阅读理解，不要查字典。允许重读，但要求他们在大约30分钟内完成阅读。（2）提问，鼓励学生向老师询问关于阅读材料的任何内容或语言问题，包括不懂的交通标志/规则、难理解的单词、短语或句子。（3）教师授课，正如典型的阅读课上通常所做的那样，教师花了大约15分钟解释语言难点（词汇和/或语法）和内容难点，并提供内容总结。（4）写总结，学生独立完成对阅读内容的书面总结并交给老师。与实验组一样，对照组的这四个步骤也花了大约65分钟。
需要注意的是，两个班级都没有特意教授词汇，课文中也没有以任何方式标记或突出显示目标词汇。另外，非常重要的一点是，在实验开始之前，老师告知了两个班的学生在课后会立即进行两种测试，一种为阅读内容的测试，一种为针对阅读材料中的某些词的测试。

3.3.3.3 阅读理解和词汇测试

阅读内容的测试主要包括对交通标志和交通规则的测试，共有22题：11个真题和11个填充题。在11个真题中，6个为正误判断，5个为单项选择题。在填充题中，5个为正误判断，6个为单项选择。真题基于阅读材料，即《驾驶员手册》第2节和第3节；填充题基于手册的其他部分。
词汇测试分两个部分，重点是理解被测单词的含义。第一部分要求学生为每个词项提供中文翻译。这一部分共有20个单词， 10个为目标假词，另外10个是从文本中随机选择的英语真词，后者为填充词，不纳入统计分析。第二部分要求学生从40个单词中选择一个合适的单词来填补句子中的空白。共有20个句子（或20个填空），其中10个为目标假词，10个为英语真词。同样，真词用作填充词。即时后测和延迟后测题目相同，但顺序不同。

3.3.3.4 访谈

在即时测试后，我们从每个班随机选择10名学生进行回顾性访谈，了解他们如何确定自己不知道或不理解的单词的含义或内容信息、写阅读总结时遇到的最大困难，在课堂上做的最有益的事情。对于阅读讨论班，我们还询问了被试在组内和组间讨论中交换了哪些信息，以及他们如何解决遇到的语言问题。这一步骤旨在研究被试对阅读课上的教学和学习活动的感受及其影响。访谈分组进行，由授课老师用中文开展。

3.4 在Rstudio中操控数据

3.3.1 数据清洁和整理

这个研究的数据文件以Excel格式贮存，命名为"RfDmodel.xlsx"，先把它读入RStudio，并使用glimpse ( )函数查看数据结构：

library(tidyverse);library(readxl)
mydata<-read_excel("RfDmodel.xlsx") #import the data
glimpse(mydata)

数据一共r nrow(mydata)行(观测),r ncol(mydata)列，即r ncol(mydata)个变量。在这r ncol(mydata)个变量中，student是被试识别号(identifier)，表示参加了实验的学生；group表示组，代表了两种不同的教学方法；Immediate_voc是在实验结束后立即进行的词汇测试里学生取得的成绩，ThreeWeeks_voc表示在实验结束3周后进行的词汇测试里学生取得的成绩, Immediate_content 是在实验结束后立即进行的交规内容测试里学生取得的成绩，ThreeWeeks_content是在实验结束后3周后进行的交规内容测试里学生取得的成绩。查看表示两种不同教学方法的group这个变量：

mydata %>% 
  count(group)

可以看到，group确实有两个水平，Read_Discuss代表的是实验组，即接受交互式阅读训练的学生，而Traditional代表的是对照组，接受传统教学方法训练的学生。仔细观察mydata这个数据框就会发现，它并不符合我们在《R在语言科学研究中的应用》一书中定义的可用于可视化和统计建模的“干净、整洁”的数据框。根据前面的介绍可以知道，这是一个 2 x 2的实验设计，即有两个自变量，这个数据框已经有group这个变量了，但是仍然少了一个表示测试时间的变量。从上面的数据结构可以看出，时间这个变量被分散在4个不同的列了，因此有必要对这个数据进行转换，从而确保在数据框里可以体现2 x 2的实验设计中的两个自变量。方法是使用pivot_longer ( )函数，把分散在4个不同的列的变量归集起来：

mydata2 <- mydata %>% 
  pivot_longer(Immediate_voc:ThreeWeeks_content,
               names_to =c("time","type"),
               names_sep ="_", 
               values_to = "scores")

colnames(mydata2)

view(mydata2)

pivot_longer( )函数的使用非常灵活，在功能上它实现了从宽数据到长数据的转换，这个函数是由原来的gather ( )函数升级而来，但在数据转换的功能上有更多的操作空间。经转换后，数据框里就可以找到两个自变量了：group和time。同时，还增加了两个新的变量type和scores，其中type表示测试的类型：

mydata2 %>% 
  count(type)

可以看到type有两个水平，分别为交规内容测试(content)和词汇测试(voc)，各有160 (4 x 40)个观测值(observations)。最后一个变量是scores，为这个研究的因变量，代表了两种测试的成绩。到这一步为止，数据已经非常规整了，可以找到研究中所有的变量，这也就意味着我们可以使用这个数据框，进行数据可视化或者统计建模了。

3.3.2 数据挖掘: EDA

跟第二章的做法一样，先进行数据探索，即EDA，方法是使用多种可视化的手段对实验组和对照组在两次词汇和交规内容测试的成绩进行可视化。使用mydata2这个数据框可以同时呈现这两个测试成绩的可视化结果，但是在本书有限的空间里，只呈现词汇测试成绩的结果，读者可以自己尝试完成对交规内容测试成绩的可视化。首先，使用箱体图来呈现结果：

mydata3 <- mydata2 %>% 
  filter(type=="voc")


ggplot(mydata3,aes(time,scores,fill=group))+
  geom_boxplot(notch = TRUE)+
  labs(x="Time",y="Scores")

箱体图，亦称箱线图，可以很好地呈现数据中的值是如何分布的。尽管与直方图(histogram)或密度图(density plot)相比，箱线图可能看起来比较“古旧”，但它们具有空间占用更的优势，这在比较许多组或数据集之间的分布时就显得很有用。箱线图在呈现数据的分布时基于五个数值(摘要)：最小值(Minimum)、第一四分位数(Q1, first quartile)、中位数(median)、第三四分位数 (Q3, third quartile) 和最大值(Maximum)。下图是一个横放的箱体图，显示了各个值的位置：

图2：箱体图的构成

箱体图的箱体正好占据一个四分位距(interquartile range, IQR)，即第三四分位数和第一四分位数之差，在最大值和最小值之外的数用点表示，它们是这组数据的离群值或称逸出值或异常值(outliers)。在生成箱体图时，若在代码中设定notch=TRUE这个参数，那么将在中位数周围形成一个槽口，可用于提供两个或多个箱体图的中位数差异显着性的粗略估计；如果两个框的槽口不重叠，说明两组数据的中位数之间存在统计学上的显著差异。如图x所示，在三周后测试的箱体图中的两个框的槽口不重叠，说明两组数据(的中位数之间)存在统计学上的显著差异。箱体图当然也局限性，比如它不能提供关于数据分布偏态和尾重程度的精确度量，同时，用中位数代表总体平均水平也有一定的局限性。所以，使用箱线图来描述数据时可结合其它描述统计工具，如均值、标准差、偏度等。

接着，再使用条形图(barplot)来呈现实验组和对照组在实验结束后，前后两次词汇测试成绩的描述统计结果：

ggplot(mydata3,aes(time,scores,fill=group))+
  geom_bar(stat = "summary",
           fun=mean,
           position="dodge")+
  geom_errorbar(stat="summary",
                fun.data=mean_cl_normal,
                position=position_dodge(width=0.9),
                width=0.2)+
  scale_fill_grey(start = 0.3,end = 0.6)+
  scale_y_continuous(breaks = seq(1,16,1))+
  theme(axis.text = element_text(size = 11),
        axis.title = element_text(size=13,
                                  face="bold"),
        legend.text = element_text(size=11),
        legend.title = element_text(size=12,
                                    face = "bold"))+
  labs(x="Time",y="Scores")

条形图(bar plot)，纵置时亦称柱状图(column plot)，主要呈现分类变量(categorical variable)不同水平的数据分布情况，可用于呈现分类变量不同水平的均值、中位数、标准差和置信区间等。分类变量的每一个水平都由一个条形表示，条形的长短表示数值的大小，该类型的图是展示描述型数据的一种常见方式。研究论文中的条形图常见带有一条误差线(error bar)，误差线主要用于描述测量值的精准程度，即对测量数据的确定程度。误差棒其实反应了数据的离散程度，是一种标准差的表现手段，表示一组数据内各观测值与平均值的偏离程度。通常，我们认为误差棒越短，数据的离散程度越小。从上述条形图中，我们可以看出在即时后测中互动阅读方法和传统的非互动阅读方法的词汇学习效果差别不大，而三周后的延时后测中互动阅读方法的词汇记忆效果优于传统的非互动阅读方法。然而，仅通过条形图并不能呈现数据的全貌，还可以通过其他的图形类型，比如散点图对数据的描述进行补充。
最后，再使用散点图来呈现每名被试在实验结束后前后两次词汇测试成绩的描述统计结果：

ggplot(mydata3,aes(student,scores,color=group))+
  geom_point(size=3)+
  geom_text(aes(label=student),
            check_overlap = TRUE,
            nudge_y = 0.25)+
  facet_wrap(~time,scales = "free_y")+
  xlab("Students")+
  ylab("Scores")

散点图(scatter plot)，亦称散布图，顾名思义是由许多散布的点组成的坐标，每个点在坐标轴中的位置代表了变量中不同数据的数值。此外，在散点图中，不同的变量可由点的不同标记，如颜色、形状、样式等表示。散点图也常用于建模之前的数据探索，可以根据散点的分布趋势判断自变量对于因变量的影响趋势，上图散点显示了80名被试的词汇测试得分情况，根据该散点的总体分布可以观察到与条形图相似的结果，即在即时后测中互动阅读方法和传统的非互动阅读方法的词汇学习效果差别不大，而三周后的延时后测中互动阅读方法的词汇记忆效果优于传统的非互动阅读方法。要在散点图上呈现每个点对应具体哪一名被试关键是要在生成geom_text ()这个图层时设置label这一图形属性的参数。这个实例是通过把student这个变量映射给label来实现这个目的的。

3.3.3 多变量方差分析

从前面的实验设计部分的介绍可以知道，这是一个2 x 2混合设计实验(mixed-design)，共有两个自变量(组和时间)，每个自变量都只有两个水平。之所以称作为混合设计是因为两个自变量中其中有一个自变量为被试间设计(between-subjects design)，即组(group)这个变量，而另外一个自变量是被试内设计(within-subjects design)，即时间(time)这个变量。再对数据的结构进行简单探索：

mydata2 %>% 
  count(group,time) #equal n design

从上面的结果可以看出，这是一个均衡设计(equal ns design)，以下是数字化的描述统计结果，这些结果已经通过上面的图形显示了。一般来说，在论文写作时二者择其一就行：

library(flextable)
x1 <- mydata2 %>% 
  group_by(group,type,time) %>% 
  summarize(M=round(mean(scores),2),
            sd=round(sd(scores),2),
            n=n())
#flextable(x1)
set_caption(flextable(x1), "表1：实验组和对照组在即时和延时测试的描述统计结果")

从描述统计结果的最后一列也可以看出，这是一个均衡实验设计。对这个实验设计的多变量分析，可以使用混合设计的方差分析(ANOVA)对结果进行统计分析。根据这个研究的自变量的数量，这个方差分析称作为二向方差分析(two-way ANOVA)。这里也按照我们发表在IRAL的那篇论文对结果的汇报顺序，首先对交规内容测试成绩进行方差分析。在R中，可用于方差分析的函数有很多，对初学者来说，最重要的是要理解各种不同的函数对被试间设计的变量和被试内设计的变量在具体设置上的区别。笔者习惯采用afex包中的aov_4 ( )函数进行方差分析：


df_content<- mydata2 %>% 
  filter(type=="content")

library(afex)
M_content <- aov_4(scores~group*time+
                 (time|student),
               data=df_content)

以上代码首先实现的是筛选出交规内容测试的数据，然后加载afex包，接着使用aov_4( )函数进行方差分析，并把分析结果赋值给M_content。在代码的运行结果里出现了两行提示，第一行是：Converting to factor: group，它的意思是在进行方差分析时，R自动把group这个变量转换成因子(factor)，group原来是一个字符串格式的变量。第二行提示是：Contrasts set to contr.sum for the following variables: group，说明R在把变量group转换成因子后，又把group的自变量编码设置为contr.sum。笔者喜欢使用afex包中的aov_4( )函数进行方差分析有两个主要原因。第一个原因就在于aov_4( )函数中表达式的设置细节，仔细观察函数中的表达式会发现它的设置方式跟混合效应模型的lmer( )函数的设置方式非常相似。第二个原因就在于使用aov_4( )函数进行方差分析不需要自行设置自变量的编码，就像上面第二条提示内容所显示的，它自行把自变量的编码设置成了contr.sum。contr.sum也称作为效应编码(effect coding)。那为什么aov_4( )函数进行方差分析时把自变量编码设置为contr.sum，而不是使用R默认的虚拟编码(dummy coding)呢？一般认为，如果模型中有多个分类变量，使用效应编码或虚拟编码通常没有太大区别。但是，如果两个分类变量存在交互作用，效应编码就具备一定的优势，主要表现在效应编码可以对主效应和交互效应进行合理估计。若使用R默认的虚拟编码，仍然可以较好地估计交互效应，但对主效应的估计则不够准确(Singmann et al., 2022)。
调用上述模型，查看方差分析的结果：

M_content

阅读上面的分析结果，读者可能会感到困惑，上面的方差分析结果表中的第一行显示了方差分析使用的是Type 3 tests，也就是第一章介绍的Ⅲ型平方和的方法。我们在第一章节明确指出“只有当自变量是直角正交编码的时候(orthogonal contrasts)，Ⅲ型平方和才是有效的”，但是，上面不是已经提示aov_4( )函数已经自动地把group的编码设置为了contr.sum，即效应编码了吗？效应编码并不是直角正交编码啊？这不自相矛盾吗？

读者的谨慎是非常有道理的，而且值得称道。限于篇幅而且考虑到不是本书的重点，故不在此对这一问题进行详细解释。谨说明两点：首先，如果实验采取的是平衡设计(equal ns)，使用哪种类型的平方其实什么区别。其次，在上述情形里，使用 contr.sum、contr.helmert或 contr.poly，或者使用自己设置的直角正交编码，所获得的结果都是相同而且也是可靠的，但不建议使用contr.treatment的编码方式(即虚拟编码)，否则可能导致平方和的计算结果不准确。更详细内容，读者可以参看线上论坛stack overflow当中的讨论。
再看上面的方差分析的结果表，一共有3行6列，每一行显示的是方差分析中的每个项的检验结果，就这个研究来说，这三个项分别是group和time的主效应以及它们的交互效应。第一列Effect显示的是方差分析的项，第二列则是每个项对应的自由度，第三列MSE表示的是Mean Standard Error，即平均标准误差，根据第一章的知识可知它就是计算F值的分母，第四列为F值，ges表示的是general eta squared，即效应量，最后一列表示的是对应的p值。从上面的结果可以看到，组有效应(F (1,78) = 18.81, p < 0.001, $\eta$^2^ = 0.116)，时间也有主效应(F (1,78) = 75.43, p < 0.001, $\eta$^2^ = 0.306)。而且，组和时间还有交互效应(F(1,78) = 11.45, p = 0.001, $\eta$^2^ = 0.063)。

可以使用emmeans包中的emmeans( )函数进行事后检验，从而“解开”(untangle)组和时间的交互效应：

  emmeans::emmeans(M_content,specs = pairwise~group*time,
                 adjust="None")

所谓组和时间存在交互效应就是指组(即教学方法)的影响还要取决时间的不同水平(即不同的测试时间)，具体看就是组的影响还要取决于是立即测试(Immediate)，还是三周后测试(ThreeWeeks)。因此，上述分析结果中最重要的是contrasts表中的第一行和最后一行，第一行的结果显示，在立即测试时，阅读和讨论组(Read-Discuss)跟对照组(Traditional Immediate)没有区别($\beta$= 0.30, SE = 0.33, t = 0.94, p = 0.36)，但是在三周后测试，两组存在显著区别($\beta$= 1.80, SE = 0.33, t = 5.48, p < 0.0001)。

采用相同的方法对词汇测试成绩进行2 x 2混合设计的方差分析：

df_voc <- mydata2 %>% 
  filter(type=="voc")
M_voc <- aov_4(scores~group*time+
                     (time|student),
                   data=df_voc)
M_voc

对上述结果可报道如下：

方差分析结果显示，教学方法无主效应(F(1,78) = 2.02, p = 0.16, $\eta$^2^ = 0.016)，该结果说明，如果不考虑时间的影响的情况下，两个班级词汇成绩之间无显著差异。然而，时间有主效应(F (1,78) = 349.02, p < 0.001, $\eta$^2^ = 0.616),被试在延时后测的词汇测试成绩显著低于即时后测的词汇测试成绩。最重要的是，我们发现教学方法与时间之间存在显著的交互效应(F (1,78) = 4.69, p = 0.03, $\eta$^2^ = 0.021)，说明教学方法的作用还要取决于不同的测试时间(时间的不同水平)。至于这两个变量到底是如何交互的，可以使用emmeans ( )函数来进行事后检验，此处略去。建议读者参考论文原文，自行尝试。

3.2.4 混合模型

在这个教学实验里，我们同时考察了交互式阅读对教学内容和词汇学习的影响。此时，一个很自然的问题就是：教学内容的学习和词汇学习是否存在某种联系？我们对这个问题在IRAL发表的论文原文里进行了统计分析和系统的讨论。统计分析的方法是把被试的交规内容考试成绩当作协变量(covariate)，把教学方法(group)和时间(time)当作自变量，使用lmer( )函数，拟合了一个关于被试词汇测试成绩的混合效应模型。根据惯例，在拟合模型前首先对数据进行准备：

df_mixed <- mydata2 %>% 
  pivot_wider(names_from = "type",
              values_from = "scores") %>% 
  mutate(content=as.vector(scale(content)))

df_mixed$group <- factor(df_mixed$group,
                       levels =c("Traditional","Read-Discuss"))

因为content是一个连续型的数值型变量，第二章介绍过，在拟合混合模型前会把它进行标准化，即scale，从而避免模型拟合过程中可能碰到的问题，同时也让模型拟合的结果更好解释。我们在论文原文里对这一操作进行了描述：Before entering the model, the scores of the content tests were scaled and centered for the convenience of the model fitting procedures and the interpretation of the results。上面的前四行代码实现了转换的目的，而后面两行代码则重新设置了group这个因子(变量)两个水平的顺序。一般，R根据字母的先后顺序来设置因的水平，字母在最前面的设置为因子的第一个水平，即参照水平。故group这个因子中，Read-Discuss应该是第一个水平，但是上面代码对此进行了修改，把Traditional设置为第一个水平，即参照水平。以下是混合模型拟合的结果：

library(lme4)
summary(m_mixed1 <- lmer(voc~1+time*group*content+
                           (1|student),
                         data = df_mixed,
                         REML=FALSE),
        correlation=FALSE)

使用drop1 ( )函数，查看变量的主效应或交互效应：

drop1(m_mixed1,test="Chisq")

结果发现，时间(time)、组(group)和内容(content)存在边缘显著的交互效应(F(1,160)=3.60, p=0.059)。为了解读这三个变量的交互效应，使用effects包并结合plot ( )函数对模型的交互效应进行可视化：

library(effects)
plot(allEffects(m_mixed1),
     xlab="Content scores",
     ylab="Vocabulary scores",
     layout=c(4,1),main="")

图5呈现了一副非常有趣的三个变量的交互关系，我们在论文原文对这个交互关系进行了非常细致的解读，翻译成中文如下：
在即时后测，内容测试的成绩对两组的词汇测试成绩产生了相似的影响：随着内容测试成绩的提高，两组的词汇测试成绩也以相似的速度增长。但是与即时后测形成鲜明对比的是，在延迟后测中，参与者在内容测试中的表现对两组的词汇测试成绩产生了截然不同的影响：对阅读讨论组，内容和词汇分数之间的关系保持不变，内容测试分数的增加伴随着词汇测试分数的类似增加；然而，对于传统班级，延迟后测没有发现这种正向预测关系，因为该组的词汇测试成绩没有显示出相关的变化。

3.2.5其他方法

3.2.4.1 使用`aov ( )`函数进行方差分析

前面介绍过，可用于方差分析的方法和手段非常多，如果对第一章的内容非常熟悉的话甚至可以用手算。不过考虑到时间成本，最好还是使用直接可用的函数，以更快、更方便地获得结果。除上面介绍的笔者喜欢使用的方法和函数以外，也可以使用R自带的aov ( )函数进行方差分析。不过，使用这个函数时，有两个比较重要的注意事项。第一就是要注意实验设计是否为均衡设计，如果为非均衡设计则不建议使用这个函数进行方差分析，除非对自变量进行直角正交编码，使用III类平方和。第二个要注意的事项是针对研究设计中重复测量变量的误差项设置问题。第一个问题比较容易处理，因为每一个研究者对自己的设计应该都很清楚，知道自己的实验是否为均衡设计，即使是分析陌生的数据，也可以通过数据探索轻易地知道这个信息。而关于第二个问题，不妨先看使用这一函数对本研究中的交规内容的测试数据的分析，如下：

Content_M<- aov(scores~group*time+
                    Error(student/(time)),
                data=df_content)
summary(Content_M)

比对前面使用aov_4( )的分析结果会发现使用aov ( )函数，获得的结果完全一样。这里需要特别注意的是Error ( )项的设定，也就是上面提到的第二点注意事项，这里student/time表示的意思是被试(student)分别出现在时间(time)这个变量的不同水平之下(即不同测试时间)。如果是独立测量的被试间设计则不需要设计这个项。

在获得组(group)和时间(time)的主效应和交互效应后，也可以跟前面介绍的方法一样，使用emmeans ( )函数进行事后检验，此处略去。读者也可以使用这一函数对本研究中的词汇测试成绩进行分析，此处也不再介绍。

3.2.4.2 使用`lme( )`函数构建多层模型

笔者在《第二语言加工及R语言应用》(2019)一书以及《R在语言科学研究中的应用》(2021)一书中都曾经提及使用lme ( )函数来分析重复测量数据的方便和优势。在《第二语言加工及R语言应用》一书的234-235而还专门介绍了如何使用这个函数来分析本实验的词汇测试成绩的数据。请读者自行阅读和参考相关内容，此处不再介绍。
一般来来说，对于实验设计比较简单的包含重复测量的变量的数据分析，我大都采用本章节介绍的方法来进行分析。但是当在涉及比较复杂的重复测量设计的时候，尤其是涉及到多被试、多测试项、多变量这“三个多”的时候，我则主要考虑使用后面章节着重介绍的混合效应模型来进行数据分析。