中国学习者英语口语语料库(COLSEC) 语料库介绍 上海交大“985 工程”外语学院二语习得平台建设

中国学习者英语口语语料库(COLSEC)

2008-05-30 23:14 来源: 作者: 网友评论 0 条 浏览次数 9

 

COLSEC项目简介

          

           上海交通大学语言文字工程研究所继CLEC项目之后, 启动了我国国内第一个学习者英语口语语料库———中国大学学习者英语口语语料库COLSEC ( CollegeLearners Spoken English Corpus)项目。项目旨在建设可用于我国大学生英语口语能力研究的数据资源; 希望通过COLSEC的建设, 摸索方法、积累经验, 建立一套可资借鉴的学习者口语语料库建库原则、采样方案和技术标准, 促进本学科的发展; 尽可能在某种程度上填补国内学习者口语语料库的空白, 使相关的语料库研究逐步接近国际主流水平。

          中国学习者英语口语语料库(COLSEC)是继CLEC(桂诗春&杨惠中,2003)之后,我国国内又一个主要的学习者英语语料库建设项目。COLSEC的设计库容为700,000词次。 COLSEC的语料来源为全国大学英语考试口语考试部分的实景音像资料。语料涵盖口语考试的三部分内容(1)教师-学生型晤谈;(2)学生-学生型自由讨论;(3)教师-学生型讨论。 每场考试三个部分的会话围绕内容相关的几个具体话题展开。 语料选择采用随机比例抽样方法,对考生的地区来源、专业、考试成绩(杨惠中,1999)、交谈话题等按比例选取。语料的转写按照“真实”,“完整”和“准确”原则,标注采用XML语言,用一系列符号对话轮转换、语音、语调、停顿、犹豫、打断、非言语交际等进行逐一标注。

          国家社会科学基金项目“大学学习者英语口语语料库” (01BYY007)的结项专著——《中国学习者英语口语语料库建设与研究》于2005年11月由上海外语教育出版社出版。 该书概括描述了学习者英语口语语科库的设计原则、转写与标注方案以及一系列相关技术标准。它还报道了基于该语科库进行的有关初始研究成果,包括中国学生的英语发音错误特征、学生英语口语中的话语结构特征、词块使用特征和会话策暗特征、学生英语会话中的主题词与相关的语义网络构成等。全书的主要内容以及有关统计信息对语料库建设将具有惜鉴意义,对基于语料库的第二语言习得研究也将具有一定的参考价值。

         注:以上部分内容引自:卫乃兴,李文中,濮建忠。 “COLSEC语料库的设计原则与标注方法”《当代语言学》第9卷2007年第3期235 - 246页。

        

 

上一篇:中国英语学习者语..    下一篇:中国学生英语口笔..

相关主题:

网友评论