中国学生英语口笔语语料库(SWECCL) 语料库介绍 上海交大“985 工程”外语学院二语习得平台建设

中国学生英语口笔语语料库(SWECCL)

2008-05-30 23:14 来源: 作者: 网友评论 0 条 浏览次数 11

 

中国学生英语口笔语语料库项目概述

        “中国学生英语口笔语语料库”( Spoken andWritten English Corpus of Chinese Learners,以下简称SWECCL)项目于2003年开始启动。SWECCL项目由国家人文社科基金项目“中国大学生英语口语能力发展的规律与特点”(项目批准号04BYY039)的数据库( Spoken English Corpus of Chinese Learners,以下简称SECCL)和教育部人文社科项目“中国大学生英语写作能力的发展规律与特点”(项目批准号03JA012)的数据库“中国学生英语笔语语料库”(WrittenEnglish Corpus of Chinese Learners,以下简称WECCL)两个数据库组成,语料库的设计总规模为200万词,其中SECCL子库为100万词,WECCL子库为100万词。数据库由南京大学和外语教学与研究出版社合作开发,北京外国语大学中国外语教育研究中心立项资助。SWECCL的建成将填补国内外在这一领域的空白,极大地推动我国的英语教学与研究,对英语教材编写、英语测试、英语师资培训、英语网络课程建设等具有重大价值与意义。

       SECCL口语子库主要依托全国英语专业四级口语考试语料,收入了1996年- 2002年共7年的四级口试的语音样本1, 148个,以及转写文本1, 148个,总规模达1, 460, 042词,每篇文本语料都进行了文本头标注(HEADER MARKUP) ,除提供各年四级口试的完整文本外,还将各年的语料按照任务类型(复述、独白和会话)分别切分。此外,运用CLAWS自动赋码器对全部语料进行了词性赋码,经检查,赋码正确率为95. 5%。

      WECCL笔语子库的设计规模与SECCL大体相等,为100万词,书面语料主要从国内9所不同层次的高校英语专业的1 - 4年级学生中采集,以保证所选语料具有广泛的代表性。语料内容为若干不同题目的英语作文,文体为议论文,也有少量的记叙文和说明文,长度为200 -800词不等,写作条件为课堂限时和课外非限时作文两种。WECCL的最终容量为3578篇作文,共1, 186, 215词,其中包括3, 059篇议论文, 529篇记叙文, 90篇说明文,并进行了文本头标注,运用CLAWS自动赋码器对全部语料进行了词性标注,经检查,赋码正确率为9515%。

       中国学生英语口笔语语料库( SWECCL)经过几年的建设顺利完成,2005年已由外语教学与研究出版社出版。有关该语料库的更多内容,参见:文秋芳,王立非,梁茂成. 中国学生英语口笔语语料库[M ]. 外语教学与研究出版社, 2005.

     注:该部分内容引自:王立非,文秋芳,“‘中国学生英语口笔语语料库’的建设与研究评述”,《外语界》,2007年第1期

 

 

 

上一篇:中国学习者英语口..

相关主题:

网友评论