美国英语语料库
布朗语料库
20世纪50年代是美国结构主义语言学的鼎盛时期,也是转换生成语法的萌芽时期。在时任美国语言学会主席的布朗大学教授W.F.Twaddell的策划下,Nelson Francis和Henry Kucera于1963年着手建设布朗语料库,并于1964年完成了这个容量为一百万词的第一个电子子语料库。布朗语料库在美国本土并未产生太大影响,但对欧洲的计算机语料库建设和语料库语言学的发展起到了重要的引领和催化作用。
美国国家语料库
美国国家语料库(American National Corpus)是规模巨大的关于美国英语使用现状的语料库,它包括从1990年起的各种文字材料、口头材料的文字记录。ANC已出版过两个版本,第一个版本包含1000万口语和书面语美式英语词汇,第二个版本包含2200万口语和书面语美式英语词汇。
此外,还包括美国专业口语语料库(CPSAE,Corpus of Spoken Professional American English);FROWN美语语料库(Freiburg BROWN Corpus of American English);MICASE语料库(Michigan Corpus of Academic Spoken English)容量达到170万词次;SUSANNE语料库容量有13万词次,进行了词性和句法标注。
英国英语语料库
BNC语料库
英国国家语料库(British National Corpus),是由英国牛津大学出版社、朗文出版公司、钱伯斯一哈洛普出版公司、牛津大学计算机服务中心、兰卡斯特大学英语计算机研究中心以及大英图书馆等联合开发建立的大型语料库。该语料库的建立标志着语料库语言学的发展进入一个新的阶段,并在语言学和语言技术研究方面发挥重要作用。
LOB语料库
LOB语料库(Lancaster/Oslo-Bergen Corpus),词库容量为100万词次。其贡献在于该语料库采用了TAGIT标注系统,以统计的方式建立换算机率矩阵,把标注正确率提高到了96%。
LLC口语语料库
LLC口语语料库(London-Lund Corpus of Spoken English),其内容为500,000词次的口语,内容分为五大类:面对面谈话、电话、讨论、即席演讲、专题演讲。
COBUILD语料库
COBUILD语料库(Collins Berminhan University International Language Database)由John Sinclair在20世纪80年代建立。其贡献在于它是第一个动态语料库。
Longman语料库
Longman语料库(Langman Corpus),该库从地域上讲,跨越了英国、美国及其他国家。
此外,还包括Lourvain本土英语论文语料库(Louvain Corpus of Native English Essays);英国国家语料库(British National Corpus);COLT语料库(Bergen Corpus of London Teenage Language);CHRISTINE语料库(CHRISTINE Corpus);FLOB英语语料库(Freiburg-LOB Corpus of British English);国际语料库英国分库(ICE—GB,International Corpus of English,British Component);兰卡斯特大学解析语料库(Lancaster Parsed Corpus);IBM兰卡斯特口语语料库(Lancaster/IBM Spoken English Corpus)等。
澳大利亚英语语料库
容量为100万词次,以LOB语料库和BROWN语料库为蓝本,收集了书面和口头英语。该库没有进行标注。
东非英语语料库
国际英语语料库东非分库(ICE—EA,International Corpus of English,East African Component)容量为100万词次。该库收集的是肯尼亚和坦桑尼亚两个国家的书面和口头英语。
印第安英语语料库
国际语料库印第安英语分库
国际语料库印第安英语分库(ICE—IC,International Corpus of English,Indian Component)容量为100万词次,收集书面和口头印第安英语。该库进行了文本组成、话语、词性和句法标注。
Kolhapur语料库
Kolhapur语料库(Kolhapur Corpus)容量为100万词次,以BROWN和LOB语料库为蓝本收集的书面英语,大约有500个文本。
新西兰英语语料库
国际英语语料库新西兰分库
国际英语语料库新西兰分库(ICENZC,International Corpus of English,New ZealandComponent)容量为100万词次,收集的是新西兰书面和口头英语。该库进行了文本、话语、词性和句法标注。
Wellington语料库
Wellington语料库(Wellington Corpus)容量为100万词次,总共有500个没有标注的文本,以BROWN和LOB语料库为蓝本收集的书面英语。
Wellington新西兰口语语料库
Wellington新西兰口语语料库(Wellington Corpus of Spoken New Zealand English)容量为100万词次,有500个文本。收集的是正式、半正式和非正式口语语料,并进行了话语标注。
菲律宾英语语料库
国际英语语料库菲律宾分库(ICE-PC International Corpus of English,Philippine Component)容量为100万词次,收集的是菲律宾书面和口头英语。该库进行了文本、话语、词性和句法标注。
新加坡英语语料库
国际英语语料库新加坡分库(ICE-IP,International Corpus of English,Indian Component)容量为100万词次,收集的是新加坡书面和口头英语。该库进行了文本、话语、词性和句法标注。
英语混合语语料库
VOICE语料库
VOICE语料库(Vienna Oxford International Corpus of English)容量为25万词次,并且正在扩充中收集的是英语口语、英语作为混合语的交流、大量没有文本的英语学习者之间的交流。
ELFA语料库
ELFA语料库(English as a Lingua Franca in Academic Settings),容量为50万词次。内容为口头学术英语。
英语历史语料库
ARCHER语料库
ARCHER语料库(A Representative Corpus of Historical English Registers)容量为170万词次。该库有1,037个文本,涉及10个领域,包括英国英语和美国英语,并进行了词性标注。
CEECS语料库
CEECS语料库(Corpus of Early English Correspondence Sampler)容量为45万词次。内容为个人书信。
Lampeter早期现代英语语料库
Lampeter早期现代英语语料库(Lampeter Corpus of Early Modern English Tracts)容量为110万词次。该库收集的是非文学散文文本,并进行了文本标注。
(转自微信公众号“语言资源高精尖创新中心”,2016-11-17)