语料库有哪些

语料库是用于自然语言处理（NLP）研究的大型文本数据库，它们包含了大量的文本数据，通常经过标注和处理，以便于进行语言学研究、文本分析、机器翻译等任务。以下是一些常见的语料库：

英语语料库

杨伯翰大学语料库（English-corpora.org）

容量：3.6亿词汇

时间范围：1990年至2007年

内容：美国当代英语语料、美国历史英语语料等

当代美国英语语料库（COCA）

容量：4.5亿词

内容：口语、小说、流行杂志、报纸、学术文章

美国国家语料库（ANC）

容量：2200万美式英语的口语和书面语词汇

英国国家语料库（BNC）

容量：约1亿字

内容：报纸、期刊、小说、书籍等

中文语料库

BCC现代汉语语料库（http://bcc.blcu.edu.cn/）

内容：报刊、文学、微博、科技、综合和古汉语等多领域语料

北京大学CCL语料库

内容：现代汉语语料、古代汉语语料

通用单语语料库

国家语委现代汉语通用平衡语料库（http://www.aihanyu.org/cncorpus/index.aspx）

容量：约1亿字

时间跨度：1919-2002年

北京语言大学语料库中心BCC语料库（http://bcc.blcu.edu.cn/）

容量：约150亿字

清华TH语料库（http://www.openslr.org/18）

其他语料库

WebCorp（http://www.webcorp.org.uk/）

中国哲学书电子化计划（http://ctext.org/zhs）

中文自然语言处理开放平台（http://www.nlp.org.cn/docs/doclist.php）

双语和多语语料库

平行语料库（https://en.lingguee.com）

OpenSubtitles Corpus（多语言平行语料数据）

《圣经》双语语料库（"Bible" bilingual corpus）

短消息服务（SMS）语料库（Short messages service （SMS） corpus）

这些语料库为语言学家、研究人员和开发者提供了宝贵的资源，以支持他们的研究和开发工作。您可以根据您的具体需求选择合适的语料库进行使用

返回：知识