语料库是用于自然语言处理(NLP)研究的大型文本数据库,它们包含了大量的文本数据,通常经过标注和处理,以便于进行语言学研究、文本分析、机器翻译等任务。以下是一些常见的语料库:
英语语料库
杨伯翰大学语料库(English-corpora.org)
容量:3.6亿词汇
时间范围:1990年至2007年
内容:美国当代英语语料、美国历史英语语料等
当代美国英语语料库(COCA)
容量:4.5亿词
内容:口语、小说、流行杂志、报纸、学术文章
美国国家语料库(ANC)
容量:2200万美式英语的口语和书面语词汇
英国国家语料库(BNC)
容量:约1亿字
内容:报纸、期刊、小说、书籍等
中文语料库
BCC现代汉语语料库(http://bcc.blcu.edu.cn/)
内容:报刊、文学、微博、科技、综合和古汉语等多领域语料
北京大学CCL语料库
内容:现代汉语语料、古代汉语语料
通用单语语料库
国家语委现代汉语通用平衡语料库(http://www.aihanyu.org/cncorpus/index.aspx)
容量:约1亿字
时间跨度:1919-2002年
北京语言大学语料库中心BCC语料库(http://bcc.blcu.edu.cn/)
容量:约150亿字
清华TH语料库(http://www.openslr.org/18)
其他语料库
WebCorp(http://www.webcorp.org.uk/)
中国哲学书电子化计划(http://ctext.org/zhs)
中文自然语言处理开放平台(http://www.nlp.org.cn/docs/doclist.php)
双语和多语语料库
平行语料库(https://en.lingguee.com)
OpenSubtitles Corpus(多语言平行语料数据)
《圣经》双语语料库("Bible" bilingual corpus)
短消息服务(SMS)语料库(Short messages service (SMS) corpus)
这些语料库为语言学家、研究人员和开发者提供了宝贵的资源,以支持他们的研究和开发工作。您可以根据您的具体需求选择合适的语料库进行使用