共翁号
共翁号 > 知识 > 语料库有哪些

语料库有哪些

原创2025-06-21 00:27:38

语料库是用于自然语言处理(NLP)研究的大型文本数据库,它们包含了大量的文本数据,通常经过标注和处理,以便于进行语言学研究、文本分析、机器翻译等任务。以下是一些常见的语料库:

英语语料库

杨伯翰大学语料库(English-corpora.org)

容量:3.6亿词汇

时间范围:1990年至2007年

内容:美国当代英语语料、美国历史英语语料等

当代美国英语语料库(COCA)

容量:4.5亿词

内容:口语、小说、流行杂志、报纸、学术文章

美国国家语料库(ANC)

容量:2200万美式英语的口语和书面语词汇

英国国家语料库(BNC)

容量:约1亿字

内容:报纸、期刊、小说、书籍等

中文语料库

BCC现代汉语语料库(http://bcc.blcu.edu.cn/)

内容:报刊、文学、微博、科技、综合和古汉语等多领域语料

北京大学CCL语料库

内容:现代汉语语料、古代汉语语料

通用单语语料库

国家语委现代汉语通用平衡语料库(http://www.aihanyu.org/cncorpus/index.aspx)

容量:约1亿字

时间跨度:1919-2002年

北京语言大学语料库中心BCC语料库(http://bcc.blcu.edu.cn/)

容量:约150亿字

清华TH语料库(http://www.openslr.org/18)

其他语料库

WebCorp(http://www.webcorp.org.uk/)

中国哲学书电子化计划(http://ctext.org/zhs)

中文自然语言处理开放平台(http://www.nlp.org.cn/docs/doclist.php)

双语和多语语料库

平行语料库(https://en.lingguee.com)

OpenSubtitles Corpus(多语言平行语料数据)

《圣经》双语语料库("Bible" bilingual corpus)

短消息服务(SMS)语料库(Short messages service (SMS) corpus)

这些语料库为语言学家、研究人员和开发者提供了宝贵的资源,以支持他们的研究和开发工作。您可以根据您的具体需求选择合适的语料库进行使用

返回:知识

相关阅读

    最新文章
    猜您喜欢
    热门阅读