Thanks to visit codestin.com
Credit goes to github.com

Skip to content

Latest commit

 

History

History
12 lines (9 loc) · 652 Bytes

File metadata and controls

12 lines (9 loc) · 652 Bytes

CLUECorpus2020 语料

名称 文本类型 纯文本大小
CLUECorpus2020 中文 200GB

CLUECorpus2020 过对Common Crawl的中文部分进行语料清洗得到。开源部分提供了约200G左右的语料文本,详细介绍见官网,用户可以通过邮件申请下载,方式如下:

数据下载 申请方式: 将使用语料研究目的和用途,计划、研究机构和申请者介绍,发送到邮箱,并承诺不向第三方提供。

邮箱: [email protected],标题是:CLUECorpus2020 200G语料库