MNBVC超大规模中文语料集

GitHub stars 项目地址:https://github.com/esbatmop/MNBVC

项目概述

MNBVC项目是一个雄心勃勃的计划,旨在创建一个超大规模的中文语料库,名为“Massive Never-ending BT Vast Chinese corpus”。该项目于2023年1月1日由MOP里屋社区发起,致力于收集和整理海量的中文文本数据。

  • 数据规模宏大: MNBVC的目标是收集高达253T的数据,远超当前许多主流语料库的规模。目前项目已经完成了23.5%,数据量达到了59685GB。
  • 内容包罗万象: 该语料库不仅收录了新闻、小说、论文等常见文本,还涵盖了帖子、聊天记录、歌词、商品介绍等各种形式的中文数据,甚至包括了小众文化和网络用语。
  • 数据来源广泛: 所有数据均来自互联网,并通过脱敏处理,确保了数据的安全性和隐私性。

其中,我曾经负责多模态语料的收集。