MNBVC超大规模中文语料集

项目地址：https://github.com/esbatmop/MNBVC

项目概述

MNBVC项目是一个雄心勃勃的计划，旨在创建一个超大规模的中文语料库，名为“Massive Never-ending BT Vast Chinese corpus”。该项目于2023年1月1日由MOP里屋社区发起，致力于收集和整理海量的中文文本数据。

数据规模宏大: MNBVC的目标是收集高达253T的数据，远超当前许多主流语料库的规模。目前项目已经完成了23.5%，数据量达到了59685GB。
内容包罗万象: 该语料库不仅收录了新闻、小说、论文等常见文本，还涵盖了帖子、聊天记录、歌词、商品介绍等各种形式的中文数据，甚至包括了小众文化和网络用语。
数据来源广泛: 所有数据均来自互联网，并通过脱敏处理，确保了数据的安全性和隐私性。

其中，我曾经负责多模态语料的收集。

Share on

Bluesky Facebook LinkedIn X (formerly Twitter)