最大的开源的交错图文对数据集：PIN

📘 项目概述

PIN（Paired and INterleaved multimodal documents）是一种新颖的多模态数据集格式，旨在提升大型多模态模型（LMM）在知识密集场景下的感知与推理表现。

它基于三个核心设计原则：

包含约 1,410 万 样本，涵盖中文与英文内容，共计约 7.33B token。
覆盖多样子集，如 PG19、OBELICS、MMC4、DocLayNet、LeetCode、Linux-CN、PIN-PMC 等，提供 markdown 文本、content 图与 overall 整体图。
附带“质量信号”（quality signals），便于研究者根据质量筛选样本。
Hugging Face 地址：PIN-14M 数据集

以子集为例展示 PIN 的处理流程：

PIN‑arXiv（科学论文）：
- 收集 PDF + source code → 使用 Engrafo 转 HTML，再转换 markdown。
- 使用 parser 恢复图像、表格等视觉信息。
- 将每页 PDF 转为 overall 图像，最终生成 markdown + 整体图的 PIN 样本。
- 生成超百万规模数据。
PIN‑PMC（医学文献）：
- 从 XML 提取结构化内容、图表及参考。
- 合并为 markdown + 对应整体图。
其他来源如 DocLayNet、Linux-CN、chinese-markdown、OBELICS、Web 页面，均采用类似流程：markdown 渲染 → 截图 → 配对生成 PIN 格式样本。