⭐🚩 PIN: A Knowledge-Intensive Dataset for Paired and Interleaved Multimodal Documents

Published in Arxiv, 2024

关键词

  • 知识密集 / Knowledge‑intensive
  • 配对与交错 / Paired & Interleaved
  • 多模态文档 / Multimodal Documents
  • 多模态大模型 / Large Multimodal Models (LMMs)
  • 数据集构建 / Dataset Construction
  • PIN‑14M 数据集
  • 可扩展性 / Scalability
  • 图像‑文本对齐 / Image‑Text Alignment

论文地址:https://arxiv.org/abs/2406.13923

背景(Background)

近年来,大型多模态模型(LMMs)在处理复合知识任务时依赖海量数据进行训练,但仍面临视觉理解和推理能力不足的问题。这些模型在解析复杂视觉信息和推断多模态关系时频繁出错。为应对这一挑战,研究者提出了 PIN 数据格式,旨在增强多模态模型在“知识感知”方面的能力。

方法(Method)

论文提出了三大设计原则来驱动 PIN 数据格式的发展:

  1. 知识密集性(Knowledge‑intensive)
    通过结合结构化 markdown 文件与整页图像,保证每个样本包含丰富知识内容。

  2. 可扩展性(Scalability)
    PIN 格式兼容多种数据源,便于在现有数据集上插入转换和扩展。

  3. 多训练策略支持
    该格式适用于多种训练方式:图像-文本对齐(Contrastive Learning)、掩码语言模型(MLM)、跨模态生成等。

数据处理流程

  • 从网页、学术期刊(如 arXiv, PMC)采集原始 PDF/XML 文档,并转换为 markdown 文本和整页图像。
  • 应用工具(pdf2image、s2orc-doc2json)生成页面图像和结构化文本。
  • 进行质量控制,确保图像-文本对应一致,清除噪声内容。

最终生成了PIN-14M,一个包含约 1 400 万样本的中英文多模态数据集。

实验(Experiments)

论文的实验内容主要包括:

  • 数据统计与主题分析:使用主题建模方法(如 LDA)分析数据集的主题分布,揭示样本语义和视觉主题的多样性 :contentReference[oaicite:4]{index=4}。
  • 训练策略探索:提出可用于 PIN-14M 的多种训练策略,包括:
    • 图像–文本对比学习(Contrastive Learning)
    • 图像–文本匹配(ITM)
    • 掩码语言建模(MLM)以及多模态下一标记预测
    • 跨模态插入式序列生成
  • 初步模型训练评估:虽然当前主要作为技术报告披露,仍展示了使用 PIN 格式训练的 LMM 在知识推理和视觉理解任务上的潜力提升。

结果(Results)

  • PIN-14M 数据集在知识密度、内容多样性和中英文覆盖方面表现优异。
  • 作者指出,未来将在性能评估、更多训练范式和数据扩展方面持续推进。