⭐ [ACL 2023] Solving Math Word Problems via Cooperative Reasoning induced Language Models

Published in ACL, 2023

关键词

  • 数学应用题 / Math Word Problems
  • 协同推理 / Cooperative Reasoning (CoRe)
  • 系统 1 & 系统 2 / System 1 & System 2
  • 生成器与验证器 / Generator & Verifier
  • 一步级反馈 / Stepwise Feedback
  • 零样本与微调 / Zero-shot & Fine-tuning

Arxiv地址:https://arxiv.org/abs/2210.16257

ACL 2023: https://aclanthology.org/2023.acl-long.245/

背景

  1. 任务目标:解决数学应用题(MWPs),即从自然语言题干推导出数学表达式并计算答案。
  2. 挑战:尽管大型语言模型(PLMs)具备生成能力,但缺少路径级推理监督,导致答案缺乏一致性和准确性。
  3. 启发:受认知科学双系统理论启示,将人类思维分为直觉系统(System 1)和深思系统(System 2),并探索其在模型中的结合。

方法

  1. CoRe 框架设计
    • Generator(系统 1):用于生成多种推理路径或候选解。
    • Verifier(系统 2):包括标记级和句子级验证器,对生成路径进行评估并给出反馈,引导生成器改进。
  2. 路径级监督机制
    • 在生成过程中引入反馈循环,不仅检验最终答案,还对每一步进行评价和校正。
  3. 蒙特卡洛树搜索(MCTS)辅助
    • 把生成过程视为树搜索:生成节点候选,验证器评分引导树中优质路径被探索和扩展。
  4. 自反馈机制(Self-thinking)
    • 利用已有生成-验证交互数据,进一步训练模型,提高推理深度和鲁棒性。

实验设计

  1. 基准数据集
    • 在 MultiArith、GSM8K、Math23K 等多个数学题目集上评价。
  2. 评估设置
    • 包括零样本(zero-shot)与微调(fine-tuning)两种情景。
    • 与传统 Chain‑of‑Thought、零样本 CoT 等方法进行对比。
  3. 实施流程
    • Generator 先生成多个路径;Verifier 为每条路径打分;基于打分,通过 MCTS 选择和完善路径;最终输出答案。
    • 使用自思考策略收集伪路径数据,持续训练模型。

推理可视化:

结果

  1. 性能显著提升
    • 在 MultiArith 数据集上的性能提升达约9.6%,超过当前最先进的基线方法。
  2. 泛化能力增强
    • CoRe 在零样本条件下即表现优异,表明具有较好的推理迁移能力。
  3. 路径质量与答案一致性
    • 路径级反馈确保生成推理更符合逻辑,也提升最终答案的准确率。
  4. 自反馈机制有效
    • 利用自生成路径进一步训练,模型推理效果持续改进。

总结

  • 核心贡献
    • 建立了一个模仿人类思维机制的协同推理结构,将生成与验证组合引入路径级反馈。
    • 利用生成-验证循环与 MCTS,显著提升数学题解答的准确率和逻辑可靠性。
  • 创新点
    • 第一个将双系统(System 1 & 2)协同工作,用于数学推理的 PLM 架构。
    • 自反馈机制(Self-thinking)为少量数据场景提供增强策略。
  • 未来方向
    • 探索更高效的验证机制,更复杂题型的应用,以及部署在更大模型上的扩展潜力。