⭐ [ACL 2023] Solving Math Word Problems via Cooperative Reasoning induced Language Models

Published in ACL, 2023

关键词

数学应用题 / Math Word Problems
协同推理 / Cooperative Reasoning (CoRe)
系统 1 & 系统 2 / System 1 & System 2
生成器与验证器 / Generator & Verifier
一步级反馈 / Stepwise Feedback
零样本与微调 / Zero-shot & Fine-tuning

Arxiv地址：https://arxiv.org/abs/2210.16257

ACL 2023: https://aclanthology.org/2023.acl-long.245/

背景

任务目标：解决数学应用题（MWPs），即从自然语言题干推导出数学表达式并计算答案。
挑战：尽管大型语言模型（PLMs）具备生成能力，但缺少路径级推理监督，导致答案缺乏一致性和准确性。
启发：受认知科学双系统理论启示，将人类思维分为直觉系统（System 1）和深思系统（System 2），并探索其在模型中的结合。

方法

CoRe 框架设计
- Generator（系统 1）：用于生成多种推理路径或候选解。
- Verifier（系统 2）：包括标记级和句子级验证器，对生成路径进行评估并给出反馈，引导生成器改进。
路径级监督机制
- 在生成过程中引入反馈循环，不仅检验最终答案，还对每一步进行评价和校正。
蒙特卡洛树搜索（MCTS）辅助
- 把生成过程视为树搜索：生成节点候选，验证器评分引导树中优质路径被探索和扩展。
自反馈机制（Self-thinking）
- 利用已有生成-验证交互数据，进一步训练模型，提高推理深度和鲁棒性。

实验设计

基准数据集
- 在 MultiArith、GSM8K、Math23K 等多个数学题目集上评价。
评估设置
- 包括零样本（zero-shot）与微调（fine-tuning）两种情景。
- 与传统 Chain‑of‑Thought、零样本 CoT 等方法进行对比。
实施流程
- Generator 先生成多个路径；Verifier 为每条路径打分；基于打分，通过 MCTS 选择和完善路径；最终输出答案。
- 使用自思考策略收集伪路径数据，持续训练模型。

推理可视化：

结果

性能显著提升
- 在 MultiArith 数据集上的性能提升达约9.6%，超过当前最先进的基线方法。
泛化能力增强
- CoRe 在零样本条件下即表现优异，表明具有较好的推理迁移能力。
路径质量与答案一致性
- 路径级反馈确保生成推理更符合逻辑，也提升最终答案的准确率。
自反馈机制有效
- 利用自生成路径进一步训练，模型推理效果持续改进。

总结

核心贡献
- 建立了一个模仿人类思维机制的协同推理结构，将生成与验证组合引入路径级反馈。
- 利用生成-验证循环与 MCTS，显著提升数学题解答的准确率和逻辑可靠性。
创新点
- 第一个将双系统（System 1 & 2）协同工作，用于数学推理的 PLM 架构。
- 自反馈机制（Self-thinking）为少量数据场景提供增强策略。
未来方向
- 探索更高效的验证机制，更复杂题型的应用，以及部署在更大模型上的扩展潜力。

Share on

Bluesky Facebook LinkedIn X (formerly Twitter)