🚩 [ACL 2025] Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective
Published in ACL, 2025
关键词
- 多范式 / Multi-Paradigm
- 数学推理 / Mathematical Reasoning
- 大语言模型 / Large Language Model (LLM)
- 逐步训练 / Progressive Paradigm Training (PPT)
- 自然语言推理 / Natural Language Reasoning (NLR)
- 算法推理 / Algorithmic Reasoning (AR)
- 符号推理 / Symbolic Reasoning (SR)
- 零样本泛化 / Zero-shot Generalization
Arxiv地址:https://arxiv.org/abs/2501.11110
背景
随着大语言模型(LLM)在数学推理任务上的快速发展,当前的模型通常专注于单一推理范式(如自然语言、代码、或符号推理),导致它们在不同类型的数学任务中表现不均衡。例如,某些模型擅长自然语言推理,但在定理证明等需要符号推理的任务中表现较差,反之亦然。这种“单一范式”的方法不仅限制了模型在各自任务上的上限,也影响了跨任务、跨范式的泛化能力。
为了解决这一挑战,作者提出了“Chain-of-Reasoning(CoR)”框架,通过集成自然语言推理(NLR)、算法推理(AR)和符号推理(SR)三大范式,实现协同推理,提升模型在复杂数学问题上的综合推理能力和泛化能力。
方法
CoR 框架的核心思路与创新:
- 多范式协同推理:
- CoR 不再局限于单一推理方式,而是允许模型在同一问题上依次使用 NLR、AR、SR 等多种推理路径,各自独立生成候选解答后,最后再综合归纳为最终答案。
- 通过在推理过程中动态切换不同范式,实现多视角、多工具的互补,提高推理的全面性和准确性。
- 逐步范式训练(Progressive Paradigm Training, PPT):
- 训练过程中,模型先学会用自然语言解决问题,再逐步引入算法和符号推理的能力,最终综合三者,提升对多种推理范式的掌握和融合能力。
- 训练数据采用作者自构建的大规模多范式数学推理数据集(MPM),涵盖 16.7 万条推理路径。
- 推理与采样机制:
- 零样本推理阶段,模型根据任务需求调整推理深度与范式切换顺序。
- 引入“顺序多范式采样(Sequential Multi-Paradigm Sampling, SMPS)”,通过在不同范式间采样推理路径,极大丰富了解题思路和输出的多样性。
讨论
我们认为大语言模型(LLM)推理过程的层级结构,分为三个主要层次:推理范式(Paradigms)、推理路径(Paths)、推理步骤(Steps),以及单一与多范式推理的结构对比。
- (a) 单一范式推理(Single-Paradigm Reasoning)
展示在同一推理范式下(如仅自然语言、仅代码、仅符号)的多路径推理过程。- 宽度(width):指不同推理路径的数量。通过采样、打分等方式生成多个独立推理路径(如 Random Sampling、Monte Carlo Search),然后用 Best-of-N、Self-consistency 等整合策略汇总答案。
- 深度(depth):指单一推理路径中推理步骤的数量,如 Chain-of-Thought(CoT)方法通过增加中间步骤提升推理表现。
(b) 单一范式推理示例
给出了一个具体推理路径及其步骤,比如将数值近似后乘积计算,每一步作为一个推理步骤,最终获得答案。- (c) 多范式推理(Multi-Paradigm Reasoning, CoR)
展示多个不同推理范式(NLR:自然语言推理,AR:算法推理,SR:符号推理)协同工作的场景。模型可以在同一问题上串联使用多种推理方式,每种范式独立产出推理路径,再综合得出最终答案。这突破了“仅在单一知识媒介内推理”的限制,大大扩展了解题的空间和能力。
核心要点:
- LLM 推理具备层级性:推理步骤 → 路径 → 范式。
- 传统研究聚焦于单一范式内的宽度或深度优化,而 CoR 首次实现多范式的协同推理。
- 多范式推理允许模型跨多种知识表达方式协作完成复杂任务,提高了泛化能力和表现上限。
下图对比了当前主流研究中的不同推理方法,重点突出了多范式推理 CoR 的创新之处。该图分为三部分:
(a) 深度推理(Deep Reasoning)
代表如 OpenAI o1 等工作,专注于在同一推理路径内进行串联推理,通过不断延长推理步骤(depth),最终用摘要模块整合答案。这类方法强调推理链条的深入和详细性,能提升单一路径的推理表现。- (b) 交错推理(Interleaved Reasoning)
如 ToRA、InternLM2.5-StepProver 等,主导范式是自然语言,但中间引入代码生成、执行,或用自然语言辅助符号推理。典型流程为自然语言→代码→自然语言、自然语言→符号→自然语言等。- 这类方法虽然有多种知识媒介的融合,但主导范式可独立完成推理,辅助范式只是起到补充作用。因此仍属于单一范式增强型,而非真正意义上的多范式协同推理。
- (c) 多范式推理(Multi-Paradigm Reasoning, CoR)
强调多种推理范式之间的顺序依赖和协同作用。例如,自然语言推理结果作为输入进一步传递给符号推理或算法推理。每个范式的输出不仅影响后续步骤,还为全局推理提供了基础信息。这一模式使模型具备更高效的推理能力和更强的泛化能力,是测试时扩展推理规模的新方向。
创新意义与优势:
- CoR 不只是“多一步推理”或“多一种工具”,而是多范式的联动、串联,每一范式的结果对下一个范式提供基础和指引。
- 多范式推理不仅拓展了解题空间,还提升了搜索与优化的多样性和深度,为复杂问题的高效求解提供了新的思路。
实验
实验设置:
- 数据集:
- 算术推理:GSM8K、MATH、AMC2023、AIME2024
- 定理证明:miniF2F(奥赛级难度)
- 模型训练:
- 基于 DeepSeekMath-Base-7B 和 Llama-3.1-8B 进行微调。
- 按照 PPT 方法,分阶段逐步扩展范式(NLR → NLR+AR → NLR+AR+SR)。
- 评测指标:
- 主指标为准确率(Accuracy)。对于定理证明,采用 pass@N 评估不同采样次数下的正确率。
- 对比基线:
- 泛用数学模型:如 GPT-4、Llama-3、InternLM2-Math、MetaMath 等。
- 专家模型:如 DeepSeek-Prover、WizardMath、ToRA 等。
结果
主要结果总结:
- 综合性能提升显著:
- CoR-Math-7B 在五个主流基准上全面超越当前 SOTA,特别是在零样本设定下效果突出。
- 定理证明任务 miniF2F 上,零样本准确率比 GPT-4o 提升 41.0%,超越所有 few-shot 专家模型。
- 算术任务 MATH 上,较强基线(如 RL-based 方法)提升高达 15%。
- 资源利用与泛化:
- 在数据量相近条件下,CoR-Math-7B 的表现突破了“单范式方法”的最优表现曲线,展示了更优的效率与能力。
- 逐步训练(PPT)有效促进了模型对多种范式的逐步掌握和协同提升。
- 消融实验与机制验证:
- 多范式协同推理相比单一范式微调,带来了显著的跨任务、跨难度提升。
- 推理范式顺序也影响最终效果,例如先符号后算法推理比反之更优。
总结
本论文提出的 Chain-of-Reasoning(CoR)是面向大语言模型数学推理的新一代统一框架,通过集成自然语言、算法、符号三种推理范式,实现了在算术、定理证明等多类任务上的协同提升和高效零样本泛化。提出的逐步范式训练策略和多范式数据集,为 LLM 数学推理能力的突破提供了方法论和实践样例。实验证明,该方法显著超越目前主流开源与专有模型,为今后智能体多范式推理研究与应用奠定了坚实基础。