MindLoom：构建前沿级推理数据合成的思维模式

arXiv:2605.21630v1 发布类型：新摘要：虽然法学硕士在推理方面取得了实质性进展，但系统地生成前沿级推理数据仍然很困难。现有的综合方法通常对控制问题难度的结构因素的可见性有限，这可能导致多样性狭窄和难度控制不稳定。在这项工作中，我们将推理问题的难度视为源于原子知识推理转换的积累，我们将其称为思维模式。基于这个观点，我们提出了MindLoom，一个通过组合思维模式工程合成前沿推理数据的框架。给定一系列经过验证的解决方案的难题，MindLoom 首先将这些解决方案分解为思维模式链，揭示每个问题的构造逻辑。然后，它训练一个检索模型，将问题状态与兼容的思维模式相匹配，为在综合过程中引入哪些推理挑战提供指导。新问题是通过迭代地将检索到的思维模式应用于种子问题来组成的，并通过分布对齐采样来鼓励多样化的推理覆盖。最后，基于推出的判断阶段标签根据难度生成问题，并为监督微调提供判断正确的答案。我们根据涵盖五个 STEM 学科和跨多个模型系列和规模的四个数学推理任务的九个基准对 MindLoom 进行评估。在 MindLoom 生成的数据上进行微调的模型在报告的基准中比基本模型、蒸馏和外部数据基线取得了良好的性能。消融研究表明了每个组件的贡献，进一步的分析表明 MindLoom 涵盖了广泛的推理模式，同时保持了有用的难度控制。我们已在 https://github.com/EachSheep/MindLoom 上开源了我们的实现。

订阅66必读