大模型智商在线，为何“情”商掉线?

（本文阅读时间：10分钟）如今的大语言模型早已在数学领域展现出令人惊叹的实力，在 AIME 美国数学邀请赛、IMO 国际数学奥林匹克竞赛等高难度抽象数学竞赛中，多款主流模型都能交出近乎满分的答卷。这一表现也成为大模型推理能力持续突破的亮眼标签。但是，这些在抽象数学题中所向披靡的“学霸”，面对藏在现实场景中的数学问题时却频频失手，抽象解题能力始终无法转化为可靠的现实应用能力，形成了巨大的性能落差。比如模型能精准解出抽象的数字三元组计算问题，可当这些数字对应成无人机飞行步数、智能能源系统的组件参数，仅为数学逻辑披上一层现实叙事的“马甲”后，其解题准确率便大幅下降。针对这一问题，微软亚洲研究院联合香港中文大学等多所高校展开系统性探索，推出了 ContextMATH 情境化数学推理基准测试集，通过对 61 款主流大模型的全面测试，揭示了大模型在抽象与情境化数学推理之间的能力差距，为大模型的实际应用优化提供了关键科学依据。相关论文已被ICLR 2026接收。点击文末相关链接，了解更多技术详情。大模型解不了场景化数学题的原因：读不懂题为了精准找到大模型解不了场景数学题的核心症结，研究员们设计了ContextMATH 基准测试集，将 AIME 和 MATH-500 的抽象数学题目转化为两种贴合实际应用场景的题目，以探究模型在情境化场景挑战下的数学问题提炼和推理能力。第一种是情境化重构（SG）。其主要思路是保持原题的数学难度和逻辑结构不变，但将所有抽象的数学元素，如变量、方程嵌入到一个真实可信的叙事场景中。例如，原本的方程 x+y=10 被改写为“油罐A中的原油量与油桶B中的原油量之和为10”。这种改写不增加任何新的数学推理步骤，仅仅是改变了问题的表述形式。其目的是测试模型是否能在无关的上下文细节干扰下，准确识别出背后的数学骨架。第二种是复杂度扩展（CS）场景。这类题目会将原本直接给出的显性数学条件，隐藏为需要先推导的子问题，模拟现实中人们解决问题时需要先搜集信息、推导条件再解题的真实场景。例如，问题不会直接告诉模型“有25盏灯”，而是描述为“指示灯的唯一两两组合数恰好为 300”。模型必须先解决这个隐含的计数子问题，才能得到关键的“25”这个数字。这种设计迫使模型进行分层推理，更贴近工程师或分析师在现实中必须经历的信息提炼过程。图1：ContextMATH示例，基于AIME 2025第15题。在情境化重构中，数学成分被映射到一个叙述中。在复杂度扩展场景中，显式条件被隐藏在子问题中，需要额外的推理步骤。一致的颜色编码突出了三个版本中数学组件之间的对应关系。大语言模型在抽象基准测试中表现依然强劲，但在情境化重构中的准确率有所下降，而在复杂度扩展场景中，这一差距进一步扩大。基于 ContextMATH 测试集，研究员们对61款具有代表性的开源及闭源大模型进行了评估，涵盖了从数十亿参数到万亿级参数的不同规模。结果显示，所有模型在情境化任务上的表现都出现了显著下滑。平均而言，开源模型在情境化重构任务上的准确率下降了13%，而在复杂性扩展任务上更是下降了34%。即便参数量达 1.8 万亿的 GPT-5，在 2025 年 AIME 的复杂性缩放题中，准确率也下滑了 26%。表 1 ：模型在 ContextMATH 上的准确率。每列中最佳和次佳结果分别以粗体和下划线标出。括号中的数值表示相对于 Ori 的相对性能变化，降幅越大，红色颜色越深。为验证发现具有一致性，而非特定场景下的伪现象，研究员们额外生成了两个 AIME 2024 SG 数据集并进行了标注，并在 SG Avg@3 列中报告了这三个数据集的平均准确率。通过对所有失败案例的深度拆解分析，研究员们发现模型出现错误的原因有四种：提炼错误（从叙事到数学的映射错误）、计算错误、逻辑错误和其他错误（如截断、重复）。其中约80%的解题错误都源于“问题提炼出错” ，也就是大模型无法从复杂的场景描述中，准确提取出背后的核心数学逻辑。比如将“齿轮的旋转周期可调节，但每分钟旋转次数不得超过 6 次”，对应不等式 x≥10（x 为每次旋转的秒数），从解题的第一步就偏离了正确方向。图2：在 AIME 2024/2025 数学竞赛题中，各类错误在失分案例中的分布情况，其中比率表示出现每种错误类型的案例所占的比例。这场测试揭示了一个事实，即当前大语言模型在抽象数学推理与情境化数学推理之间，存在显著且难以消除的能力差距，抽象解题的高水准并不能转化为情境化解题的可靠性。场景数学能力不能“分而治之”，要“融会贯通” 面对场景化的数学问题，大模型究竟是数学计算能力不足，还是对题目的理解能力存在短板？研究员们通过对模型错误类型的系统性拆解，给出了明确的答案：大模型并非不会计算，