智能AI morning

大模型智商在线,为何“情”商掉线?

2026-05-08 1 阅读 微软研究院AI
(本文阅读时间:10分钟) 如今的大语言模型早已在数学领域展现出令人惊叹的实力,在 AIME 美国数学邀请赛、IMO 国际数学奥林匹克竞赛等高难度抽象数学竞赛中,多款主流模型都能交出近乎满分的答卷。这一表现也成为大模型推理能力持续突破的亮眼标签。 但是,这些在抽象数学题中所向披靡的“学霸”,面对藏在现实场景中的数学问题时却频频失手,抽象解题能力始终无法转化为可靠的现实应用能力,形成了巨大的性能落差。比如模型能精准解出抽象的数字三元组计算问题,可当这些数字对应成无人机飞行步数、智能能源系统的组件参数,仅为数学逻辑披上一层现实叙事的“马甲”后,其解题准确率便大幅下降。 针对这一问题,微软亚洲研究院联合香港中文大学等多所高校展开系统性探索,推出了 ContextMATH 情境化数学推理基准测试集 ,通过对 61 款主流大模型的全面测试,揭示了大模型在抽象与情境化数学推理之间的能力差距,为大模型的实际应用优化提供了关键科学依据。 相关论文已被ICLR 2026接收。 点击文末相关链接,了解更多技术详情。 大模型解不了场景化数学题的原因:读不懂题 为了精准找到大模型解不了场景数学题的核心症结,研究员们设计了ContextMATH 基准测试集,将 AIME 和 MATH-500 的抽象数学题目转化为两种贴合实际应用场景的题目,以探究模型在情境化场景挑战下的数学问题提炼和推理能力。 第一种是 情境化重构(SG) 。其主要思路是保持原题的数学难度和逻辑结构不变,但将所有抽象的数学元素,如变量、方程嵌入到一个真实可信的叙事场景中。例如,原本的方程 x+y=10 被改写为“油罐A中的原油量与油桶B中的原油量之和为10”。这种改写不增加任何新的数学推理步骤,仅仅是改变了问题的表述形式。其目的是测试模型是否能在无关的上下文细节干扰下,准确识别出背后的数学骨架。 第二种是 复杂度扩展(CS)场景 。这类题目会将原本直接给出的显性数学条件,隐藏为需要先推导的子问题,模拟现实中人们解决问题时需要先搜集信息、推导条件再解题的真实场景。例如,问题不会直接告诉模型“有25盏灯”,而是描述为“指示灯的唯一两两组合数恰好为 300”。模型必须先解决这个隐含的计数子问题,才能得到关键的“25”这个数字。这种设计迫使模型进行分层推理,更贴近工程师或分析师在现实中必须经历的信息提炼过程。 图1:ContextMATH示例,基于AIME 2025第15题。在情境化重构中,数学成分被映射到一个叙述中。在复杂度扩展场景中,显式条件被隐藏在子问题中,需要额外的推理步骤。一致的颜色编码突出了三个版本中数学组件之间的对应关系。大语言模型在抽象基准测试中表现依然强劲,但在情境化重构中的准确率有所下降,而在复杂度扩展场景中,这一差距进一步扩大。 基于 ContextMATH 测试集,研究员们对61款具有代表性的开源及闭源大模型进行了评估,涵盖了从数十亿参数到万亿级参数的不同规模。结果显示,所有模型在情境化任务上的表现都出现了显著下滑。平均而言,开源模型在情境化重构任务上的准确率下降了13%,而在复杂性扩展任务上更是下降了34%。即便参数量达 1.8 万亿的 GPT-5,在 2025 年 AIME 的复杂性缩放题中,准确率也下滑了 26%。 表 1 :模型在 ContextMATH 上的准确率。每列中最佳和次佳结果分别以粗体和下划线标出。括号中的数值表示相对于 Ori 的相对性能变化,降幅越大,红色颜色越深。为验证发现具有一致性,而非特定场景下的伪现象,研究员们额外生成了两个 AIME 2024 SG 数据集并进行了标注,并在 SG Avg@3 列中报告了这三个数据集的平均准确率。 通过对所有失败案例的深度拆解分析,研究员们发现模型 出现错误的原因有四种 :提炼错误(从叙事到数学的映射错误)、计算错误、逻辑错误和其他错误(如截断、重复)。 其中约80%的解题错误都源于“问题提炼出错” ,也就是大模型无法从复杂的场景描述中,准确提取出背后的核心数学逻辑。比如将“齿轮的旋转周期可调节,但每分钟旋转次数不得超过 6 次”,对应不等式 x≥10(x 为每次旋转的秒数),从解题的第一步就偏离了正确方向。 图2: 在 AIME 2024/2025 数学竞赛题中,各类错误在失分案例中的分布情况, 其中比率表示出现每种错误类型的案例所占的比例。 这场测试揭示了一个事实,即 当前大语言模型在抽象数学推理与情境化数学推理之间,存在显著且难以消除的能力差距,抽象解题的高水准并不能转化为情境化解题的可靠性。 场景数学能力不能“分而治之”,要“融会贯通” 面对场景化的数学问题,大模型究竟是数学计算能力不足,还是对题目的理解能力存在短板?研究员们通过对模型错误类型的系统性拆解,给出了明确的答案: 大模型并非不会计算,