开发者生态
morning
阿里发布新一代千问旗舰模型Qwen3.7-Max,登顶最佳国产模型
2026-05-21
1 阅读
李文朋
撰稿:150克 大模型进入高速迭代的第三年,行业关注的重点正在发生变化。 过去,外界衡量一家大模型厂商的能力,主要看参数规模、基准测试成绩、盲测榜单排名,以及模型在开放对话中的表现。这些指标仍然重要,但已经不足以回答一个更现实的问题:模型能否真正进入工作流程,稳定调用工具,处理复杂任务,并带来实际效率提升。 5 月 20 日,阿里巴巴发布新一代千问旗舰模型 Qwen3.7-Max。 单看这次发布,它像是千问的一次模型升级。但放在过去几个月的产品演进中看,方向就比较清楚:千问 3.x 系列持续强化编程、长上下文、工具调用、跨框架兼容和长程任务处理能力。这些能力指向同一个变化——模型正在从回答问题,走向执行任务。 这也反映出阿里对大模型竞争的未来判断。下一阶段,模型不应只停留在对话和内容生成上,而需要进入研发、办公、数据分析、客户服务、企业运营等具体场景,理解需求、拆解步骤、调用工具,并完成更复杂的工作。 因此,Qwen3.7-Max 的发布是阿里把模型、云、MaaS、开发者工具和真实业务场景连接起来,参与 Agent 时代竞争的一个重要节点。 一、三个月三次迭代,千问位列国产模型第一 大模型行业的竞争周期正在缩短。 过去,重要模型版本通常半年或一年发布一次。如今,模型更新频率明显提高。厂商需要更快吸收评测反馈、用户调用数据、真实业务需求和工程优化结果,并把这些反馈转化为下一轮训练和产品迭代。 千问正在成为这一趋势中的“领跑者”。 近三个月内,千问旗舰模型连续迭代 Qwen3.5、Qwen3.6、Qwen3.7 三个版本。从 3 月 20 日 Qwen3.5-Max-Preview 亮相,到 4 月 20 日 Qwen3.6-Max-Preview 发布,再到 5 月 20 日 Qwen3.7-Max 发布,千问保持了稳定的月度更新节奏。这样的迭代速度,即便放在全球大模型厂商中,也并不常见。 与此同时,开源模型也在扩大千问的影响力。Qwen3.6-27B、Qwen3.6-35B-A3B 等模型在开源社区获得较多关注,被视为适合本地部署和二次开发的代表。 不过,千问近期最重要的变化,并不只是更新更快,而是方向更集中。 过去,大模型发布往往围绕参数规模、综合榜单和推理能力展开。到了千问 3.x 系列,这一重点开始更明确地转向 Agent。Qwen3.5 强调“原生多模态智能体”,Qwen3.6-Plus 强调“面向现实世界智能体”,随后发布的多个版本,也都把 Agentic Coding、工具使用和工程任务作为重点。 Qwen3.7-Max 也延续了这一方向。 在第三方机构 Arena 全球大模型盲测总榜中,Qwen3.7-Max 超过 Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1,与 GPT、Claude、Gemini 等最强模型接近,位列国产模型第一。 在通用智能体方面,Qwen3.7-Max 也有明显提升。它在 MCP-Atlas、MCP-Mark、SkillBench 等现实能力测试中表现优异,超过 GLM-5.1、Kimi-K2.6 等模型,创下国产模型新高;在 Kernel Bench L3 上,也展示出较强的 GPU 内核优化能力。 推理能力方面,Qwen3.7-Max 在 GPQA Diamond、HLE、HMMT 2026 Feb、IMOAnswerBench 等核心测评中,均超过 Claude-Opus4.6 及所有国产模型。 通用能力与多语言方面,Qwen3.7-Max 在指令遵循 IFBench 评测中取得 79.1 分,刷新新高;在多语言理解和翻译相关的 WMT24++、MAXIFE 评测中也保持领先。 这些结果说明,千问的模型演进正在围绕 Agent 所需能力展开:更长的上下文、更稳定的工具调用、更强的代码理解能力、更好的多轮任务保持能力,以及更适合规模化部署的推理效率。 也就是说,Qwen3.7-Max 不是一次单纯的“冲榜”,而是千问 Agent 路线上的阶段性结果。 二、编程与长程任务突破背后,千问模型的进化暗线 在 Agent场景中,编程是最早进入高强度竞争的领域。 软件工程天然适合被拆解、执行、验证和迭代。一个 CodingAgent不只是生成代码,还要理解需求、阅读代码仓库、修改文件、运行命令、查看日志、定位错误,并根据反馈继续修复。 这正好对应 Agent的核心能力:规划任务、调用工具、执行步骤、检查结果和自我纠错。 因此,千问最近几代模型都在持续强化编程能力。 最新发布的 Qwen3.7-Max 在编程智能体能力上继续突破。在 SWE-Pro、SWE-Multilingual、Terminal Bench 2.0-Terminus、SWE-bench 系列及 SciCode 等测评中,Qwen3.7-Max 表现领先,较 Qwen3.6-Plus 大幅提升,并超过 DeepSeek-v4-pro-Max、Claude-Opus4.6、Kimi-K2.6 等模型。 这代表了编程模型竞争的变化。单纯生成代码的价值正在下降。更重要的是理解复杂代码仓库、自主调用工具、运行测试、修复错误,并在多轮反馈中持续调整。模型正在从“代码助手”向“虚拟工程师”演进。 在我的实际测试中,Qwen3.7-Max 也体现出这种变化。 我使用 Cursor、Cline,并通过 OpenAI Compatible 协议接入千问最新模型 API,向模型提出了一个完整网页开发任务: 制作一个名为“Hacker News 热门项目追踪页”的网页,抓取 Hacker News 的 Top、Show、Ask 内容,每日更新,并给出推荐分析,判断技术媒体当天应关注哪些在开发者社区中热议的话题或项目。推荐维度包括讨论热度、技术前沿度、创业信号、开发者关注度,以及话题本身的传播潜力。 在这项任务中,Qwen3.7-Max 一次性完成了较成熟的交付物,推理速度也很快,在一分钟内完成结果。 此前多款模型在同类任务中曾出现失败,而此次测试中,Qwen3.7-Max 的完成度接近 Claude Code,也较 Qwen3.6 系列在一次成型概率和最终效果上有明显提升。 阿里内部的一个长程任务测试,也体现了这一方向。 在测试中,千问 3.7被放到一个此前没有接触过的新硬件平台——平头哥真武M890上,任务是优化一个生产级注意力内核算子。模型没有现成性能profile,没有硬件文档,也没有示例实现,只拿到了任务描述、SGLang+Triton参考代码和评测脚本。 在这一环境中,模型连续工作 35小时,执行数百次内核评估和上千次工具调用,完成代码编写、编译、性能分析和迭代优化流程。最终,内核速度在参考实现基础上提升了一个数量级。 更值得注意的是,在连续运行 30 小时后,模型仍能发现新的优化空间,这说明它不是在完成一次简单指令,而是在较长时间内保持目标、分析反馈并调整路径。 这个案例说明了 Agent的一个关键方向:当大模型具备较强的推理、编程和工具调用能力,并被放入真实工程环境中,它有机会承担过去需要专业工程师长时间推进的复杂任务。 ClaudeCode、Codex、QwenCode等产