智能AI
evening
AI 能考过计算机等级考试吗?
2026-06-10
1 阅读
微软研究院AI
(本文阅读时间:12 分钟) 如果让今天最强的大模型去参加一场国家计算机等级考试(NCRE),它能拿多少分? 近期,微软亚洲研究院的研究员们把 NCRE 一、二级的 200 道 Word、Excel、PPT 实操题搬到 AI 面前,让 7 个前沿大模型作答,并用官方评分引擎逐条打分。然而,测试结果却与我们的直觉大相径庭:在普通考生普遍能拿满分的考试中,最强单轮模型只考了 36.6 分;即便是配上了能反复执行调试的“编程智能体”,最高也只有 68.8 分。作为对比,社区贡献的标准解答平均能拿到 95.5 分。 这一戏剧性的翻车现场,并非大模型们的偶尔失手,而是一场硬核学术测试带来的真实一幕。这项研究来自微软亚洲研究院的最新成果《Mind the Gap: Can Frontier LLMs Pass a Standardized Office Proficiency Exam?》。研究员们希望借此探寻,AI 浪潮背后,大模型距离真正精通日常办公究竟还有多远? 论文信息已整理于文末,欢迎点击相关链接,了解更多技术详情。 用 NCRE 国家级考试来“卷”AI 作为知识工作者的基础工具,Microsoft Office 的全球用户已超十亿。在日常办公中,一份合格的文档往往需要数十步精确的操作:页边距调整、样式设置、图表生成、动画效果、水印添加……任何一步出错,都可能导致整页排版走样。 然而,在现有的主流大模型基准测试中,Office 办公能力长期被掩盖。这些测试要么只覆盖单一应用,要么用合成任务凑数,甚至直接请另一个大模型来充当评委。为了打破这种局限,研究员们希望引入一场真正的考试和一套真实的评分标准,以此来精准量化 AI 与真人在办公自动化领域的实际差距。 于是,研究员们把目光投向了教育部考试中心组织的标准化考试NCRE(全国计算机等级考试)一、二级 Office 模块。该考试每年报考人数以百万计,广泛应用于就业、公务员招考、考研与职称评定。引入 NCRE 作为测试基准有三大独特优势:题目由专家命制,难度经过严格校准;评分细则机器可读,保证了绝对的客观性;最重要的是,它的尺度与真人完全一致——AI 最终的得分,就是它在官方满分中实打实拿到的分数。 基于这套严苛的标准,研究员们整理出了 200 道极具代表性的题目,其中一级 88 道、二级 112 道,全面覆盖三大核心应用。这些题目被拆解为了 7,118 条可由机器判定的细粒度评分点。这套专为大模型打造的全新办公自动化基准测试,被命名为 OfficeEval。 图 1:OfficeEval 一道 Word 任务的端到端示意。左为原始文档,中为任务指令,右为期望产出,下为 30 条机器评分准则。 表 1:OfficeEval 数据集统计(200 道任务,7,118 条评分点)。 裸考 vs 开机考:七大前沿大模型真实能力起底 为了全面评估 AI 的真实潜力,研究员们设计了两种作答范式。第一种是“单轮代码生成”模式:模型一次性接收任务说明、截图与文件路径,随后直接输出 Python 代码,代码运行完即刻提交,期间没有任何报错反馈,也完全无法重试。 第二种是“编程智能体”模式,以评测更接近人类的实际办公状态:由 Claude Opus 4.7 驱动的 Claude Code 以及由 GPT-5.5 驱动的 Codex可以反复编写代码、运行程序、查看报错、再进行修复。每道题的作答上限长达一小时,且允许它们自由调用 Windows COM 等Office中的技术。 在这场包含“裸考”与“开机考”的双重试炼中,研究员们评测了七个前沿大模型,其中包括闭源的 Claude Opus 4.7、GPT-5.5、Gemini 3.1 Pro,以及开源的 Kimi-K2.6、Qwen3.5-397B-A17B、MiMo-V2.5、Grok-4.1-fast。 在单轮设置下,各模型的表现普遍低迷。Claude Opus 4.7 以 36.6% 的得分率位居榜首,GPT-5.5 以 36.2% 紧随其后,而 Gemini 3.1 Pro 仅获得 16.3% 的分数。在开源阵营中,除 Kimi-K2.6 拿到了接近双位数的成绩外,其余模型均在个位数徘徊。顶尖模型生成的程序也只有约六成能够勉强执行。 表 2:单轮代码生成设置下 7 个模型的成绩。Word/Excel/PPT 列为该应用上 L1+L2 平均得分率;Exec% 为代码可成功执行的题目占比。 当场景切换到允许反复试错的编程智能体模式时,情况有了显著改善。得益于多次迭代与调用 COM 自动化的能力,Codex 的总分为68.8%,比其单轮表现提升了 32.6 个百分点;Claude Code 的得分率也提高到了 53.0%。在多次纠错后,两者的代码执行成功率均达到了 98%–99% 的水准。但即使有智能体形态的外挂加持,AI 的最高成绩也未能触及及格线(70%),距离人类社区贡献的标准答案(95.5%)仍有超过 25 个百分点的差距。这表明,仅赋予大模型“重试”的机会,依然无法从根本上解决它们在复杂办公场景下的无力感。 表 3:单轮基线模式 vs 编程智能体模式。编程智能体可反复执行与修复代码,并能调用 COM 自动化等工具,整体得分率与执行成功率均显著提升。 AI 究竟被哪块“硬骨头”卡住了? 纵观三大办公应用,大模型表现出了明显的“偏科”特征:Excel 最容易,Word 居中,而 PPT 最难。Excel 的任务主要围绕公式、数据和图表展开,相关的参数和逻辑往往直接写在题面上,易于模型捕捉。相比之下,PPT 则是名副其实的“硬骨头”。它要求生成极其精确的内部常量与 XML 属性(例如实现某种特定的“陀螺旋”动画效果)。这些底层的实现知识在题面上从未提及,AI 很难凭借通用经验猜测准确。 从细分的 8 类核心技能来看,大模型的弱点更加明显。其中,动画(Animation)与图形媒体(Graphics & Media)的最高通过率仅为 26.7% 和 29.1%;而在图表(Charts)与数据公式(Data & Formulas)类任务上,通过率则分别达到了 51.4% 和 48.5%。 图 2:七个模型在 8 类技能上的标准通过率。数据类技能普遍较强,动画与图形媒体类是短板。 那么,当 AI 面对这些难题时,它们究竟是怎么丢分的?通过对错误根因的深度拆解,研究员们发现了一个有趣的现象:随着作答模式从单轮裸考升级到智能体开机考,扣分点发生了戏剧性的转移。 在单轮设置下,大模型的主要问题是程序崩溃。以 Claude Opus 4.7 为例,其失分有 51.8% 来自“代码执行失败”,由于语法或环境问题,程序根本没有跑起来。剩下的失分则主要归咎于实现知识错误(29.8%)以及操作缺失或误解(17.3%)。 当换上编程智能体模式后,代码崩溃的比例急剧下降至 7.9%。由于程序终于能够顺利运行,原本被崩溃掩盖的细节错误开始大量暴露,实现知识错误的占比反而飙升至 89.7%。 表 4:错误类型分布。单轮设置下崩溃是主因;编程智能体几乎消除了崩溃,但暴露出大量实现知识层面的细节错误。 深入探究这些实现知识错误可以发现,AI 的痛