AI 能考过计算机等级考试吗？

（本文阅读时间：12 分钟）如果让今天最强的大模型去参加一场国家计算机等级考试（NCRE），它能拿多少分？近期，微软亚洲研究院的研究员们把 NCRE 一、二级的 200 道 Word、Excel、PPT 实操题搬到 AI 面前，让 7 个前沿大模型作答，并用官方评分引擎逐条打分。然而，测试结果却与我们的直觉大相径庭：在普通考生普遍能拿满分的考试中，最强单轮模型只考了 36.6 分；即便是配上了能反复执行调试的“编程智能体”，最高也只有 68.8 分。作为对比，社区贡献的标准解答平均能拿到 95.5 分。这一戏剧性的翻车现场，并非大模型们的偶尔失手，而是一场硬核学术测试带来的真实一幕。这项研究来自微软亚洲研究院的最新成果《Mind the Gap: Can Frontier LLMs Pass a Standardized Office Proficiency Exam?》。研究员们希望借此探寻，AI 浪潮背后，大模型距离真正精通日常办公究竟还有多远？论文信息已整理于文末，欢迎点击相关链接，了解更多技术详情。用 NCRE 国家级考试来“卷”AI 作为知识工作者的基础工具，Microsoft Office 的全球用户已超十亿。在日常办公中，一份合格的文档往往需要数十步精确的操作：页边距调整、样式设置、图表生成、动画效果、水印添加……任何一步出错，都可能导致整页排版走样。然而，在现有的主流大模型基准测试中，Office 办公能力长期被掩盖。这些测试要么只覆盖单一应用，要么用合成任务凑数，甚至直接请另一个大模型来充当评委。为了打破这种局限，研究员们希望引入一场真正的考试和一套真实的评分标准，以此来精准量化 AI 与真人在办公自动化领域的实际差距。于是，研究员们把目光投向了教育部考试中心组织的标准化考试NCRE（全国计算机等级考试）一、二级 Office 模块。该考试每年报考人数以百万计，广泛应用于就业、公务员招考、考研与职称评定。引入 NCRE 作为测试基准有三大独特优势：题目由专家命制，难度经过严格校准；评分细则机器可读，保证了绝对的客观性；最重要的是，它的尺度与真人完全一致——AI 最终的得分，就是它在官方满分中实打实拿到的分数。基于这套严苛的标准，研究员们整理出了 200 道极具代表性的题目，其中一级 88 道、二级 112 道，全面覆盖三大核心应用。这些题目被拆解为了 7,118 条可由机器判定的细粒度评分点。这套专为大模型打造的全新办公自动化基准测试，被命名为 OfficeEval。图 1：OfficeEval 一道 Word 任务的端到端示意。左为原始文档，中为任务指令，右为期望产出，下为 30 条机器评分准则。表 1：OfficeEval 数据集统计（200 道任务，7,118 条评分点）。裸考 vs 开机考：七大前沿大模型真实能力起底为了全面评估 AI 的真实潜力，研究员们设计了两种作答范式。第一种是“单轮代码生成”模式：模型一次性接收任务说明、截图与文件路径，随后直接输出 Python 代码，代码运行完即刻提交，期间没有任何报错反馈，也完全无法重试。第二种是“编程智能体”模式，以评测更接近人类的实际办公状态：由 Claude Opus 4.7 驱动的 Claude Code 以及由 GPT-5.5 驱动的 Codex可以反复编写代码、运行程序、查看报错、再进行修复。每道题的作答上限长达一小时，且允许它们自由调用 Windows COM 等Office中的技术。在这场包含“裸考”与“开机考”的双重试炼中，研究员们评测了七个前沿大模型，其中包括闭源的 Claude Opus 4.7、GPT-5.5、Gemini 3.1 Pro，以及开源的 Kimi-K2.6、Qwen3.5-397B-A17B、MiMo-V2.5、Grok-4.1-fast。在单轮设置下，各模型的表现普遍低迷。Claude Opus 4.7 以 36.6% 的得分率位居榜首，GPT-5.5 以 36.2% 紧随其后，而 Gemini 3.1 Pro 仅获得 16.3% 的分数。在开源阵营中，除 Kimi-K2.6 拿到了接近双位数的成绩外，其余模型均在个位数徘徊。顶尖模型生成的程序也只有约六成能够勉强执行。表 2：单轮代码生成设置下 7 个模型的成绩。Word/Excel/PPT 列为该应用上 L1+L2 平均得分率；Exec% 为代码可成功执行的题目占比。当场景切换到允许反复试错的编程智能体模式时，情况有了显著改善。得益于多次迭代与调用 COM 自动化的能力，Codex 的总分为68.8%，比其单轮表现提升了 32.6 个百分点；Claude Code 的得分率也提高到了 53.0%。在多次纠错后，两者的代码执行成功率均达到了 98%–99% 的水准。但即使有智能体形态的外挂加持，AI 的最高成绩也未能触及及格线（70%），距离人类社区贡献的标准答案（95.5%）仍有超过 25 个百分点的差距。这表明，仅赋予大模型“重试”的机会，依然无法从根本上解决它们在复杂办公场景下的无力感。表 3：单轮基线模式 vs 编程智能体模式。编程智能体可反复执行与修复代码，并能调用 COM 自动化等工具，整体得分率与执行成功率均显著提升。 AI 究竟被哪块“硬骨头”卡住了？纵观三大办公应用，大模型表现出了明显的“偏科”特征：Excel 最容易，Word 居中，而 PPT 最难。Excel 的任务主要围绕公式、数据和图表展开，相关的参数和逻辑往往直接写在题面上，易于模型捕捉。相比之下，PPT 则是名副其实的“硬骨头”。它要求生成极其精确的内部常量与 XML 属性（例如实现某种特定的“陀螺旋”动画效果）。这些底层的实现知识在题面上从未提及，AI 很难凭借通用经验猜测准确。从细分的 8 类核心技能来看，大模型的弱点更加明显。其中，动画（Animation）与图形媒体（Graphics & Media）的最高通过率仅为 26.7% 和 29.1%；而在图表（Charts）与数据公式（Data & Formulas）类任务上，通过率则分别达到了 51.4% 和 48.5%。图 2：七个模型在 8 类技能上的标准通过率。数据类技能普遍较强，动画与图形媒体类是短板。那么，当 AI 面对这些难题时，它们究竟是怎么丢分的？通过对错误根因的深度拆解，研究员们发现了一个有趣的现象：随着作答模式从单轮裸考升级到智能体开机考，扣分点发生了戏剧性的转移。在单轮设置下，大模型的主要问题是程序崩溃。以 Claude Opus 4.7 为例，其失分有 51.8% 来自“代码执行失败”，由于语法或环境问题，程序根本没有跑起来。剩下的失分则主要归咎于实现知识错误（29.8%）以及操作缺失或误解（17.3%）。当换上编程智能体模式后，代码崩溃的比例急剧下降至 7.9%。由于程序终于能够顺利运行，原本被崩溃掩盖的细节错误开始大量暴露，实现知识错误的占比反而飙升至 89.7%。表 4：错误类型分布。单轮设置下崩溃是主因；编程智能体几乎消除了崩溃，但暴露出大量实现知识层面的细节错误。深入探究这些实现知识错误可以发现，AI 的痛

订阅66必读