Gemini 3.5 发布：谷歌用“价格砍半、速度4倍”逼竞争对手出局

在今日举行的 Google I/O 2026 开发者大会上，Google CEO 桑达尔·皮查伊（Sundar Pichai）走上台，发布了新一代大模型系列 Gemini 3.5 。表面上，这是一次例行的大版本迭代。但把所有信息拼在一起——性能基准、定价策略、产品路线图、资本支出——你会发现，谷歌正在精心布局一场深层较量：用“前沿智能+极速推理+超低成本”三者合力，把智能体 AI 的门槛提高到竞争对手短期内难以跟进的高度。性能与性价比：一次有备而来的反击这场较量的序幕，在过去半年里已经拉开。 2025 年 1 月，OpenAI 推出 Operator ，基于 CUA（Computer-Using Agent）模型，能够自主操控浏览器界面执行多步骤任务，率先向“行动式 AI”迈出实质性一步。2026 年 2 月，Anthropic 发布 Claude Opus 4.6 ，在智能体编程、计算机操控、工具调用等维度全面拉高行业基准；3 月，Anthropic 又密集推送 Claude Code 超过 10 个版本，加入 Computer Use、云端定时任务和远程控制，直接对标开发者的日常工作流。也就是说，在 Gemini 3.5 发布之前，智能体 AI 的叙事主导权并不在谷歌手里。皮查伊今天的发布，是一次系统性的反击——而且是有备而来。 Gemini 3.5 系列首发推出 Gemini 3.5 Flash ，定位为“迄今最强大的智能体与编程模型”。更强大的 Gemini 3.5 Pro 已在 Google 内部投入使用，皮查伊在台上透露，它“展现出极大的性能提升”，预计下月正式推出。先说基准测试数据。在 GDPval-AA 基准中，Gemini 3.5 Flash 取得 1656 Elo 评分。这个基准衡量的是“现实世界具有实际经济价值的编程任务”——换句话说，不是做题，而是写能用的代码、解决真实的工程问题。1656 Elo 的分数，超过了 Gemini 3.1 Pro，也超过了目前公开可查的大部分前沿模型成绩。在 Terminal-Bench 2.1 （衡量 AI 在真实终端环境中完成复杂任务的能力）中，Gemini 3.5 Flash 得分 76.2% 。作为参照，2025 年初 OpenAI Operator 发布时，同类基准的成绩普遍在 50%–60% 区间。半年多过去，76.2% 意味着智能体在执行真实任务时的可靠性，正在从“勉强可用”向“可以依赖”跨越。在智能体工具调用基准 MCP Atlas 中，成绩是 83.6% ；多模态推理基准 CharXiv Reasoning 录得 84.2% 。在 Artificial Analysis 综合智能指数中，Gemini 3.5 Flash 稳居第一象限的右上方——即同时具备前沿级智能水平与极高推理速度的最优区间，而且是目前唯一稳居这个区间的公开模型。但真正让这次发布最具冲击力的，不是基准测试，而是性价比。 Gemini 3.5 Flash 的输出 Token 速率达到其他前沿模型的 4 倍。在 Antigravity 平台内置的优化版本中，响应速度更达到竞品的 12 倍。成本方面，处理智能体任务的费用通常不到其他前沿模型的一半。据谷歌测算，头部科技企业若将 80% 的日常负载从其他前沿模型迁移至 Gemini 3.5 Flash，每年可节省超过 10 亿美元。皮查伊在演讲中直言：“Flash 的惊人之处在于，它以不到同类前沿模型一半的价格，提供了前沿级别的能力。” 这句话值得停下来想一想。当一家巨头愿意用“砍半定价”来推广自己的最前沿模型时，它传达的信号不是“我在让利”，而是“我要把竞争对手挤出市场”。低价是手段，抢占生态才是目的。这些数据并非纸上谈兵。 Google 内部 AI 编程工具形成了强大数据反馈闭环：从 2025 年 3 月每天处理 5000 亿 Token，到 I/O 2026 时已增长至每天处理超过 3 万亿 Token 。规模翻倍仅用数周，而这种大规模真实负载的持续打磨，正是 Gemini 3.5 性能跃升的重要基石。这里有一个值得注意的细节：谷歌没有披露 Gemini 3.5 的参数量。在行业里，这通常意味着两种可能——要么参数规模并没有大幅提升，靠的是工程优化和推理架构改进；要么谷歌有意隐瞒，避免给竞争对手提供对标参考。无论哪种情况，对外部开发者和企业来说，“参数黑盒”都是一个需要留心的信号。 Gemini 3.5 之所以被称为“智能体时代的基础模型”，核心在于它是 Google 首款将前沿智能与行动力深度融合的模型系列。所谓“智能体”（Agent），简单说就是能自主规划、调用工具、执行多步骤任务的人工智能——不再只是回答问题，而是替你完成任务。Gemini 3.5 的智能体原生架构支持同时部署多个互联协作的子智能体（subagents），大规模并行处理复杂业务场景，将原本需要数天乃至数周的长周期工作压缩至极短时间完成。它能够稳定执行跨步骤、跨工具的复杂任务流程，并在整个过程中保持上下文连贯性，支持运行数周的自主工作流——如税务申报、客户尽调等场景——无需人工持续介入。这意味着，智能体 AI 正在从“演示阶段”走向“生产阶段”，而 Gemini 3.5 是目前门槛最低、最易上手的选择。编程能力的跨越式飞跃是另一大核心亮点。 Gemini 3.5 Flash 在 GDPVal 评分中表现突出，具体能力涵盖从零构建全新应用、维护与迭代大型代码库、遗留代码迁移（如迁移至 Next.js 等现代框架），以及快速规划与迭代开发。这里有一个值得对照的背景：2026 年以来，AI 编程助手的市场竞争已经进入白热化阶段。GitHub Copilot、Cursor、Windsurf 等工具背后，分别绑定了 OpenAI、Anthropic 和 Google 的模型能力。Gemini 3.5 Flash 如果真的如基准测试所示在编程任务上大幅领先，那么谷歌不仅在模型层面对竞争对手形成压力，在开发者工具生态层面也将获得更大的话语权。多模态能力同样进一步升级。基于 Gemini 3 的原生多模态基础构建，Gemini 3.5 能够生成更丰富、更具交互性的 Web UI 和图形界面（生成式 UI），对超过 100 页的复杂文件进行深度推理与信息检索。它通过多模态 OCR 结合历史数据模式推理与复杂账单图像理解——这个能力听起来技术化，但实际场景非常具体：比如企业财务部门处理上千张供应商发票，过去需要人工逐一核对，现在可以由 AI 自主完成，且准确率在企业级场景中已经通过验证。安全方面的升级，谷歌着墨不少，但外界的疑问也最多。 Gemini 3.5 基于 Google 前沿安全框架（Frontier Safety Framework）开发，强化了网络安全与 CBRN（化学、生物、放射、核）防护措施，并引入可解释性工具 ——在 AI 给出最终回答前对其内部推理逻辑进行安全检查，在显著降低有害内容生成概率的同时，减少对合法查询的误拒率。这里存在一个值得追问的矛盾：谷歌强调“可解释性”和“