智能AI morning

Gemini 3.5 发布:谷歌用“价格砍半、速度4倍”逼竞争对手出局

2026-05-20 1 阅读 硅谷Tech news
在今日举行的 Google I/O 2026 开发者大会上,Google CEO 桑达尔·皮查伊(Sundar Pichai)走上台,发布了新一代大模型系列 Gemini 3.5 。 表面上,这是一次例行的大版本迭代。但把所有信息拼在一起——性能基准、定价策略、产品路线图、资本支出——你会发现,谷歌正在精心布局一场深层较量:用“前沿智能+极速推理+超低成本”三者合力,把智能体 AI 的门槛提高到竞争对手短期内难以跟进的高度。 性能与性价比:一次有备而来的反击 这场较量的序幕,在过去半年里已经拉开。 2025 年 1 月,OpenAI 推出 Operator ,基于 CUA(Computer-Using Agent)模型,能够自主操控浏览器界面执行多步骤任务,率先向“行动式 AI”迈出实质性一步。2026 年 2 月,Anthropic 发布 Claude Opus 4.6 ,在智能体编程、计算机操控、工具调用等维度全面拉高行业基准;3 月,Anthropic 又密集推送 Claude Code 超过 10 个版本,加入 Computer Use、云端定时任务和远程控制,直接对标开发者的日常工作流。 也就是说,在 Gemini 3.5 发布之前,智能体 AI 的叙事主导权并不在谷歌手里。皮查伊今天的发布,是一次系统性的反击——而且是有备而来。 Gemini 3.5 系列首发推出 Gemini 3.5 Flash ,定位为“迄今最强大的智能体与编程模型”。更强大的 Gemini 3.5 Pro 已在 Google 内部投入使用,皮查伊在台上透露,它“展现出极大的性能提升”,预计下月正式推出。 先说基准测试数据。 在 GDPval-AA 基准中,Gemini 3.5 Flash 取得 1656 Elo 评分。这个基准衡量的是“现实世界具有实际经济价值的编程任务”——换句话说,不是做题,而是写能用的代码、解决真实的工程问题。1656 Elo 的分数,超过了 Gemini 3.1 Pro,也超过了目前公开可查的大部分前沿模型成绩。 在 Terminal-Bench 2.1 (衡量 AI 在真实终端环境中完成复杂任务的能力)中,Gemini 3.5 Flash 得分 76.2% 。作为参照,2025 年初 OpenAI Operator 发布时,同类基准的成绩普遍在 50%–60% 区间。半年多过去,76.2% 意味着智能体在执行真实任务时的可靠性,正在从“勉强可用”向“可以依赖”跨越。 在智能体工具调用基准 MCP Atlas 中,成绩是 83.6% ;多模态推理基准 CharXiv Reasoning 录得 84.2% 。在 Artificial Analysis 综合智能指数中,Gemini 3.5 Flash 稳居第一象限的右上方——即同时具备前沿级智能水平与极高推理速度的最优区间,而且是目前唯一稳居这个区间的公开模型。 但真正让这次发布最具冲击力的,不是基准测试,而是性价比。 Gemini 3.5 Flash 的输出 Token 速率达到其他前沿模型的 4 倍 。在 Antigravity 平台内置的优化版本中,响应速度更达到竞品的 12 倍 。 成本方面,处理智能体任务的费用通常不到其他前沿模型的 一半 。据谷歌测算,头部科技企业若将 80% 的日常负载从其他前沿模型迁移至 Gemini 3.5 Flash,每年可节省超过 10 亿美元 。 皮查伊在演讲中直言:“Flash 的惊人之处在于,它以不到同类前沿模型一半的价格,提供了前沿级别的能力。” 这句话值得停下来想一想。当一家巨头愿意用“砍半定价”来推广自己的最前沿模型时,它传达的信号不是“我在让利”,而是“我要把竞争对手挤出市场”。低价是手段,抢占生态才是目的。 这些数据并非纸上谈兵。 Google 内部 AI 编程工具形成了强大数据反馈闭环:从 2025 年 3 月每天处理 5000 亿 Token,到 I/O 2026 时已增长至每天处理超过 3 万亿 Token 。规模翻倍仅用数周,而这种大规模真实负载的持续打磨,正是 Gemini 3.5 性能跃升的重要基石。 这里有一个值得注意的细节:谷歌没有披露 Gemini 3.5 的参数量。在行业里,这通常意味着两种可能——要么参数规模并没有大幅提升,靠的是工程优化和推理架构改进;要么谷歌有意隐瞒,避免给竞争对手提供对标参考。无论哪种情况,对外部开发者和企业来说,“参数黑盒”都是一个需要留心的信号。 Gemini 3.5 之所以被称为“智能体时代的基础模型”,核心在于它是 Google 首款将前沿智能与行动力深度融合的模型系列。 所谓“智能体”(Agent),简单说就是能自主规划、调用工具、执行多步骤任务的人工智能——不再只是回答问题,而是替你完成任务。Gemini 3.5 的智能体原生架构支持同时部署多个互联协作的子智能体(subagents),大规模并行处理复杂业务场景,将原本需要数天乃至数周的长周期工作压缩至极短时间完成。 它能够稳定执行跨步骤、跨工具的复杂任务流程,并在整个过程中保持上下文连贯性,支持运行数周的自主工作流——如税务申报、客户尽调等场景——无需人工持续介入。这意味着,智能体 AI 正在从“演示阶段”走向“生产阶段”,而 Gemini 3.5 是目前门槛最低、最易上手的选择。 编程能力的跨越式飞跃是另一大核心亮点。 Gemini 3.5 Flash 在 GDPVal 评分中表现突出,具体能力涵盖从零构建全新应用、维护与迭代大型代码库、遗留代码迁移(如迁移至 Next.js 等现代框架),以及快速规划与迭代开发。 这里有一个值得对照的背景:2026 年以来,AI 编程助手的市场竞争已经进入白热化阶段。GitHub Copilot、Cursor、Windsurf 等工具背后,分别绑定了 OpenAI、Anthropic 和 Google 的模型能力。Gemini 3.5 Flash 如果真的如基准测试所示在编程任务上大幅领先,那么谷歌不仅在模型层面对竞争对手形成压力,在开发者工具生态层面也将获得更大的话语权。 多模态能力同样进一步升级。 基于 Gemini 3 的原生多模态基础构建,Gemini 3.5 能够生成更丰富、更具交互性的 Web UI 和图形界面(生成式 UI),对超过 100 页 的复杂文件进行深度推理与信息检索。 它通过多模态 OCR 结合历史数据模式推理与复杂账单图像理解——这个能力听起来技术化,但实际场景非常具体:比如企业财务部门处理上千张供应商发票,过去需要人工逐一核对,现在可以由 AI 自主完成,且准确率在企业级场景中已经通过验证。 安全方面的升级,谷歌着墨不少,但外界的疑问也最多。 Gemini 3.5 基于 Google 前沿安全框架(Frontier Safety Framework) 开发,强化了网络安全与 CBRN(化学、生物、放射、核)防护措施,并引入 可解释性工具 ——在 AI 给出最终回答前对其内部推理逻辑进行安全检查,在显著降低有害内容生成概率的同时,减少对合法查询的误拒率。 这里存在一个值得追问的矛盾:谷歌强调“可解释性”和“