开发者生态
morning
Gemini 3.5深夜登场,谷歌CEO劈柴亲自算账:速度快4倍、一年还省超10亿美元,曝内部已被颠覆
2026-05-22
1 阅读
华卫
作者 | 华卫 北京时间5月20日凌晨1点,谷歌一年一度的I/O开发者大会准时开幕。 在发布新品前,谷歌 CEO Sundar Pichai 展示了一个惊人的数据:每月处理3.2千万亿个token。“两年前,我们在各个平台每月处理约 9.7 万亿个token。去年的 I/O 大会上,这一数字增长到了大约 480 万亿个token。快进到今天,这个数字又跳升了 7 倍,每月超过 3.2 千万亿个token。” 短短一年增幅达7倍。而这些token,代表着谷歌用户、开发者与客户正在解决的各类问题。据透露,去年I/O大会时拥有4亿月活跃用户的Gemini应用,如今已突破9亿,一年内翻了一番多。截至目前,Nano Banana 图像生成模型已生成超过500亿张图像。 “还有大量潜在的生产力等待被释放。“Pichai 称。而这次的I/O发布,“智能体”可谓是重头戏。几乎所有的重磅新品,都是围绕智能体去迭代和更新的。 Gemini 3.5 登场,彻底改变谷歌内部工作方式 Gemini 3.5 Flash 是此次 I/O 最值得开发者关注的发布,被称为谷歌“迄今为止最强大的智能体和编码模型”。在多项智能体和编码基准测试中得分均高于Gemini 3.1 Pro,运行速度比其他前沿型号快 4 倍。 对于这款模型,Pichai特意强调了两点。 第一,与 3.1 Pro相比,3.5 Flash 在几乎所有基准测试中表现更佳。它在编码能力上取得了巨大进步,尤其是 GDPVal 的飞跃非常显著,反映了许多现实世界中具有经济价值的任务。在Terminal-Bench 2.1(76.2%)、GDPval-AA(1656 Elo)和MCP Atlas(83.6%)等具有挑战性编码和代理基准测试上的表现优于Gemini 3.1 Pro,并在多模态理解方面领先(CharXiv Reasoning为84.2%)。 第二,Gemini 3.5 Flash 在多个维度上提供可媲美大型旗舰机型的智能性能,但速度仍然非常快。以每秒输出token数计算,它比其他前沿模型快4倍。 此外,Gemini 3.5 Flash的另一个惊人之处在于,它以不到可比前沿模型一半的成本提供前沿级能力。“我们听说许多公司在五月就已经超出了年度token预算。如果公司能够将 Flash 与其他前沿模型混合使用,就可以节省大量成本。举个例子,顶尖公司每天处理约 1 万亿个token。如果他们将 80% 的工作负载从其他前沿模型切换到 3.5 Flash,每年可节省超过 10 亿美元。这是真实的节省,可以再投入到公司的发展中。”Pichai表示。 过去一年,AI编程工具的市场是Cursor、Claude Code、GitHub Copilot三家在争。Google在这个赛道几乎缺席。有消息说,Gemini团队在编程方面挣扎了一段时间。这次的Gemini 3.5 系列,就像是谷歌最新的正面回应。 今天起,Gemini 3.5 Flash 在谷歌的所有产品和 API 上向所有人开放。 “新模型在谷歌内部彻底改变了我们的工作方式。”Pichai 表示,他们一直在将 3.5 Flash 与重新构想的以智能体为核心的开发平台 Antigravity 一起使用,显著加快了开发速度。“3月,我们在内部 AI 开发工具中每天处理约 5000 亿个token,之后每隔几周就翻一倍。现在,我们每天处理的token数量已经超过 3 万亿。如此规模创造了强大的反馈循环,帮助我们不断改进 3.5。” 下个月,谷歌预计推出Gemini 3.5 Pro。据悉,谷歌在内部已经在使用它,其显示出很大的改进。 Gemini Omni:将你的想法转化为电影视频 大会上,谷歌隆重推出新模型Gemini Omni,能够从任意输入生成任意输出模态的样本。这一新模型将 Gemini 的智能与生成式媒体模型结合在一起,在现实世界理解上实现了巨大的飞跃。通过Omni,用户可以将图片、音频、视频和文本作为输入结合,生成基于Gemini真实世界知识的高质量视频,也可以通过对话轻松编辑视频。 “借助世界模型,人工智能正从预测文本转向模拟现实。我们一直在努力突破这些模型的边界。”Pichai 表示,Gemini Omni将从视频输出开始,随后会支持图像和文本。 今日起,谷歌将正式上线Omni系列的Flash版本,可以在Gemini应用、Google Flow和YouTube Shorts上试用,未来几周通过API向开发者和企业客户推广。 据介绍,Gemini Omni 的特别之处是让视频编辑变得更简单,只需自然语言,可以修改特定事物或者改动整个场景,还可以修改环境、角度、风格,甚至具体细节,同时始终保持原始场景的连贯性。并且,每条指令都可以在前一条的基础上继续操作,角色保持一致,物理规律得以维持,场景也记得之前发生的事情。 除了构建逼真的场景,Gemini Omni 还能推理接下来应该发生什么。它可以将对物理规律的直觉理解与 Gemini 对历史、科学和文化背景的知识结合起来,实现从照片级真实到有意义故事讲述的跨越。Omni 还能利用 Gemini 的知识,将语言、图像和意义联系起来,其能力远超简单的模式匹配。 不过,所有用Omni制作的视频都包含肉眼几乎察觉不到的SynthID数字水印,用户可以通过Gemini应用、Chrome中的Gemini和Google搜索轻松验证视频是否是用Gemini Omni生成的。 两款智能体加持,Gemini 应用更“实用”了 对于Gemini应用来说,这一年是丰收的一年。去年在谷歌I/O大会上,Gemini服务了4亿用户。如今,每月有超过9亿人在230个国家、70多种语言中向Gemini寻求帮助。 据介绍,Gemini应用来新增了两个智能体功能。首先是晨间摘要智能体Daily Brief ,它基于近期 Google Labs 实验 CC 的成功经验,让用户可以无缝、直观地进入 AI 智能体的世界。一旦你选择加入,Gemini 会在后台跨你已连接的应用运行。它会从 Gmail 收件箱收集紧急更新,从日历跟踪即将发生的事件,并将相关的后续信息整理成一份易于浏览的简报。 而且,Daily Brief 的功能远超简单的摘要。它会根据你的具体目标主动组织和优先排序内容,甚至会建议你立即可采取的下一步行动。你还可以通过简单的“点赞”或“点踩”反馈来引导它的行为,使其越用越懂你。今天起,Daily Brief 开始向美国的 Google AI Plus、Pro 和 Ultra 用户推出。 谷歌还推出了 Gemini Spark,这是一款全天候 24/7 个人 AI 智能体,标志着 Gemini 的一次重大转变:从一个可以回答问题的助手,升级为一个可以在用户的指示下实际完成工作、成为主动合作伙伴的智能体。 “我对 Gemini Spark 特别兴奋。它是 Gemini 应用中的个人 AI 智能体,可以帮助你管理数字生活,根据你的指令代你执行操作。”Pichai 表示。 据介绍,Gemini Spark 基于 Gemini 3.5 并使用 Antigravity 框架,与你日常依赖的 Workspa