智能AI
morning
Gemini 3.5来了!今夜,谷歌亲手淘汰谷歌
2026-05-20
1 阅读
新智元
新智元报道 【新智元导读】 劈柴和Hassabis把半年大招一晚清仓了!Gemini Omni任意输入生成视频,3.5 Flash断层碾压一切,Spark 7×24h云端替你干活。这次,谷歌是要把OpenAI和Anthropic一起给埋了。 谷歌I/O 2026大会,火力全开! 刚刚,劈柴和Demis Hassabis同台登场,把攒了半年的大招一口气全部亮了出来。 没有一丝悬念,今晚最大的主角,Gemini Omni正式亮相! 作为一个真正「全能」的大模型,Omni可以接收任意形式的输入,生成任意内容。 并且首发支持视频输出,堪称「视频版Nano Banana」。 今晚的另一个高潮,属于Gemini 3.5 Flash。 在几乎所有的基准测试中,3.5 Flash都实现了对自家前代旗舰Gemini 3.1 Pro的碾压。 输出速度也直接翻倍,对比GPT-5.5和Opus 4.7更是快了4倍有余。 更强的3.5 Pro,则会在下个月发布。 此外,亮相的还有一大波重磅新品: · Antigravity 2.0,全新独立桌面应用,从IDE进化为Agent开发平台 · Gemini Spark,个人AI特工,7×24h云端运行 · Gemini App改版,代号Neural Expressive,改为算力计费 · AI Ultra订阅计划新增100美元版本,最高档从250降至200美元 · 谷歌搜索25年最大升级,接入3.5 Flash,新增智能搜索框、自动生成mini应用等 ...... 毫不夸张地说,这场I/O的干货密度,堪称历年之最。 Gemini Omni首发 一个「全能」AI诞生了 正如预热视频疯狂暗示的那样,万众期待的Gemini Omni终于来了。 Hassabis亲自登台宣布,「我们正迈出下一个重要的一步——Gemini Omni,这是一个可从任何输入创建内容的全新模型」。 这个排面就说明了一切。谷歌这一次要打造的,是一个「全能」的AI创作引擎。 它把Gemini的智能与最强的生成式AI融为一体,在世界理解、多模态和编辑三个维度上,全部拉满。 直白讲,给到图片、音频、视频、文字的任意组合,它就能生成一段高质量视频。而且,可以用聊天的方式 编辑视频。 更关键的,Omni不只是「看起来像」,它真的在理解物理世界。 Hassabis的原话是,以前的系统在模拟重力、动能这些概念时经常翻车,但Omni实现了一个「阶跃变化」。 它把Gemini的「世界知识」和「推理能力」注入进了视频生成。 给它一句prompt「用粘土动画解释蛋白质折叠」,生成的视频里氨基酸链折叠成α螺旋和β折叠的每一步都科学准确,视觉上是精致的定格动画。 又比如为英文26个字母匹配对应物体。 C是水豚(Capybara),D是迪斯科球,L是熔岩灯。Omni不是在拼贴素材,它真的在把语言、图像和语义联结在一起。 不得不说,从逼真到有意义,这一步跨得太大了。 左右滑动查看 在台上,Hassabis掏出一段自拍视频开始现场魔改。手掌上随手画的圈变成了黑洞,傍晚散步的街道变成了赛博朋克场景。 一句话重写画面,一句话改变世界。 任何东西都可以成为创造全新现实的画布。 再比如,自拍掌中玩火,一张纸画了一个圈立即变黑洞,各种脑洞大开玩法都可实现。 而且,这不是一次性生成完事。你可以接着聊。 Gemini Omni输出的视频,角色保持一致,物理逻辑成立,场景记忆连贯。 从一段原始的演奏画面开始。第二轮,「把小提琴手传送到这张图片的环境里」,附一张雪山草地的参考图,场景瞬间切换,动作、光影全部适配新环境。 第三轮,「把镜头切到小提琴手的肩膀后方」,视角旋转,但演奏动作和音乐完全连续。 左右滑动查看 不论场景如何变幻,画面的主体都不会崩坏。 更让人细思极恐的是,Omni的输入灵活性。 图片、文字、视频、音频,任何参考物都可以混合输入,生成一个连贯的输出。 你甚至可以创建自己的Avatar,让AI版的你出现在任何场景中,说你的声音、做你没做过的事。 目前,Omni Flash已正式上线,API版则会在未来几周开放。而更强的Omni Pro也在路上了。 凭借着谷歌强大的整合能力,Omini首发就接入了Gemini App、Google Flow和YouTube Shorts,YouTube Shorts用户甚至可以免费用。 Flash干翻Pro 3.5重写了「旗舰」的定义 Gemini Omni之后,I/O大会本场另一重头戏,就是全新旗舰Gemini 3.5 Flash的发布。 谷歌给它的定义是,迄今为最强的编码、智能体模型。 现场,劈柴亲口宣布,「3.5 Flash在几乎所有基准测试中,全面胜出Gemini 3.1 Pro」! 要注意,3.1 Pro可是谷歌三个月前才推出的旗舰模型,现在,一个Flash级别的模型就把它碾了。 没想到,谷歌竟在如此短时间内,交出了亮眼的成绩单: Terminal-Bench 2.1(编码):76.2% GDPval-AA(真实世界Agent任务):1656 Elo MCP Atlas(大规模工具使用):83.6% CharXiv Reasoning(多模态理解):84.2% 以上四大基准测试,相较于Gemini 3.1 Pro,3.5 Flash堪称断层跃迁。 在速度方面,3.5 Flash独占一个象限,289 tokens/秒,比其他前沿模型快4倍还要多。 另外,3.5 Flash在一部分基准测试中,性能媲美,甚至是足以碾压GPT-5.5、Claude Opus 4.7。 不得不说,3.5 Flash又快又强,几乎没有对手。 参数太抽象,不如看看下面这个真实的极限演示。 只需一瞬间,3.5 Flash就能消化一篇天书般的学术论文,并写出一个带有完美交互的可视化网站。 在智能体任务中,通过Antigravity,它可以完成多步工作流,自动对铺屏的资产完成分类和命名。 亦或是,利用两个Agent,在短短六小时内复现了AlphaZero论文,并编写出一款可完整运行的游戏。 93个Agent造出OS,仅12小时 可以看到,3.5 Flash这一切能力的实现,全部是借助全新Antigravity 2.0实现的。 今天,谷歌Agent开发平台Antigravity升级到了2.0,从IDE变成了独立桌面应用,彻底拥抱Agent-first设计。 Varun上台给出一个让全场屏息的Demo。 他让Antigravity搭载3.5 Flash,从零开始构建一个操作系统。 93个子Agent并行工作,发出超15000次模型请求,处理26亿个token,12小时后,一个完全空白的项目变成了功能完整的OS内核。 调度程序、内存管理、文件系统,每一行代码都是Agent写的,Agent测的,Agent审计的。 API费用不到1000美元。 接着,他试着在这个AI写的操作系统上运行DOOM。 第一次尝试失败了,缺少视频和键盘驱动。于是他当场在Antigravity 2.0里输入修复指令,Agent开始自动补写驱动代码。 等了一会儿,DOOM的画面出现在屏幕上,全场沸腾。 总结一下,Antigravity 2.0带来核心升级包括—— 子Age