Google I/O 之后，AI 的依赖系变了

文 | 市象，作者 | 景行，编辑 | 古廿当前，Coding 时代的行业共识已经确立。 “尽管我们上调了Token价格，客户接受度依然很高，需求持续旺盛，甚至当前供应仍无法完全满足需求，仍有大量客户在排队等待服务。” 上周2026财年Q4财报会议上，阿里巴巴CEO吴泳铭用一番发言，道出Coding蛋糕的庞大。 AI 终于从发布会走进了企业的生产预算，阿里解决了第一个问题：AI 有没有真实需求？第二个问题来自Google：AI下一步会长成什么样？北京时间5 月 20 日凌晨，Google I/O 2026如期开场。这届大会的亮点，无疑是智能体与多模态能力的展示。在Gemini Omni Flash的发布中，Google对其有一段精确定义——支持任何模态的输入，生成任何模态的输出。大会展示的视频输出只是一个开始，按照Google的规划，Omni有能力实现文图音视的全模态输出，并基于Gemini的世界模型能力，生成重力、动力更精确的物理效果。对Google来说，Omni不再是一个视频模型，而是真正的超级内容创作入口，进而嵌入所有的创作者工作流程，创造一个比Coding想象空间更大的多模态应用市场。相较编程，这是AI的真正富矿。从行业通用定价来看，每百万 tokens 的价格，视频模型要远高于图片和文本。这意味着，只要token调用量提升，视频将创造远超文本的API价值。更重要的是，多模态正在迎来一个历史性的技术拐点。对比早期文本模型+图像模型+视频模型的简单拼接模式，在2026年，以 Google Gemini Omni 为代表的统一基座全模态模型的出现，标志着行业即将进入一个全新的时代。多模态，下一个Token拐点 OpenAI 首席执行官Sam Altman没想到的是，100万用户规模的成绩，发布初的ChatGPT要5天实现，GPT-4o图像生成只需要1个小时。凭借高度还原的吉卜力画风，GPT-4o生图功能上线即爆红，OpenAI 不得不限制免费资格，并恳求用户不要再疯狂生图，让团队睡个好觉。今年发布的图像生成模型Image 2，一小时全球新增用户破180万，再次打破GPT-4o纪录，一周时间内，全球活跃用户便超过1.2亿，带动ChatGPT Plus订阅量环比增长23%。年初Google Nano Banana 2的发布，则实现了全球测试屠榜的盛况。产品将一张4K多细节图的生成时间，从分钟级压缩到秒级。截至目前，Nano Banana系列累计生成图片已超过500亿张。媒体评价是，Google正在终结PS时代。毫无疑问，颠覆级的多模态模型，拥有一锤定音的市场影响力。在去年的Google I/O大会上，VEO 3一鸣惊人，切水果视频席卷了TikTok，仅用半年时间，生成视频总量就突破2.3亿条，有媒体撰文称，VEO 3挽救了谷歌的财报。但更大的颠覆还在路上。前几天有Reddit用户意外找到并分享了一则Gemini Omni的Demo，瞬间引爆了全球AI社区：教师一边讲课，一边在黑板上写下公式，全程声音、画面、板书文字精确流畅，丝滑至极。有X用户的评价是，视频模型的Nano Banana时刻要来了。 Gemini Omni的惊艳之处不仅于此，模型支持一键去除水印、替换物体并自适应光影，从演示效果看，其文字一致性、角色连贯性超越了过往所有视频模型。跑出过火星文画面的AI用户都清楚，让AI做一个文字清晰准确的内容有多难，更不要说是数学公式，还是在课堂上边讲边写。与VEO相比，Google Omni是真正意义上全模态输入、全模态输出的模型，支持用户通过任意模态内容混合输入，生成高质量的视频，同时支持对话编辑。这意味着，Google Omni有能力将所有模态的分析与生成处理，在一个统一模型内部完成，而非调动多个系统后期整合。按照Google的定义，Omni是Gemini主架构的进化，将Gemini从诞生起就具备的原生多模态能力，从输入端扩展到了输出端。相比之下，VEO和Nano Banana并非独立产品，而是Omni身上的能力组件。在现场演示中，Google高管展示了具体编辑场景——用户输入“把背景换成雪地”，模型就换掉视频环境；输入“改成从侧面跟拍的角度”，画面运镜就随之改变；输入“加上旁白”，视频就能生成解说及背景音乐。自始至终，用户只要对话，就能像指挥员工一样修改视频，并精确到每一个细节，无需切换线程或重新上传。这就将VEO等上一代视频模型提示词生成、抽卡赌运气的模式完全改写。 DeepMind首席执行官德米斯·哈萨比斯则表示，未来Omni将能完成任意模态的输入及输出功能，入口覆盖Gemini应用、Google Flow和YouTube Shorts，更强的Omni版本会在后续推出。背后Google的野心昭然若揭。它要做一个真正的世界模型，没有媒介限制，没有模态隔阂，AI 可以用任何人类能理解的方式，和世界进行交互，用一个模型定义AI的未来形态。支撑这个野心的，正是全模态能力。很多人没意识到，统一基座的全模态模型，其实在研发效率上更有优势。在执行跨模态任务时，文本理解的提升，可以反哺图像和视频质量，让生成内容更符合逻辑；图像和视频的训练数据，又可以帮助模型更好地理解物理世界，提升文本推理和常识判断能力。这是1+1>2的正向循环。也能解释为何杨立昆、李飞飞等大牛坚持认为，多模态世界模型才是AI的未来路径。过去市场盯着Coding看，对多模态认知不足，这一思维范式正在被推翻。摩根士丹利在近期研报中指出，Minimax的潜在价值被市场忽略，其ARR在2026年底将达到10亿美元。一个重要原因是，市场低估了多模态技术的商业价值，特别是大语言模型与多模态模型的相互促进。这句话，点破了当前AI行业最大的视野盲区。原生的五感全能战士？看回国内市场，一轮技术驱动的增长正在酝酿中。摩根士丹利指出，中国模型市场已经走到凸性爆发拐点，将复刻美国市场的超新星爆发速度。原因有二：一是模型能力已经接近甚至超越此前的美国头部产品，二是相比美国模型，中国模型定价普遍更有优势。放眼国内市场，主要玩家的现阶段叙事逻辑高度趋同：争夺Claude平替这个生态位，再找独有优势，比如专攻长文本、专攻智能体、专攻推理，最后从订阅价格角度卷出优势，杀出红海。但这并不是市场的全貌。仍有玩家在技术路线上高度接近Gemini Omni的方向，有望率先在国内复刻这一生态位，就是Minimax。最近高盛发文将字节、阿里、Minimax三家并列，依据是中国独立AI厂商中，Minimax独一无二的全面全模态布局，以及其行业领先的高性价比、高灵活性计算架构。高盛：中国多模态模型持续进军全球，关注Hailuo 3 按照高盛的预测，M3与Hailuo 3模型发布，将成为Minimax的重要里程碑，其文本API业务毛利率将达到40%，多模态API业务毛利率达到60-70%，高于同行水平。瑞银则将Minimax的目标价设定为1000港元，原因是随着多模态能力潜力释放，不同模态间的协同研发，将带动训练成本的压缩，以及模型能力的快速提升。换言之，多模态研发给Minimax带来的远

订阅66必读