智能AI
morning
Google I/O 之后,AI 的依赖系变了
2026-05-21
1 阅读
市象
文 | 市象,作者 | 景行,编辑 | 古廿 当前,Coding 时代的行业共识已经确立。 “尽管我们上调了Token价格,客户接受度依然很高,需求持续旺盛,甚至当前供应仍无法完全满足需求,仍有大量客户在排队等待服务。” 上周2026财年Q4财报会议上,阿里巴巴CEO吴泳铭用一番发言,道出Coding蛋糕的庞大。 AI 终于从发布会走进了企业的生产预算,阿里解决了第一个问题:AI 有没有真实需求? 第二个问题来自Google:AI下一步会长成什么样? 北京时间5 月 20 日凌晨,Google I/O 2026如期开场。 这届大会的亮点,无疑是智能体与多模态能力的展示。在Gemini Omni Flash的发布中,Google对其有一段精确定义——支持任何模态的输入,生成任何模态的输出。 大会展示的视频输出只是一个开始,按照Google的规划,Omni有能力实现文图音视的全模态输出,并基于Gemini的世界模型能力,生成重力、动力更精确的物理效果。 对Google来说,Omni不再是一个视频模型,而是真正的超级内容创作入口,进而嵌入所有的创作者工作流程,创造一个比Coding想象空间更大的多模态应用市场。 相较编程,这是AI的真正富矿。从行业通用定价来看,每百万 tokens 的价格,视频模型要远高于图片和文本。这意味着,只要token调用量提升,视频将创造远超文本的API价值。 更重要的是,多模态正在迎来一个历史性的技术拐点。 对比早期文本模型+图像模型+视频模型的简单拼接模式,在2026年,以 Google Gemini Omni 为代表的统一基座全模态模型的出现,标志着行业即将进入一个全新的时代。 多模态,下一个Token拐点 OpenAI 首席执行官Sam Altman没想到的是,100万用户规模的成绩,发布初的ChatGPT要5天实现,GPT-4o图像生成只需要1个小时。 凭借高度还原的吉卜力画风,GPT-4o生图功能上线即爆红,OpenAI 不得不限制免费资格,并恳求用户不要再疯狂生图,让团队睡个好觉。 今年发布的图像生成模型Image 2,一小时全球新增用户破180万,再次打破GPT-4o纪录,一周时间内,全球活跃用户便超过1.2亿,带动ChatGPT Plus订阅量环比增长23%。 年初Google Nano Banana 2的发布,则实现了全球测试屠榜的盛况。产品将一张4K多细节图的生成时间,从分钟级压缩到秒级。 截至目前,Nano Banana系列累计生成图片已超过500亿张。媒体评价是,Google正在终结PS时代。 毫无疑问,颠覆级的多模态模型,拥有一锤定音的市场影响力。 在去年的Google I/O大会上,VEO 3一鸣惊人,切水果视频席卷了TikTok,仅用半年时间,生成视频总量就突破2.3亿条,有媒体撰文称,VEO 3挽救了谷歌的财报。 但更大的颠覆还在路上。 前几天有Reddit用户意外找到并分享了一则Gemini Omni的Demo,瞬间引爆了全球AI社区: 教师一边讲课,一边在黑板上写下公式,全程声音、画面、板书文字精确流畅,丝滑至极。 有X用户的评价是,视频模型的Nano Banana时刻要来了。 Gemini Omni的惊艳之处不仅于此,模型支持一键去除水印、替换物体并自适应光影,从演示效果看,其文字一致性、角色连贯性超越了过往所有视频模型。 跑出过火星文画面的AI用户都清楚,让AI做一个文字清晰准确的内容有多难,更不要说是数学公式,还是在课堂上边讲边写。 与VEO相比,Google Omni是真正意义上全模态输入、全模态输出的模型,支持用户通过任意模态内容混合输入,生成高质量的视频,同时支持对话编辑。 这意味着,Google Omni有能力将所有模态的分析与生成处理,在一个统一模型内部完成,而非调动多个系统后期整合。 按照Google的定义,Omni是Gemini主架构的进化,将Gemini从诞生起就具备的原生多模态能力,从输入端扩展到了输出端。 相比之下,VEO和Nano Banana并非独立产品,而是Omni身上的能力组件。 在现场演示中,Google高管展示了具体编辑场景——用户输入“把背景换成雪地”,模型就换掉视频环境;输入“改成从侧面跟拍的角度”,画面运镜就随之改变;输入“加上旁白”,视频就能生成解说及背景音乐。 自始至终,用户只要对话,就能像指挥员工一样修改视频,并精确到每一个细节,无需切换线程或重新上传。这就将VEO等上一代视频模型提示词生成、抽卡赌运气的模式完全改写。 DeepMind首席执行官德米斯·哈萨比斯则表示,未来Omni将能完成任意模态的输入及输出功能,入口覆盖Gemini应用、Google Flow和YouTube Shorts,更强的Omni版本会在后续推出。 背后Google的野心昭然若揭。它要做一个真正的世界模型,没有媒介限制,没有模态隔阂,AI 可以用任何人类能理解的方式,和世界进行交互,用一个模型定义AI的未来形态。 支撑这个野心的,正是全模态能力。 很多人没意识到,统一基座的全模态模型,其实在研发效率上更有优势。 在执行跨模态任务时,文本理解的提升,可以反哺图像和视频质量,让生成内容更符合逻辑;图像和视频的训练数据,又可以帮助模型更好地理解物理世界,提升文本推理和常识判断能力。 这是1+1>2的正向循环。也能解释为何杨立昆、李飞飞等大牛坚持认为,多模态世界模型才是AI的未来路径。 过去市场盯着Coding看,对多模态认知不足,这一思维范式正在被推翻。 摩根士丹利在近期研报中指出,Minimax的潜在价值被市场忽略,其ARR在2026年底将达到10亿美元。一个重要原因是,市场低估了多模态技术的商业价值,特别是大语言模型与多模态模型的相互促进。 这句话,点破了当前AI行业最大的视野盲区。 原生的五感全能战士? 看回国内市场,一轮技术驱动的增长正在酝酿中。 摩根士丹利指出,中国模型市场已经走到凸性爆发拐点,将复刻美国市场的超新星爆发速度。原因有二:一是模型能力已经接近甚至超越此前的美国头部产品,二是相比美国模型,中国模型定价普遍更有优势。 放眼国内市场,主要玩家的现阶段叙事逻辑高度趋同:争夺Claude平替这个生态位,再找独有优势,比如专攻长文本、专攻智能体、专攻推理,最后从订阅价格角度卷出优势,杀出红海。 但这并不是市场的全貌。 仍有玩家在技术路线上高度接近Gemini Omni的方向,有望率先在国内复刻这一生态位,就是Minimax。 最近高盛发文将字节、阿里、Minimax三家并列,依据是中国独立AI厂商中,Minimax独一无二的全面全模态布局,以及其行业领先的高性价比、高灵活性计算架构。 高盛:中国多模态模型持续进军全球,关注Hailuo 3 按照高盛的预测,M3与Hailuo 3模型发布,将成为Minimax的重要里程碑,其文本API业务毛利率将达到40%,多模态API业务毛利率达到60-70%,高于同行水平。 瑞银则将Minimax的目标价设定为1000港元,原因是随着多模态能力潜力释放,不同模态间的协同研发,将带动训练成本的压缩,以及模型能力的快速提升。 换言之,多模态研发给Minimax带来的远