智能AI
evening
阿里又放大招!一句话,造一个能走进去的世界
2026-06-17
1 阅读
新智元
新智元报道 【新智元导读】 今天,阿里重磅上线HappyOyster 1.0世界模型,一句话直接生成可实时探索、物理交互的开放世界! 「快乐生蚝」,真的来了! 今天,阿里正式放出了HappyOyster 1.0——这是一款可实时构建和交互的开放式世界模型产品。 一句话,即可生成一个完整、可演绎、可探索、可互动的数字世界。 2个月前,阿里曾把「快乐生蚝」放进了公众视野,如今这只生蚝终于长成了1.0。 一句话,一个世界,这次是真的实现了。 世界模型,AI下一个战场 过去两年,文生视频已经相当成熟。 输入一句话,等上几十秒,就能拿到一段成片,它把「文本变成画面」这件事,做得很好。 只不过,成片有它天然的边界:画面生成完,这段视频就定稿了,你能做的是「看」,而不是「参与」。 而世界模型想做的,是另一件事:让你不只是看一段视频,而是走进一个能实时互动、随时改变走向的世界。 这无关谁取代谁,文生视频交付的是「一段结果」,世界模型为你创造的是「一段体验」—— 你给一张图、一段话,它生成的那一刻,体验才刚开始。 那它具体是怎么做到的? 它把视频,当成一个需要被持续推演的世界状态,学习世界如何随时间演化的规律—— 空间怎么连续、物体怎么守恒、动作之后会引发什么反馈。 它要做的,不再只是「把内容生成出来」,而是「把一个世界持续推演下去」。 放眼全世界,硅谷大厂、AI大佬创业公司,纷纷押注「世界模型」这一赛道。 这其中,不仅有谷歌DeepMind的Genie,也有李飞飞团队倾力打造的Marble。 在这场角逐中,阿里HappyOyster强势入局,路线非常明确:主动式、实时—— 你说话的同时,世界就在回应你。 HappyOyster命名的灵感,来源沙翁的名言——The world is your oyster(世界是你的牡蛎 ,撬开它) 如今,阿里把将这句箴言刻印在「世界模型」上,态度很直白:世界,由你来撬开。 快乐生蚝,一手实测 这一次,HappyOyster 1.0核心版本升级,主打两大功能—— 世界探索(Adventure):你就是世界里角色的一部分,一句话、一张图,即可开启任意世界的探索。 实时导演(Directing):你就成了那个站在世界之上的人,去导演一整个故事。 百闻不如一见,接下来,我们将开启一场全面的硬核实测。 世界探索:你就是世界里的「主角」 一句话或一张图,你就进入一个可漫游、可战斗、可互动的开放世界。 第一人称、第三人称随你切,还支持1分钟以上的实时位移与镜头控制。 「世界探索」新增了一整套丰富的交互动作:前冲 / 加速、下蹲、攻击、跳跃,还支持更复杂的环境交互——乘坐驾驶载具、使用各类武器战斗。 它真正把「看一个世界」变成了「在一个世界里活动」。 下面这个测试中,我们让HappyOyster 1.0生成了两个壮汉在地下拳馆格斗的场景。 这一场格斗里,攻击、跳跃、闪避这些动作,都是实时操控出来的——出拳、反击、再追打,节奏完全跟着指令走。 关键是,一拳打出去,命中之后对手会触发「踉跄倒退」的受击反应。 HappyOyster凭借着对客观世界的理解能力,根据场景实时演化对应的物理交互,让各种复杂动作实时发生。 除了战斗场景外,HappyOyster 1.0还可以丝滑处理各类连贯交互动作。 下面这个地牢测试中,人物竟可以主动使用道具——火把。而且,场景的光照状态完成了合理的切换。 再比如这台复古老爷车,你可以指挥人物开门、上车,再操控他把车开出去。 从「看一辆车」到「上车把它开走」,中间差的就是能不能实时操控这一步。 世界会不会对动作做出实时反馈,雪地是个很好的试金石。 比如下面这个视频中,一名探险者深一脚浅一脚走过厚雪覆盖的山脊,每步留下脚印、踩塌的雪扬起雪粉。 更关键的是,不管世界换成什么画风,任何人都能一样地走进去、实时下指令。 如下视频中,是一个黏土风格的微观厨房,可以指挥角色在这个小世界里走动、探索,想去哪、做什么,都是实时演化说了算。 实时导演:站在世界之上,一边演一边改 Directing模式能直接让你当导演。流式生成、即说即演,随时注入指令改走向。 它的三大特性,每一条都是一种全新的交互体验: 暂停:任意时刻冻结世界,想好了再继续; 回溯:演到一半折回任意节点重新来过,原版本保留不丢; 剧情分支:从同一个节点分叉出完全不同的走向。 加上首发的多模态参考(用@图片锁定角色外观,3分钟长程一致),试错成本被压到了极低。 通过HappyOyster,便可以第一视角沉浸式体验和数字人的交互,包括捏脸、说话全部都是实时的。 亦或是,化身为漫剧导演,亲自执导一场霸总大戏。 剧情的走向、角色的命运,一切全都由你的想象力来主宰。只需在对话框中,输入指令,AI便会按着剧本来演了。 创作过程中,可以随时喊停,等创意想好了还能继续。 再来一部「后宫甄猫传」,一个人就能导演一部戏。 再来看下面这个demo,二次元老婆换装,想要哪种风格的,一句话直接搞定。 核心技术拆解 HappyOyster 1.0 和我们熟悉的文生视频模型,不是同一类东西。 差别不在画面,而在两者学习的目标。 文生视频学的是「文本→视频」的单向映射——给一段描述,产出一段对应的成片,生成完,这件事就结束了。 世界模型则不同,它学的是: 当前状态+你的动作 → 下一个状态 的转移规律。 模型必须先理解当前的场景结构、实体属性、物理关系,还要在你随时丢过来指令的情况下,准确预测并渲染世界的下一个状态。 用户不再是被动的观察者,而是可以在「世界」里持续交互—— 体验的核心是中途互动本身。 那么问题来了,HappyOyster 1.0 是怎么把这件事做成的? 它的技术优势可以概括为四点,层层递进。 第一,世界状态建模——世界能持续跑下去的基础。 HappyOyster 把世界的当前状态压缩成一份紧凑的隐状态摘要(Latent State),每生成一段内容就更新摘要,再把更新后的摘要递归传给下一段。 这就像是一场接力赛跑,上一棒把「关于现在世界的一切」写成一张小纸条递给下一棒。 纸条在手,世界的因果就一直接得上——几分钟跑下来,世界不会乱、因果关系不会断。 更关键的是,正因为状态摘要可序列化、可存档,HappyOyster 1.0 才得以支持暂停、回溯和剧情分支这些进阶功能。 第二,内生一致性——世界「不崩」的保障。 HappyOyster 以持久的参考表征参与全程注意力。 简单理解就是,进入世界时给每个人物、每件关键道具发一张「身份卡」,模型全程带着这张卡生成。 这样,当角色转个身、被挡住,甚至走出画面过几分钟再出现时,长相、衣着、物品都不会变样、不会变形。 一致性不靠运气,而是从架构层面就是内生的。 第三,开放因果动作空间——世界「能玩」的核心。 世界生成稳了,接下来的关键是怎么和它交互。 HappyOyster 的做法是让动作指令和自然语言共享同一套语义接口,不需要预定义动作集。 比如,用户按下「攻击」键,HappyOyster不只是播一个「挥剑」的动画,它能自主推演出整条因果链—— 出手→命中→NPC 受击倒地→地面扬尘→旁边的酒杯被震落。 这些因果不是开发者一个一个写好的脚本,而是模型通过大规模因果训练自己学会的。 正因如此,