阿里又放大招！一句话，造一个能走进去的世界

新智元报道【新智元导读】今天，阿里重磅上线HappyOyster 1.0世界模型，一句话直接生成可实时探索、物理交互的开放世界！「快乐生蚝」，真的来了！今天，阿里正式放出了HappyOyster 1.0——这是一款可实时构建和交互的开放式世界模型产品。一句话，即可生成一个完整、可演绎、可探索、可互动的数字世界。 2个月前，阿里曾把「快乐生蚝」放进了公众视野，如今这只生蚝终于长成了1.0。一句话，一个世界，这次是真的实现了。世界模型，AI下一个战场过去两年，文生视频已经相当成熟。输入一句话，等上几十秒，就能拿到一段成片，它把「文本变成画面」这件事，做得很好。只不过，成片有它天然的边界：画面生成完，这段视频就定稿了，你能做的是「看」，而不是「参与」。而世界模型想做的，是另一件事：让你不只是看一段视频，而是走进一个能实时互动、随时改变走向的世界。这无关谁取代谁，文生视频交付的是「一段结果」，世界模型为你创造的是「一段体验」—— 你给一张图、一段话，它生成的那一刻，体验才刚开始。那它具体是怎么做到的？它把视频，当成一个需要被持续推演的世界状态，学习世界如何随时间演化的规律—— 空间怎么连续、物体怎么守恒、动作之后会引发什么反馈。它要做的，不再只是「把内容生成出来」，而是「把一个世界持续推演下去」。放眼全世界，硅谷大厂、AI大佬创业公司，纷纷押注「世界模型」这一赛道。这其中，不仅有谷歌DeepMind的Genie，也有李飞飞团队倾力打造的Marble。在这场角逐中，阿里HappyOyster强势入局，路线非常明确：主动式、实时—— 你说话的同时，世界就在回应你。 HappyOyster命名的灵感，来源沙翁的名言——The world is your oyster（世界是你的牡蛎，撬开它）如今，阿里把将这句箴言刻印在「世界模型」上，态度很直白：世界，由你来撬开。快乐生蚝，一手实测这一次，HappyOyster 1.0核心版本升级，主打两大功能—— 世界探索（Adventure）：你就是世界里角色的一部分，一句话、一张图，即可开启任意世界的探索。实时导演（Directing）：你就成了那个站在世界之上的人，去导演一整个故事。百闻不如一见，接下来，我们将开启一场全面的硬核实测。世界探索：你就是世界里的「主角」一句话或一张图，你就进入一个可漫游、可战斗、可互动的开放世界。第一人称、第三人称随你切，还支持1分钟以上的实时位移与镜头控制。「世界探索」新增了一整套丰富的交互动作：前冲 / 加速、下蹲、攻击、跳跃，还支持更复杂的环境交互——乘坐驾驶载具、使用各类武器战斗。它真正把「看一个世界」变成了「在一个世界里活动」。下面这个测试中，我们让HappyOyster 1.0生成了两个壮汉在地下拳馆格斗的场景。这一场格斗里，攻击、跳跃、闪避这些动作，都是实时操控出来的——出拳、反击、再追打，节奏完全跟着指令走。关键是，一拳打出去，命中之后对手会触发「踉跄倒退」的受击反应。 HappyOyster凭借着对客观世界的理解能力，根据场景实时演化对应的物理交互，让各种复杂动作实时发生。除了战斗场景外，HappyOyster 1.0还可以丝滑处理各类连贯交互动作。下面这个地牢测试中，人物竟可以主动使用道具——火把。而且，场景的光照状态完成了合理的切换。再比如这台复古老爷车，你可以指挥人物开门、上车，再操控他把车开出去。从「看一辆车」到「上车把它开走」，中间差的就是能不能实时操控这一步。世界会不会对动作做出实时反馈，雪地是个很好的试金石。比如下面这个视频中，一名探险者深一脚浅一脚走过厚雪覆盖的山脊，每步留下脚印、踩塌的雪扬起雪粉。更关键的是，不管世界换成什么画风，任何人都能一样地走进去、实时下指令。如下视频中，是一个黏土风格的微观厨房，可以指挥角色在这个小世界里走动、探索，想去哪、做什么，都是实时演化说了算。实时导演：站在世界之上，一边演一边改 Directing模式能直接让你当导演。流式生成、即说即演，随时注入指令改走向。它的三大特性，每一条都是一种全新的交互体验：暂停：任意时刻冻结世界，想好了再继续；回溯：演到一半折回任意节点重新来过，原版本保留不丢；剧情分支：从同一个节点分叉出完全不同的走向。加上首发的多模态参考（用@图片锁定角色外观，3分钟长程一致），试错成本被压到了极低。通过HappyOyster，便可以第一视角沉浸式体验和数字人的交互，包括捏脸、说话全部都是实时的。亦或是，化身为漫剧导演，亲自执导一场霸总大戏。剧情的走向、角色的命运，一切全都由你的想象力来主宰。只需在对话框中，输入指令，AI便会按着剧本来演了。创作过程中，可以随时喊停，等创意想好了还能继续。再来一部「后宫甄猫传」，一个人就能导演一部戏。再来看下面这个demo，二次元老婆换装，想要哪种风格的，一句话直接搞定。核心技术拆解 HappyOyster 1.0 和我们熟悉的文生视频模型，不是同一类东西。差别不在画面，而在两者学习的目标。文生视频学的是「文本→视频」的单向映射——给一段描述，产出一段对应的成片，生成完，这件事就结束了。世界模型则不同，它学的是：当前状态＋你的动作 → 下一个状态的转移规律。模型必须先理解当前的场景结构、实体属性、物理关系，还要在你随时丢过来指令的情况下，准确预测并渲染世界的下一个状态。用户不再是被动的观察者，而是可以在「世界」里持续交互—— 体验的核心是中途互动本身。那么问题来了，HappyOyster 1.0 是怎么把这件事做成的？它的技术优势可以概括为四点，层层递进。第一，世界状态建模——世界能持续跑下去的基础。 HappyOyster 把世界的当前状态压缩成一份紧凑的隐状态摘要（Latent State），每生成一段内容就更新摘要，再把更新后的摘要递归传给下一段。这就像是一场接力赛跑，上一棒把「关于现在世界的一切」写成一张小纸条递给下一棒。纸条在手，世界的因果就一直接得上——几分钟跑下来，世界不会乱、因果关系不会断。更关键的是，正因为状态摘要可序列化、可存档，HappyOyster 1.0 才得以支持暂停、回溯和剧情分支这些进阶功能。第二，内生一致性——世界「不崩」的保障。 HappyOyster 以持久的参考表征参与全程注意力。简单理解就是，进入世界时给每个人物、每件关键道具发一张「身份卡」，模型全程带着这张卡生成。这样，当角色转个身、被挡住，甚至走出画面过几分钟再出现时，长相、衣着、物品都不会变样、不会变形。一致性不靠运气，而是从架构层面就是内生的。第三，开放因果动作空间——世界「能玩」的核心。世界生成稳了，接下来的关键是怎么和它交互。 HappyOyster 的做法是让动作指令和自然语言共享同一套语义接口，不需要预定义动作集。比如，用户按下「攻击」键，HappyOyster不只是播一个「挥剑」的动画，它能自主推演出整条因果链—— 出手→命中→NPC 受击倒地→地面扬尘→旁边的酒杯被震落。这些因果不是开发者一个一个写好的脚本，而是模型通过大规模因果训练自己学会的。正因如此，

订阅66必读