智能AI
evening
我把昨晚的梦输入AI,它居然直接把我拉进去玩儿了一把?!
2026-06-19
1 阅读
闻乐
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 我把昨晚的梦输入AI,它居然直接把我拉进去玩儿了一把?! 闻乐 2026-06-19 16:42:04 来源: 量子位 创作者的终极玩具来了 闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 先说个事儿,我昨天做了个挺好玩儿的梦:踩着滑板在城市大道上飞!驰! 醒过来还意犹未尽,结果没想到AI不光帮我还原了画面,还把我拉进梦里玩了一把。 我踩着滑板往前冲,换方向、加速、跳跃、甚至秀了个Ollie(豚跳)~ 视频地址:https://mp.weixin.qq.com/s/J5v3jVnHSdluRKxRz9cCSg 属实给我整精神了,AI啥时候会干的这事?? 不卖关子了,这是 HappyOyster 1.0(快乐生蚝) 实现的,阿里ATH推出的 可实时构建和交互的开放式世界模型 产品。 看到世界模型四个字,可能有朋友好奇:这和我之前玩的Sora那些有啥区别?不都是AI生成画面嘛? 嗯……还真不是一回事。 咱先简单聊两句行业现状啊,过去这一年多,AI视频赛道卷得确实热闹,各种产品轮番上场,画面精度一个比一个高,看着确实挺惊艳。 但用多了就会发现一个共性问题:它们都是「单程票」。 你写一段描述,模型渲染出一段视频,生成完,就完了,然后你就只能看,更不能跟画面里的角色互动。 而且时间一拉长,画面大概率就会崩坏,比如角色前一秒拿着剑后一秒空手了,走两步脸都换了一张。 这也是为啥市面上AI视频基本都是短片段,不是不想做长,是长了真绷不住啊…… 说白了,当前文生视频的天花板,就是一段好看但不可更改的影像素材; 而HappyOyster 1.0做的是一件完全不同的事—— 打造一个 完整可演绎、可探索、可互动 的数字世界。 画面生成出来的那一刻,体验才刚开始。你可以一边看一边下指令,世界实时反馈并持续演化。 就好像以前你是观众,现在你成了世界的…主人。 那这只快乐生蚝到底有多快乐呢??下面就继续实打实测一波! 世界是活的,你就是主角 HappyOyster 1.0主打两大核心模式: Adventure(世界探索) 和 Directing(实时导演) 。 Adventure是「用动作探索,世界即刻延展」的开放漫游模式,你亲自下场当主角; Directing是「用镜头叙事,故事随心掌控」的导播执导模式,你站在世界之上当导演。 一个管“身体”,一个管“脑子”,覆盖了两种截然不同的创作和体验诉求。 咱先来体验Adventure模式。 我丢了一张吉卜力风格的草原图进去,画面生成的一瞬间直接把我拉了进去,整个画面是活的,在等我操作。 那我就不客气了,直接动手! 1.0版本新增了一套很丰富的交互按键,有 加速、下蹲、攻击、跳跃 ,操作手感跟你玩的3A大作相当接近。 我按了一下前冲,少年迈腿就跑起来;按攻击键,少年开始挥剑;再按跳跃,少年腾空而起,落地那一刻角色屈膝动作,镜头有个上升和下坠的变化,这细节属实拉满了。 关键是,这些全都不是预先做好的动画素材, 是模型根据你的操作实时推演出来的 。 为啥这么说呢?因为同一个场景我反复试了好几次,每次动作角度不一样,角色的姿态也不一样。 而且模型有个很聪明的设定,它会根据场景内容自动匹配可玩的交互方式。 比如我这个画面里有马车,世界就会解锁骑马互动彩蛋。少年走到马车旁,触发对应操作指令,就能直接上马骑行!! 视频地址:https://mp.weixin.qq.com/s/J5v3jVnHSdluRKxRz9cCSg 如果创建的世界里有汽车,那么就会自动匹配开关车灯、鸣笛的玩法,主打一个 「画面有什么,就能玩什么」 。 视频地址:https://mp.weixin.qq.com/s/J5v3jVnHSdluRKxRz9cCSg 而且探索过程中还能随时 截屏留存画面 ,也能保存世界,一键对外分享链接,别人点进来就能看到你创建的完整世界。 意思是,方便发朋友圈了(doge)。 如果说Adventure是让你下场当主角,那Directing就更过瘾了,直接让你当导演。 Directing支持 多模态参考 ,@一张图片就能锁定角色外观,咱直接就是一个POV恋爱互动先安排上! 我给她设定了一个近景特写镜头,全程第一视角对视,然后随手打了几条互动指令,效果be like: 视频地址:https://mp.weixin.qq.com/s/J5v3jVnHSdluRKxRz9cCSg 好好好,AI生视频这下都吃上自助餐了,我狂吃! 而且1.0版本在Directing模式上做了几个相当重磅的升级,体验完之后我只想说:这才是创作者的终极玩具! 我先用一条prompt启动了一段剧情: 在舞台上,两个人面对面激烈争吵。 看了大概二十秒之后,我觉得剧情可以转折了。 于是我输入了一条新指令: 他们突然释怀了,紧紧拥抱在一起。 接收到新指令后,两个角色的表情开始缓和,身体从对抗姿态慢慢转向靠近,最后紧紧拥抱在一起。 视频地址:https://mp.weixin.qq.com/s/J5v3jVnHSdluRKxRz9cCSg 而且,整个过程中,不光是场景,两个角色的脸、衣服、体态、发型完全没有变!! 好戏还没完—— 1.0另外杀手锏功能是 回溯 和 剧情分支 。 比如,我可以直接回退到争吵的那个节点,换条完全不同的指令,画面就会重新演化。 或者从同一个节点续写,设计出A、B两条完全不同的故事线。 等等,这不就是创作者梦寐以求的平行宇宙嘛!!! 而且所有这些操作都是流式生成的,即说即演,不用等渲染。你随时插话,剧情随时响应,这对内容行业来说,属实是黑科技啊…… 更贴心的是,官方还写了份体验指南放在网页上,教你怎么创建更好的世界~ 为什么能让世界动起来? 上面体验了这么多,估计有朋友已经按捺不住了: 这玩意儿到底是怎么做到的?跟文生视频在技术上有啥区别? 咱先把最根本的概念差异说清楚: 文生视频 的工作方式是 文本→视频的单向条件映射 ,你输入一段描述,模型一次性离线渲染出一段固定的像素序列。 世界模型 学的则是一套完全不同的东西,是 当前状态+用户动作→下一个状态的转移规律 。 △图片AI生成 这就要求模型必须同时具备三重能力:物理规律的隐式建模、长程因果链路的追踪、外部干预的即时响应。 首先要说的就是 闭环世界状态建模 。 要让一个世界持续运行,最朴素的思路是记住所有历史画面,每生成新一帧,就回头看前面所有帧来保持连贯性。 但问题是,这么干计算量会指数级膨胀,时间一长直接寄。 HappyOyster 1.0在这里把世界状态压缩成隐状态摘要(Latent State),在生成链路上递归传递,支撑长程一致性。 就像接力跑一样,跑下一棒之前,上一棒把「关于现在世界的一切」写成一张纸条递过去,一棒一棒往后传。 每生成新的一帧,模型只需要拿到上一帧的那张纸条加上你新发出的指令,就能推演出下一帧。 所以几分钟下来世界不会乱、因果关系不会断。 而且1.0版本因为这个纸条可以被存档,所以暂停、回溯、