Agora-1:多智能体世界模型

2026-05-18 1 阅读 olivercameron
Agora-1:多智能体世界模型 Agora-1 使多个参与者(人类或人工智能)能够在同一世界模拟中实时共享和交互 Oliver Cameron 2026 年 5 月 18 日 今天,我们很高兴发布 Agora-1,这是一系列多智能体世界模型中的第一个,探索世界模型如何在游戏、机器人、国防、教育、基础模型等领域实现新的、强大的共享体验。世界模型是生成任意环境的高保真模拟的强大工具,但到目前为止,它们仅限于这些模拟世界中的单个活跃参与者。通过 Agora-1,我们引入了多智能体世界模拟。为了探索多智能体世界模型,我们转向了《GoldenEye》,这是《奥德赛》团队中很多人从小到大都喜欢玩的游戏。长期以来,游戏一直是人工智能研究的有用环境,系统在 Atari、Minecraft、StarCraft 和现在的 GoldenEye 中进行了训练。 Agora-1 允许最多四名玩家在同一个生成的世界中实时互动。玩家被匹配到一个共享的死亡竞赛模拟中,每个参与者同时与同一个生成的世界进行交互。你体验到的一切都是由 Agora-1 实时生成的,该模型模拟玩家的行为互动,维护参与者之间共享的世界状态,并将生成的像素同时传输给每个玩家。实际上,Agora-1 起到了学习游戏引擎的作用。体验 Agora-1 由 Agora-1 提供支持的共享死亡竞赛模拟 从单代理到多代理世界模型 传统的世界模型将模拟动态和渲染结合在单个模型中。迄今为止,已经有多种方法探索世界模型中的多主体交互,包括 Multiverse 、 Solaris 和 MultiGen 。多重宇宙将代理状态连接成一个“分屏”表示,有效地将多个玩家视为一个世界状态。相反,Solaris 将每个参与者沿着单个自回归扩散变换器的序列维度连接起来,从而产生更强大的共享模拟。然而,由于模型上下文的增长,这种方法并不随着玩家数量线性扩展。此外,当玩家互相看不到对方时,《多元宇宙》和《索拉里斯》都很难保持一致性。 Agora-1 探索了一个不同的方向,通过解耦模拟和渲染。与 MultiGen 类似,Agora-1 在参与者之间维护明确的共享世界状态。然而,我们采用不同的方法来建模模拟动态并从共享状态进行渲染。通过分离这些功能,Agora-1 可以从多个独立视点生成同一模拟世界的一致视图,从而支持多人游戏、机器人和多视图模拟等应用。 Agore-1 学习共享世界状态的架构 Agora-1 学习两个不同的功能。首先,它了解世界状态如何随着时间的推移而演变以响应玩家交互。为此,我们直接根据一个或多个游戏的内部状态训练模型(以 Agora-1、GoldenEye 为例)。该模型学习底层的游戏动态以及玩家动作如何发生状态转换。其次,Agora-1 学习如何以视觉方式呈现共享状态。这是通过使用直接以共享游戏状态为条件的基于 DiT 的世界模型来实现的,而不是提示、图像或其他传统的条件信号。您可以将这种分离视为与现代游戏引擎的结构大致相似。不同之处在于,这两个组件都是完全学习的系统。它们不依赖于硬编码的游戏逻辑或渲染规则,而是直接从数据中学习。两种模型都带来了独特的研究挑战。离散游戏状态在结构上与大多数基于 DiT 的世界模型运行的连续视觉域不同,需要专门为游戏状态建模和大量结构化训练数据设计的架构。同时,渲染模型必须学会同时从多个视点生成相同共享状态的一致视觉表示。这种架构的结果之一是可以直接操纵底层游戏状态,从而允许 Agora-1 生成全新的关卡,同时保持与源游戏一致的游戏动态。 Agora-1 的世界状态跟踪每个智能体的健康状况、位置等 将多智能体交互扩展到基础模型 扩展共享世界状态 如今,Agora-1 的状态模型相对简单。这不是一个根本的限制。原则上,内部状态表示可以任意缩放,从而实现日益复杂的模拟和游戏动态。随着时间的推移,我们期望这些系统能够跨规则和状态表示进行泛化,从而允许通过用户交互直接生成全新的体验