Qwen-AgentWorld:一般代理的语言世界模型

2026-06-24 1 阅读 ilreb
计算机科学 > 计算与语言 arXiv:2606.24597 (cs) [提交于 2026 年 6 月 23 日] 标题:Qwen-AgentWorld: Language World Models for General Agents 作者:Yuxin Zuo , Zikai Xiao , Li Shen , Fei Huang , Jianghong Tu , Yuxuan Liu , Tianyi Tang , Xiaomeng Hu , Yang Su , Qingfeng Lan , Yantao Liu ,朱勤, 张颖儿, 于博文, 赵海泉, 徐海洋, 杨建新, 程嘉阳, 王俊阳, 邓良浩, 薛明峰, 白天一, 范阳, 马宇博, 李玉成, 崔泽宇, 王志海, 谢志辉, 叶卓瑞, 安阳, 刘大一恒, 周静仁, 丁宁 查看论文PDF标题为“Qwen-AgentWorld:通用智能体的语言世界模型”,作者为 Yuxin Zuo 和其他 32 位作者 查看 PDF HTML(实验) 摘要:世界模型根据当前观察和行动预测环境动态,作为推理和规划的核心认知机制。在这项工作中,我们研究了基于语言模型的世界建模如何进一步突破通用智能体的界限。 (i)我们首先专注于构建代理环境模拟的基础模型。我们推出了 Qwen-AgentWorld-35B-A3B 和 Qwen-AgentWorld-397B-A17B,这是第一个能够通过长链思维推理模拟覆盖 7 个领域的代理环境的语言世界模型。利用现实环境中7个域的超过10M的环境交互轨迹,我们通过三阶段训练管道开发Qwen-AgentWorld:CPT从状态转换动力学和增强的专业语料库中注入通用世界建模功能,SFT激活下一状态预测推理,RL通过具有混合标题和规则奖励的定制框架来提高模拟保真度。为了评估语言世界模型,我们提出了 AgentWorldBench,这是一个综合基准,由 5 个前沿模型在 9 个既定基准上的现实交互构建而成。实证结果表明,Qwen-AgentWorld 显着优于现有的前沿模型。 (ii) 除了基础模型之外,我们还进一步研究了两种互补的范式,通过它们世界建模增强了通用智能体。首先,作为一个解耦的环境模拟器,Qwen-AgentWorld 支持对数千个真实世界环境进行可扩展、可控的模拟,以实现代理强化学习,所产生的收益超越了单独的真实环境训练。其次,作为统一的代理基础模型,世界模型训练可以作为高效的热身,提高 7 个代理基准的下游性能。代码:此 https URL 主题:计算和语言 (cs.CL) 引用为:arXiv:2606.24597 [cs.CL](或此版本的 arXiv:2606.24597v1 [cs.CL]) https://doi.org/10.48550/arXiv.2606.24597 重点了解更多 arXiv 发布的 DOI,通过DataCite(待注册) 提交历史记录 发件人:Fei Huang [ 查看电子邮件 ] [v1] Tue, 23 Jun 2026 13:53:55 UTC (3,883 KB) 全文链接: 访问论文:查看由 Yuxin Zuo 和其他 32 位作者撰写的题为 Qwen-AgentWorld:通用代理的语言世界模型的论文的 PDF 查看 PDF HTML(实验)TeX 源代码查看许可证 当前浏览上下文: cs.CL < 上一页 |下一页 > 新 |最近 | 2026-06 更改浏览方式: cs 参考文献和引文 NASA ADS Google Scholar 语义学者导出 BibTeX 引文 正在加载... BibTeX 格式的引文 × 正在加载... 数据提供者: 书签 书目工具 书目和引文工具 书目浏览器 切换书目浏览器(什么是浏览器?) 关联论文 切换关联论文(什么是关联论文?) Litmaps 切换 Litmaps(什么是 Litmaps?) scite.ai 切换 scite 智能引文(什么是智能引文?) 与本文相关的代码、数据、媒体 代码、数据和媒体 alphaXiv 切换 alphaXiv(什么是 alphaXiv?) 链接到代码切换 CatalyzeX 论文代码查找器(什么是 CatalyzeX?) DagsHub 切换DagsHub (什么是 DagsHub?) GotitPub 切换 Gotit.pub (什么是 GotitPub?) Huggingface 切换 Hugging Face (什么是 Huggingface?) ScienceCast 切换 ScienceCast (什么是 ScienceCast?) 演示 演示 Replicate 切换 复制 (什么是 Replicate?) Spaces 切换 Hugging Face 空间 (什么是 Spaces?) 空间切换TXYZ.AI(什么是 TXYZ.AI?)相关论文推荐器和搜索工具链接到 Influence Flower Influence Flower(什么是 Influence Flowers?)核心推荐器切换 CORE 推荐器(什么是 CORE?)作者地点机构主题关于 arXivLabs arXivLabs:与社区合作者的实验项目 arXivLabs 是一个框架,允许合作者直接在我们的网站上开发和共享新的 arXiv 功能。与 arXivLabs 合作的个人和组织都接受并接受了我们开放、社区、卓越和用户数据隐私的价值观。 arXiv 致力于这些价值观,并且只与遵守这些价值观的合作伙伴合作。您有一个可以为 arXiv 社区增加价值的项目想法吗?了解更多