智能AI
morning
AlphaGo之父把AI扔进23年的人造社会:智能体3块最硬骨头全在这
2026-05-23
1 阅读
新智元
新智元报道 【新智元导读】 从Atari到AlphaGo,从AlphaStar到SIMA,DeepMind用游戏做AI研究已走过十余年,每换一个战场,研究问题就升一个量级。这一次的战场是EVE Online:一个跑了23年、从未重置的活宇宙。 DeepMind CEO、 AlphaGo之父 Demis Hassabis用游戏做AI研究已走过十余年。 这一次,他把AI扔进了跑了23年的「活宇宙」:一款连新手引导都能劝退玩家的太空网游EVE Online。 棋局有终局,EVE没有。 5月初,DeepMind官宣了与EVE Online建立研究合作,原因很简单:EVE复杂且有玩家驱动的宇宙,是测试AI记忆、持续学习和长期规划的完美安全沙盒。 DeepMind联手EVE,不是为了追求有趣的游戏体验,或者赋能游戏玩法,而是要啃下当前AI智能体研究里公认最难啃的三块骨头, Hassabis 把答案押在了一款运营23年的老游戏上。 Fenris Creations(原CCP Games)宣布与DeepMind合作 EVE Online背后的公司,5月6日同一天宣布了四件事: 从母公司Pearl Abyss体系中重新独立; 更名为Fenris Creations; 完成1.2亿美元交易; Google作为本次独立的一部分,持有Fenris Creations少数股权,并同步启动与Google DeepMind的研究合作。 Fenris Creations CEO Hilmar Veigar Pétursson在公告中声称: 这次转型不涉及裁员或重组,团队、产品、开发计划保持不变。EVE继续。 从运营数字看,这家公司是带着「真实弹药」来谈合作的,而不是卖资产求生。 EVE Online 2025年营收超过7000万美元,11月创下历史最高收入纪录,Q4成为该游戏20年历史上营收第二高的季度。 Fenris Creations独立出来,意味着EVE现在有了一个能自主决定研究合作的母公司,不再被一家更大的游戏发行公司的战略目标绑架。 1997年Fenris出版的桌游产品盒。「Fenris」这个名字比EVE Online还早了6年,更名为Fenris Creations是一次回溯,不是另起炉灶 DeepMind为何会选中EVE? 23年「人造社会」 AI基准测试难以复制 很多人听到「游戏+AI研究」,第一反应是回想AlphaGo或AlphaStar,EVE和它们都不同。 围棋和星际争霸有一个共同特点:一局比赛有开始,有结束,有明确的胜负规则。 AlphaGo的目标是打赢棋局,AlphaStar的目标是打赢一场星际对战,都是「单局智能」的研究范式,但EVE没有终局。 EVE Online以「单一共享宇宙」(single-shard / single shared universe)著称,大量玩家长期在同一个持久世界中竞争、贸易、结盟和战争。 玩家在这里建立起了真实的经济体系、政治联盟、军事集团、贸易路线、历史恩怨和跨年度的战争计划。 有些战役从筹备到落幕要花掉整整一年。有些联盟的崛起和覆灭,被后来的玩家当作真实历史研究。 Hilmar在公告中说:「EVE是少数几个能在已经像真实世界运转的环境中探索智能问题的地方。」 Hassabis更是谈到,自己从小玩游戏,职业生涯起点是设计AI模拟游戏,AlphaGo、AlphaStar和SIMA的研究都和游戏深度绑定,而EVE是下一阶段的选择: 我很高兴能与Fenris Creations合作,在这个由玩家打造、复杂程度无与伦比的宇宙里,安全地探索全新的游戏体验并推进AI研究。 大多数AI基准测试像是体检,EVE更像是把AI扔进一个已经持续了23年的「人造社会」。 智能体3块最硬骨头 刚好是EVE玩家日常 这次官方明确列出了三个研究方向:长程规划(long-horizon planning)、记忆(memory)、持续学习(continual learning)。 这三个方向,是当前AI智能体研究领域公认的3块最难啃的骨头。 如果你身边有人玩过十年以上的EVE Online,让他打开账号给你看一眼好友列表,你很可能会看到几十个分组、上百个名字,备注栏里写着「2018年Delve战役欠的债」「鹅群联盟(Goonswarm)内部叛徒,别合作」「这哥们儿是间谍,组织里都知道」。 这不是上下文窗口,而是十年起步的跨会话长程记忆。 记忆这一关,EVE玩家天天都在过,持续学习这一关也一样。 2014年1月,B-R5RB一战持续约21小时,参战角色超过7500个,75艘Titan被毁,损失折合真实货币约30万美元。整场战役的导火索,是一笔主权账单未能自动支付。 这一仗打完,整个游戏的舰队战术全部改写。各联盟之后几年的舰队配置、战术体系,全部围绕复盘在迭代。每月都在改,每场失败都被拆成可执行的策略更新。 至于长程规划,EVE联盟战争的标准时间单位不是小时,是月。 一场跨星域战争从筹备到打响,造船、运输、外交、潜伏、反间,几百号玩家在没有任何任务调度的情况下自发协作,跨月推进一个共同目标。 这套协作体系是23年里玩家自己长出来的。 当前AI智能体评估里被认为最硬的3块骨头,恰好是EVE玩家的日常。 EVE中23年的玩家驱动演化,产生了一个始终在变、始终复杂、没有捷径的环境,实验室里人工合成不了这种复杂度。 DeepMind在2025年11月发布的SIMA 2,已经从「执行指令」进化到「理解目标、推理过程、边玩边学」。 从研究问题上看,EVE项目与SIMA 2同属「游戏作为智能体训练场」这条路线,不同的是这次场地换成了一个持续运转23年的真实宇宙。 EVE Online游戏内战役画面,这种由玩家自发组织、动辄持续数小时的大规模会战,是DeepMind选中EVE作为长程规划与持续学习研究场景的核心原因 DeepMind进的是离线沙盒 不是玩家宇宙 DeepMind这次和Fenris的合作方式,比想象中保守,DeepMind拿到的不是直接接入现役玩家正式服的权限。 DeepMind官方在公告中声明:初始研究将在离线版本的EVE Online上进行,使用本地服务器,在受控环境里测试和评估模型,不连接EVE Online正式运营服务器。 一方面,离线版意味着DeepMind不会去消费现役玩家的对战数据,也不会扰动真正的服务器经济,这避免了任何隐私和合规上的复杂度。 另一方面,离线版EVE仍可保留复杂的规则系统、舰船与经济机制、星域结构等核心设计。 DeepMind拿到的是一个「被23年玩家压力测试过」的复杂世界,作为智能体要去活下去的考场。 从Atari到EVE 这条路走向哪里 从DeepMind这十几年的训练场选择往回看,有一条很清晰的进化线。 2013到2015年,Atari是起点。DQN把智能体放进《打砖块》《太空入侵者》这种关卡明确、规则封闭的游戏。考的是反应和价值估计。 2016到2017年,AlphaGo和AlphaZero。围棋规则规整、动作空间巨大但封闭。考的是搜索和长链推理。 2019年,AlphaStar进了《星际争霸2》。第一次进入实时、不完美信息、多线博弈的环境。考的是部分可观察