智能AI
morning
不更新参数就能强化学习!OpenAI翁家翌提出新范式:决策只需AI手搓一个.py 文件
2026-05-09
1 阅读
闻乐
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 不更新参数就能强化学习!OpenAI翁家翌提出新范式:决策只需AI手搓一个.py 文件 闻乐 2026-05-09 16:07:08 来源: 量子位 实现过程开源可复现 闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 没有训练梯度的AI,打破了Atari游戏满分纪录。 OpenAI核心研究员 翁家翌 提出了一个强化学习新范式—— 启发式学习(Heuristic Learning, HL) 。 全程无神经网络训练、无梯度更新,全程靠GPT-5.4驱动的Codex自主迭代,硬是在经典游戏Breakout上打到了864分理论满分。 与传统深度强化学习优化神经网络参数不同,HL不依赖可微权重存储策略,而是将决策逻辑迁移到离散程序空间,以代码编辑替代梯度下降,通过显式的符号规则实现状态-动作映射。 在游戏、机器人仿真多项任务里,该方法性能甚至超过老牌强化学习算法PPO。 以程序代码为载体 传统深度强化学习(DRL)长期默认智能体的决策核心必须依托神经网络实现。 比如在游戏里,当观测到游戏小球位于左侧时,神经网络通过复杂映射直接输出「向左移动」的动作; 但整个决策过程是隐式黑箱的,没人能清晰拆解内部逻辑,只能依赖梯度下降算法盲目迭代拟合。 也正因这种底层架构,深度强化学习始终难以逾越三大核心瓶颈。 一是 灾难性遗忘 。神经网络以参数存储习得技能,新任务的梯度迭代会直接覆盖旧有权重,无法实现多任务持续学习。 二是 决策黑箱、不可解释 。智能体每一次动作选择都隐藏在海量网络权重与矩阵运算中,无法追溯决策依据,也不能人工干预、拆解逻辑。 三是 样本效率低下 。依赖海量环境交互数据完成训练迭代,收敛周期长、算力消耗巨大,整体研发与落地成本高。 HL的思路很直接,既然参数更新是问题的根源,那干脆不要参数。 它把智能体的决策策略从神经网络的权重转化为可读的程序代码,把学习从梯度优化变成代码编辑。 在HL的框架里,AI维护的不再是单一策略文件,而是一套完整的智能化软件系统: 显式的状态检测器(“球在左上方,速度向右”)、显式的规则逻辑(“如果球将落在左侧,则向左移动”)、还有测试用例、回归检查、失败记录、版本历史。 每次迭代,Codex会审视系统表现,阅读失败录像,分析日志,然后做出结构性调整。 这种范式的关键的优势是:知识是显式的。 旧能力不会被覆盖,而是封装成模块和测试,随时可调用、可验证、可传承。 就像翁家翌说的: HL把持续学习从“如何更新参数”变成了”如何维护一个持续吸收反馈的软件系统”。 当然,HL并不是完全排斥梯度技术,它内部某些组件(如模型预测控制MPC)仍然会用梯度做局部搜索。 但关键在于这类 梯度运算不用于神经网络训练与参数更新 ,仅服务于实时动作决策。 而且这种架构设计让HL原生自带可解释、抗遗忘、高效率的特性。 Atari满分,机器人控制SOTA 不只是拿到Breakout的864分,翁家翌完成了完整的Atari 57大规模测试(Atari 57是行业公认的强化学习基准测试集,包含57款不同类型的经典游戏,覆盖离散动作空间的各类决策场景)。 每款游戏设置两种观测模式,各自重复三轮实验,最终生成342条独立的智能编码迭代轨迹。 结果显示,在统一环境交互步数的前提下,启发式学习HL的整体中位表现,已经和PPO等主流深度强化学习算法持平。 在Breakout、Asterix、Jamesbond等多款经典游戏中,成绩甚至超越人类玩家基准水平。 相比游戏离散决策,MuJoCo机器人连续控制任务难度更高。 以四足机器人Ant为例,需要协同调控8个关节,在高维连续动作空间中维持动态平衡。 启发式学习HL从基础节律步态规则起步,逐步迭代加入姿态反馈、触地信号感知、短程模型预测等逻辑,最终综合评分突破6000 分,性能完全对标专业深度强化学习模型。 在HalfCheetah猎豹仿真任务中,HL更是跑出了11836的平均高分,展现出在复杂连续控制场景的极强适配能力。 不过翁家翌也没有回避HL的边界。 他直言: 在我目前认知范围内,我想不出有个agent能搓出一个纯Python code、不用神经网络去解决 ImageNet。 从原始像素中完成目标识别、特征抽象,依旧是深度神经网络不可替代的强项。 而启发式学习HL的核心价值,集中体现在 策略持续迭代 层面,当环境动态变化、需要长期自适应调整行为逻辑时,显性化的代码规则系统更适配持续学习需求。 所以,当下关键的命题在于如何把神经网络与HL有机融合,一并攻克在线学习与持续学习两大难题。 翁家翌指出最具落地前景的思路是,依托HL实时处理在线环境数据流,快速沉淀可复用的在线行为经验; 再将这些显性经验整理、内化,转化为可训练、可回归、可筛选的高质量数据集,反过来对神经网络做周期性迭代更新。 参考链接: [1]https://x.com/Trinkle23897/status/2052596837547495549 [2]https://trinkle23897.github.io/learning-beyond-gradients 版权所有,未经授权不得以任何形式转载及使用,违者必究。 强化学习 闻乐 小米双模型正式开源!MiMo-V2.5-Pro无中断肝出“macOS”:54个应用全开、浏览器真能冲浪 2026-04-29 一台中国空间相机,打破索尼富士Adobe的影像垄断 2026-04-27 AI开始接管实验室了!玻尔·跃迁实验室:试剂、设备、数据一个入口搞定,1800+设备即插即用 2026-04-18 OpenClaw的风,已经吹进了奶茶圈 2026-04-18 扫码分享至朋友圈 相关阅读 DeepMind大放送:开放4个多物体表征学习数据集+智能体新研究 实用贴 安妮 2019-09-09 DeepMind 强化学习 表征学习 这款超火的游戏,AI只用4小时,就秀出了人类花1年才能达到的水平 Reddit热度2.7k 萧箫 2020-12-29 人工智能 强化学习 火箭联盟 中国AI麻将打出新高度!战胜真人职业选手,鹅厂「绝艺」刷新战绩 明敏 2023-07-11 决策AI 强化学习 绝艺 腾讯 百度正用谷歌AlphaGo,解决一个比围棋更难的问题 最著名的NP-完全问题之一。 夏乙 2019-03-06 AlphaGo 人工智能 强化学习 百度 多模态模型学会打扑克:表现超越GPT-4v,全新强化学习框架是关键 全程无需人类反馈 克雷西 2024-06-04 多模态 强化学习 只要你的AI算法能比小白鼠聪明,DeepMind的这20万奖金请拿走 贾浩楠 2020-05-06 任务集 动物行为 强化学习 热门文章 突破视觉仿真算力瓶颈!新一代具身智能仿真框架开源:高吞吐并行高保真渲染助力规模化训练 2026-05-03 太抓马了!马斯克OpenAI开庭,硅谷巨富互揭老底像极了村口吵架 2026-05-03 不好!1930年的