智能AI morning

SOLAR:一种自我优化的开放式自主代理,用于终身学习和持续适应

2026-05-22 1 阅读 Nitin Vetcha, Dianbo Liu
arXiv:2605.20189v1 公告类型:新 摘要:尽管大型语言模型 (LLM) 取得了显着的成功,但它们在动态的现实环境中部署时仍然面临瓶颈,主要挑战是概念漂移和基于梯度的适应的高成本。传统的微调(FT)很难适应非平稳数据流,而又不会导致获取或需要大量手动数据管理的灾难性后果。为了解决流式学习和持续学习范式中的这些局限性,我们提出了自我优化终身自主推理器(SOLAR),它是一种开放式自主代理,利用参数级元学习进行自我改进,将模型权重视为探索环境。它通过巩固常识性知识的强大先验来启动该过程,使其有效地进行迁移学习。通过利用多级强化学习方法,SOLAR 可以自主发现适应策略,从而实现对未知领域的高效测试时适应。至关重要的是,SOLAR 维护了有效修改策略的不断发展的知识库,隐式充当情景记忆缓冲区,以平衡可塑性(适应新任务)和稳定性(元知识的保留)。实验表明,SOLAR 在常识、数学、医学、编码、社会和逻辑推理任务上的表现优于强大的基线,标志着朝着能够终生适应不断变化的环境的自主代理迈出了重要的一步。