智能AI
morning
混合开放式三重进化使深度研究人员变得更好
2026-06-15
1 阅读
Hongming Piao, Chi Liu, Mengzhuo Chen, Yan Shu, Derek Li, Ying Wei, Bryan Dai
arXiv:2606.13710v1 公告类型:新 摘要:深入研究和代理进化是人工智能代理在现实世界应用中实现通用人工智能的实际任务。前者能够在开放环境中自主检索和集成信息,以解决开放式研究任务,但它受到代理系统静态参数化深度研究能力的限制。后者允许代理自主地与环境交互,以获得发展模型功能的经验。然而,其有效性仅在具有标准答案的可验证任务上得到广泛验证,与开放式研究任务存在差距。为了弥合这两个关键任务,我们提出了混合开放式三进化(HOTE)框架,该框架利用混合模式强化学习来促进提议者、求解者和判断者基于网络规模知识的协作进化,从而在开放式任务和环境中向自主进化代理迈进。对三个长篇深度研究基准的大量实验表明,通过 HOTE 训练的 8B 模型以更少的时间开销超越了最强的静态开放 8-32B 模型以及通过最先进的深度研究训练方法训练的模型,并进一步验证了 HOTE 中所有三个模块的演化是不可或缺的。