智能AI
morning
教授语言模型通过比较想法评估来预测研究成功
2026-05-23
1 阅读
Srujan P Mule, Aniketh Garikaparthi, Manasi Patwardhan
arXiv:2605.21491v1 公告类型:新 摘要:随着语言模型通过自动化假设生成和实现来加速科学研究,出现了一个新的瓶颈:在没有详尽实验的情况下评估和过滤数百个人工智能生成的想法。我们询问 LM 是否可以在进行任何实验之前学会预测研究想法的实证成功。我们研究比较实证预测:给定特定于基准的研究目标和两个候选想法,预测哪个将实现更好的基准性能。我们根据 PapersWithCode 的客观结果构建了一个包含 11,488 个想法对的数据集。虽然现成的 8B 参数模型表现不佳(加速了 30%),但 SFT 将性能大幅提升至 77.1%,优于 GPT-5 (61.1%)。通过带有可验证奖励的强化学习(RLVR)将评估框架化为推理任务,我们训练模型来发现潜在的推理路径,达到了 71.35% 的准确率。具有可解释的理由。通过额外的消融和分布外测试,我们展示了表面级启发式的鲁棒性,并转移到跨域时间分割测试集和独立构建的测试集。我们的结果表明,计算效率高的小语言模型可以作为有效、客观的验证者,为自主科学发现提供可扩展的路径。