教授语言模型通过比较想法评估来预测研究成功

摘要

arXiv:2605.21491v1 Announce Type: new Abstract: As language models accelerate scientific research by automating hypothesis generation and implementation, a new bottleneck emerges: evaluating and filte

and models research ideas new

2026-05-23 1 阅读约1分钟阅读 Srujan P Mule, Aniketh Garikaparthi, Manasi Patwardhan

arXiv:2605.21491v1 公告类型：新摘要：随着语言模型通过自动化假设生成和实现来加速科学研究，出现了一个新的瓶颈：在没有详尽实验的情况下评估和过滤数百个人工智能生成的想法。我们询问 LM 是否可以在进行任何实验之前学会预测研究想法的实证成功。我们研究比较实证预测：给定特定于基准的研究目标和两个候选想法，预测哪个将实现更好的基准性能。我们根据 PapersWithCode 的客观结果构建了一个包含 11,488 个想法对的数据集。虽然现成的 8B 参数模型表现不佳（加速了 30%），但 SFT 将性能大幅提升至 77.1%，优于 GPT-5 (61.1%)。通过带有可验证奖励的强化学习（RLVR）将评估框架化为推理任务，我们训练模型来发现潜在的推理路径，达到了 71.35% 的准确率。具有可解释的理由。通过额外的消融和分布外测试，我们展示了表面级启发式的鲁棒性，并转移到跨域时间分割测试集和独立构建的测试集。我们的结果表明，计算效率高的小语言模型可以作为有效、客观的验证者，为自主科学发现提供可扩展的路径。

订阅66必读