智能AI morning

在神经科学数据到发现管道上评估人工智能代理的案例研究

2026-06-09 1 阅读 Kai A. Horstmann, Ethan Lin, Alice A. Robie, Jennifer J. Sun, Kristin Branson
arXiv:2606.07718v1 公告类型:新 摘要:代理人工智能工具为自动化科学研究管道中的软件开发瓶颈提供了一条有希望的途径,特别是对于领域专家需要几天到几个月才能构建的阶段,在这些阶段,科学家关心的是正确性和稳健性,而不是实现细节。我们对飞行光遗传学数据发现管道上的通用编码剂进行了实证研究。我们评估代理的任务远大于现有基准,数据集大几个数量级,评估标准基于领域专家标准。我们证明代理可以解决多个单独的管道阶段,这表明阶段级自动化是易于处理的。通过分析代理的代码迭代,我们表明,当没有预定义的迭代标准时,他们最为困难,而他们必须使用科学判断来评估当前的解决方案,这是一个关键的开放挑战。反映科学实践,他们有时尝试对中间输出进行目视检查以进行自我评估,但很大程度上未能正确解释他们所看到的内容或采取适当的行动。正确解决端到端管道需要将所有管道阶段的成功串联起来,这超出了代理当前的能力。我们发现了现有基准中基本上不存在的挑战,包括计算资源管理和对大型保留数据集合的泛化。最后,我们提炼出构建科学任务的原则和开放式问题的严格评估标准。