智能AI
morning
人工智能代理可以综合科学结论吗?
2026-06-11
1 阅读
Hayoung Jung, Pedro Viana Diniz, Jos\'e Reinaldo Corr\^ea Roveda, Abner Fernandes da Silva, Haeun Jung, Enoch Tsai, Aleksandra Korolova, Manoel Horta Ribeiro
arXiv:2606.11337v1 公告类型:新 摘要:科学 AI 代理越来越多地检索证据、跨来源推理,并综合用于后续决策的结论。然而,他们在健康等高风险领域这样做的能力仍不清楚。我们引入了 SciConBench,这是一个大规模实时基准测试,包含 9.11K 个问题和来自系统评价的专家撰写的结论,用于评估开放领域的科学结论综合。该基准利用经过专家验证的自动评估管道,将结论分解为原子事实,并通过事实精度和召回来衡量正确性和全面性。为了减少数据泄漏,我们进一步引入了 SciConHarness,这是一种洁净室评估工具,为代理提供受控的网络交互,以确保有效的测量。通过评估 8 个前沿模型和深度研究智能体,我们发现事实质量仍然很低:在洁净室设置下,最好的智能体仅达到 0.337 的事实 F1。相对于无约束的评估,我们的洁净室设置始终会降低性能,这表明泄漏夸大了对模型真实合成能力的估计。最后,我们审核面向消费者的代理(例如,Google AI Overview、OpenEvidence),发现它们经常生成不完整且有时相互矛盾的结论,即使有真实答案可用。总的来说,我们的结果表明,科学结论的可靠综合仍然是一个开放的挑战,洁净室评估对于评估开放域人工智能代理至关重要。