人工智能代理可以综合科学结论吗？

摘要

11337v1 Announce Type: new Abstract: Scientific AI agents increasingly retrieve evidence, reason across sources, and synthesize conclusions used in consequential decisions。

and that agents conclusions evaluation

2026-06-11 1 阅读约1分钟阅读 Hayoung Jung, Pedro Viana Diniz, Jos\'e Reinaldo Corr\^ea Roveda, Abner Fernandes da Silva, Haeun Jung, Enoch Tsai, Aleksandra Korolova, Manoel Horta Ribeiro

arXiv:2606.11337v1 公告类型：新摘要：科学 AI 代理越来越多地检索证据、跨来源推理，并综合用于后续决策的结论。然而，他们在健康等高风险领域这样做的能力仍不清楚。我们引入了 SciConBench，这是一个大规模实时基准测试，包含 9.11K 个问题和来自系统评价的专家撰写的结论，用于评估开放领域的科学结论综合。该基准利用经过专家验证的自动评估管道，将结论分解为原子事实，并通过事实精度和召回来衡量正确性和全面性。为了减少数据泄漏，我们进一步引入了 SciConHarness，这是一种洁净室评估工具，为代理提供受控的网络交互，以确保有效的测量。通过评估 8 个前沿模型和深度研究智能体，我们发现事实质量仍然很低：在洁净室设置下，最好的智能体仅达到 0.337 的事实 F1。相对于无约束的评估，我们的洁净室设置始终会降低性能，这表明泄漏夸大了对模型真实合成能力的估计。最后，我们审核面向消费者的代理（例如，Google AI Overview、OpenEvidence），发现它们经常生成不完整且有时相互矛盾的结论，即使有真实答案可用。总的来说，我们的结果表明，科学结论的可靠综合仍然是一个开放的挑战，洁净室评估对于评估开放域人工智能代理至关重要。

订阅66必读