PolitNuggets：长尾政治事实的代理发现基准

2026-05-16 1 阅读 Yifei Zhu

arXiv:2605.14002v1 公告类型：新摘要：嵌入代理框架中的大型推理模型 (LRM) 已将信息检索从静态、长上下文问答转变为开放式探索。然而，现实世界的使用需要模型从分散的来源发现和综合“长尾”事实，这种能力仍然被低估。我们推出 PolitNuggets，这是一个通过为 400 位全球精英构建政治传记来综合代理信息的多语言基准，涵盖超过 10000 个政治事实。我们使用优化的多智能体系统标准化评估，并提出 FactNet，这是一种对发现、细粒度准确性和效率进行评分的证据条件协议。在模型和设置中，我们发现当前的系统经常难以处理细粒度的细节，并且效率差异很大。最后，使用基准诊断，我们将代理性能与底层模型功能联系起来，强调短上下文提取、多语言鲁棒性和可靠工具使用的重要性。