智能AI morning

PolitNuggets:长尾政治事实的代理发现基准

2026-05-16 1 阅读 Yifei Zhu
arXiv:2605.14002v1 公告类型:新 摘要:嵌入代理框架中的大型推理模型 (LRM) 已将信息检索从静态、长上下文问答转变为开放式探索。然而,现实世界的使用需要模型从分散的来源发现和综合“长尾”事实,这种能力仍然被低估。我们推出 PolitNuggets,这是一个通过为 400 位全球精英构建政治传记来综合代理信息的多语言基准,涵盖超过 10000 个政治事实。我们使用优化的多智能体系统标准化评估,并提出 FactNet,这是一种对发现、细粒度准确性和效率进行评分的证据条件协议。在模型和设置中,我们发现当前的系统经常难以处理细粒度的细节,并且效率差异很大。最后,使用基准诊断,我们将代理性能与底层模型功能联系起来,强调短上下文提取、多语言鲁棒性和可靠工具使用的重要性。