每个成功目标的能量：代理人工智能系统的目标级能量核算

arXiv:2605.22883v1 公告类型：新摘要：当前的 AI 能源基准以单个模型调用或训练运行的粒度来衡量消耗。对于经典的单轮工作负载，该单元保持一致。对于代理系统（其中单个用户目标可能触发多步骤编排、工具调用、重试和故障恢复周期），调用计数是实现工件而不是任务属性，并且推理级标准化错误地表示了目标完成的能量成本。我们提出了 A-LEMS（Agentic LLM 能量测量系统），这是一个跨层测量框架，它重新定义了 AI 能量核算的单位，从每次推理的能量到每成功目标的能量（EpG）。 EpG 聚合所有执行尝试（包括失败和重试）的总工作流能量，并通过成功完成的目标进行标准化。 A-LEMS 通过时间边界模型、将 RAPL 信号映射到工作流程级能量的五层观察管道以及将每个测量结果绑定到硬件和运行时配置的再现性协议来形式化能量归因。在 EpG 的基础上，我们定义了编排开销指数 (OOI)，将编排的能源成本与相同任务标准下的线性执行隔离开来。在五个推理和三个工具增强任务系列中，代理工作流程每个成功目标消耗的平均能量比线性基线高 4.33 倍（888.1 J vs 205.3 J）。这种开销是由编排结构驱动的，而不是推理计算。对于工具增强的任务，OOI 反转低于 1.0 倍：代理执行比线性执行更便宜，确认指标捕获编排结构而不是固定的向上偏差。这些发现表明，每次推理的能量对于代理人工智能来说是不够的。 EpG 和 OOI 为准确的基准测试提供了测量基础，其中编排结构是能源成本的主要决定因素。

订阅66必读