必要但不充分：法学硕士法官安全评估中的温度控制和再现性

arXiv:2606.26185v1 公告类型：新摘要：LLM 作为法官（“评分者”）组件现已成为评估工具中的标准组件，包括安全评估，其中通过/失败判决可能会影响下游部署决策。一个普遍的假设是，将分级机的采样温度设置为 0 可以使分级具有确定性。我们针对真实的安全评估代码库（日本 AISI 的开源 aisev）测试了这一假设，并表明它在两个层面上失败了。首先，安全带在不设置温度或种子的情况下调用其分级机；底层提供程序默默地应用其默认值 1.0，因此决策边界附近的项目在相同的运行中会翻转通过/失败（在 20 次运行中，每个项目的分歧高达 ~50%）。其次，固定温度 = 0 减少但不能消除翻转：在跨越两个提供程序、三个模型层和五个采样配置的 690 个 API 调用中，即使在强制贪婪解码 (top_k=1) 下，7 个边界项中的 1-2 个仍然不可重现。此后，Claude Opus 4.7/4.8 已完全弃用温度，使得主要缓解措施不适用于较新的型号。这些发现暴露了一个结构性差距：报告单次运行判决而没有方差或评分者不一致指标的评估工具可能会将噪音呈现为安全属性。我们发布了一个复制工具（690 个调用，7 个条件），并建议工具将评分者的分歧与分数本身一起视为一流的健康指标。