Arena AI 模型 ELO 历史

显示所有型号为什么会存在这种情况？人工智能实验室经常在发布后更新其模型。这些更新有时会引入“削弱”，例如严格的审查制度、过度量化（以节省计算成本）或行为退化。该图表揭示了这些隐藏的趋势。关于 Web UI 与 API 的注意事项：LMSYS Arena 通过 API 端点（“原始”模型）测试模型性能。消费者聊天界面（例如gemini.com或chatgpt.com）通常会添加原始API中不存在的系统提示、安全过滤器和特定于UI的包装器。提供商还可能默默地切换到模型的量化（较低精度）版本，以在峰值负载期间节省计算量，从而导致 API 基准测试无法完全捕获的感知“削弱”。欢迎 PR 提供代表真实网络界面评估的数据源。数据从哪里来？数据每天自动从 Hugging Face 上的官方 LM Arena 排行榜数据集获取。 Arena 依赖于数千次盲目的、众包的人类评估，使其成为实际模型能力的最可靠的衡量标准。图表逻辑如何运作？每个主要的人工智能实验室都有一条代表其旗舰血统的曲线。在每个时间点，该曲线都会跟踪该实验室在排行榜上评价最高的符合旗舰资格的型号，而不仅仅是最近宣布的型号。最高 ELO 旗舰：如果实验室发布了中端型号（例如 Sonnet），而较高端型号（例如 Opus）仍然是表现最佳的型号，则曲线将停留在 Opus 上。推理模式变体崩溃了：像 -thinking 、 -reasoning 和 -high 这样的后缀是不同模式下的相同底层模型 - 它们被合并，因此曲线不会在它们之间翻转。新版本：显示为带有标签的标记点，通常伴随着分数的跳跃。降级：版本之间模型生命周期的任何下降趋势都清晰可见。