通过统计数据寻找最佳狗粮

发布于 2026 年 6 月 19 日，作者 Adam Wespiser Bebop，我的灰狗，体重 83 磅，33 英寸，喜欢三件事：跑得快、在房子里跟着我，以及吃东西。无论是咀嚼食物、远离聚会的孩子手中的披萨，还是一小盘猫粮，他都能敏锐地辨别出自己喜欢的东西，而且他的运动能力让他有机会获得它。我多年来一直看着他吃饭，所以当我意识到我不知道他最喜欢的零食是什么，并且不能轻易问他时，我感到很沮丧。幸运的是，对于 Bebop 的味觉来说，布拉德利-特里模型为我们提供了一种通过成对比较来找出美食“强度”的方法。该模型为每个参赛者（或治疗者）（i）分配一个正强度分数 p i 。给定两个竞争对手 i 和 j，i 击败 j 的概率为： P r ( i > j ) = p i /( p i + p j ) 同样，如果我们将每个优势写为指数分数， p i = e β i ，那么相同的概率可以写为： Pr ( i > j ) = e β i /( e β i + e β j ) 因此，该模型表示：两个竞争对手潜在优势之间的差异决定了对数赔率：一个击败另一个。国际象棋中使用的 Elo 评级系统密切相关。如果 R i 和 R j 是 Elo 评分，则： Pr ( i > j ) = (10 R i /400 )/(10 R i /400 + 10 R j /400 ) 然而，现代 Elo 评分是增量计算的，以避免昂贵的重新计算周期，并允许在每次比赛后更新分数。比赛结束后，通过将实际结果与预期结果进行比较来更新 (A) 的评分： R A ′ = R A + K ( S A − E A ) 其中 S A 是实际得分：(1) 获胜，(0.5) 平局，(0) 失败。常数 K 控制每场比赛后收视率的变动程度。因此，如果一名玩家赢得了一场他们预计会获胜的比赛，那么他们的评分只会略有变化。如果他们赢了一场预计会输的比赛，他们的评分就会发生很大变化。从这个意义上说，Elo 可以被认为是 Bradley-Terry 思想的在线版本：在每个结果之后，将评分向预测误差的方向移动。 Elo 对于象棋这样的系统很有意义，因为游戏会不断出现，并且评级需要立即更新。在这个实验中，数据集足够小，我们可以在收集试验后直接拟合 Bradley-Terry 模型。您可能还认识《社交网络》电影中的一个相关模型，其中成对比较的全球排名为 FaceSmash 提供支持，FaceSmash 是马克·扎克伯格 (Mark Zuckerberg) 的早期社交媒体实验。 1 第三个应用程序是 Chatbot Arena，它使用 Bradley-Terry 风格的模型性能排名。 2 当您想要全球排名但仅进行面对面比较时，布拉德利-特里是您可以选择的解决方案。实验对于实验，设置很简单：我们可以采取一组零食，给它们贴上标签，然后进行一系列成对比较，以发现哪种零食最好！在实验之前，我训练了一个“选择”命令。每天的同一时间，晚上 11 点左右，我去厨房，选择两种不同的零食，说“选择”这个词，然后将零食放在两只手上，让 Bebop 只拿一份，另一只放回袋子里。实验开始时，Bebop 已经习惯了这种习惯，先闻两种食物，然后再吃一种。在选择零食时，我使用了我们有历史的零食组合，例如 Greenies，并在亚马逊上搜索了各种不同格式的零食。每一种零食的大小都略有不同，但为了简单起见，我决定忽略这些差异。这可能会在结果中引入大小偏差，但是，实验是在晚饭后大约 2 小时进行的，因此他应该吃饱了，并使结果与我在实验后给他的零食的方式一致。换句话说，我对需要我切割和称重狗粮的实验不感兴趣。所选择的零食如下：零食A是MON2SUN，鸭+生皮。亚马逊链接 Treat B 是 Greenies，大号。亚马逊链接Treat C是Pork Chomps，红色的。亚马逊链接 Treat D 是 MON2SUN，鸡肉 + 生皮。亚马逊链接 Treat E 是 Pur Luv Chicken，脱水鸡肉。亚马逊链接数据对于配对，我创建了一个每日计划，其中包含两次头对头比较。完整源代码位于 github C/B :: B E/B :: E 在此示例中，我们有两场面对面的比赛，这是一天的试验。第一个游戏的左手是 C，右手是 B，获胜者是 B。第二个游戏中，E 是左手，B 是右手，获胜者是 E。为了估计结果的稳定程度，我进行了引导实验：反复对试验进行重新采样，将 Bradley-Terry 模型拟合到这些样本，并记录每种奖励出现顶部的频率。 Github 源代码大约在实验进行到一半时，我意识到 C & B、“Pork Chomps”和 Greenies 确实在失败。因为这些不在运行中，所以我用 C 或 B 用 X 标记任何计划的试验，以表明该试验已被跳过，并添加了更多 A/D/E 试验以提高功效。结果相同治疗三