通过统计数据寻找最佳狗粮

2026-06-22 1 阅读 wespiser_2018
发布于 2026 年 6 月 19 日,作者 Adam Wespiser Bebop,我的灰狗,体重 83 磅,33 英寸,喜欢三件事:跑得快、在房子里跟着我,以及吃东西。无论是咀嚼食物、远离聚会的孩子手中的披萨,还是一小盘猫粮,他都能敏锐地辨别出自己喜欢的东西,而且他的运动能力让他有机会获得它。我多年来一直看着他吃饭,所以当我意识到我不知道他最喜欢的零食是什么,并且不能轻易问他时,我感到很沮丧。幸运的是,对于 Bebop 的味觉来说,布拉德利-特里模型为我们提供了一种通过成对比较来找出美食“强度”的方法。该模型为每个参赛者(或治疗者)(i)分配一个正强度分数 p i 。给定两个竞争对手 i 和 j,i 击败 j 的概率为: P r ( i > j ) = p i /( p i + p j ) 同样,如果我们将每个优势写为指数分数, p i = e β i ,那么相同的概率可以写为: Pr ( i > j ) = e β i /( e β i + e β j ) 因此,该模型表示:两个竞争对手潜在优势之间的差异决定了对数赔率:一个击败另一个。国际象棋中使用的 Elo 评级系统密切相关。如果 R i 和 R j 是 Elo 评分,则: Pr ( i > j ) = (10 R i /400 )/(10 R i /400 + 10 R j /400 ) 然而,现代 Elo 评分是增量计算的,以避免昂贵的重新计算周期,并允许在每次比赛后更新分数。比赛结束后,通过将实际结果与预期结果进行比较来更新 (A) 的评分: R A ′ = R A + K ( S A − E A ) 其中 S A 是实际得分:(1) 获胜,(0.5) 平局,(0) 失败。常数 K 控制每场比赛后收视率的变动程度。因此,如果一名玩家赢得了一场他们预计会获胜的比赛,那么他们的评分只会略有变化。如果他们赢了一场预计会输的比赛,他们的评分就会发生很大变化。从这个意义上说,Elo 可以被认为是 Bradley-Terry 思想的在线版本:在每个结果之后,将评分向预测误差的方向移动。 Elo 对于象棋这样的系统很有意义,因为游戏会不断出现,并且评级需要立即更新。在这个实验中,数据集足够小,我们可以在收集试验后直接拟合 Bradley-Terry 模型。您可能还认识《社交网络》电影中的一个相关模型,其中成对比较的全球排名为 FaceSmash 提供支持,FaceSmash 是马克·扎克伯格 (Mark Zuckerberg) 的早期社交媒体实验。 1 第三个应用程序是 Chatbot Arena,它使用 Bradley-Terry 风格的模型性能排名。 2 当您想要全球排名但仅进行面对面比较时,布拉德利-特里是您可以选择的解决方案。实验 对于实验,设置很简单:我们可以采取一组零食,给它们贴上标签,然后进行一系列成对比较,以发现哪种零食最好!在实验之前,我训练了一个“选择”命令。每天的同一时间,晚上 11 点左右,我去厨房,选择两种不同的零食,说“选择”这个词,然后将零食放在两只手上,让 Bebop 只拿一份,另一只放回袋子里。实验开始时,Bebop 已经习惯了这种习惯,先闻两种食物,然后再吃一种。在选择零食时,我使用了我们有历史的零食组合,例如 Greenies,并在亚马逊上搜索了各种不同格式的零食。每一种零食的大小都略有不同,但为了简单起见,我决定忽略这些差异。这可能会在结果中引入大小偏差,但是,实验是在晚饭后大约 2 小时进行的,因此他应该吃饱了,并使结果与我在实验后给他的零食的方式一致。换句话说,我对需要我切割和称重狗粮的实验不感兴趣。所选择的零食如下: 零食A是MON2SUN,鸭+生皮。亚马逊链接 Treat B 是 Greenies,大号。亚马逊链接Treat C是Pork Chomps,红色的。亚马逊链接 Treat D 是 MON2SUN,鸡肉 + 生皮。亚马逊链接 Treat E 是 Pur Luv Chicken,脱水鸡肉。亚马逊链接数据 对于配对,我创建了一个每日计划,其中包含两次头对头比较。完整源代码位于 github C/B :: B E/B :: E 在此示例中,我们有两场面对面的比赛,这是一天的试验。第一个游戏的左手是 C,右手是 B,获胜者是 B。第二个游戏中,E 是左手,B 是右手,获胜者是 E。为了估计结果的稳定程度,我进行了引导实验:反复对试验进行重新采样,将 Bradley-Terry 模型拟合到这些样本,并记录每种奖励出现顶部的频率。 Github 源代码 大约在实验进行到一半时,我意识到 C & B、“Pork Chomps”和 Greenies 确实在失败。因为这些不在运行中,所以我用 C 或 B 用 X 标记任何计划的试验,以表明该试验已被跳过,并添加了更多 A/D/E 试验以提高功效。结果相同治疗三