公平的产出，有偏见的内部：法学硕士高风险决策中潜在偏见的因果效力和不对称性

2026-05-18 1 阅读 Jagdish Tripathy, Marcus Buckmann

arXiv:2605.15217v1 公告类型：新摘要：指令调整的语言模型在高风险决策中表现出行为公平性，同时在其内部表示中保留有偏见的关联。然而，这些被抑制的表征是否会影响模型输出，以及这种因果效力在人口群体中是否对称，仍然未知。我们研究了开放权重模型在抵押贷款承销中的使用，使用匹配的应用程序，这些应用程序仅在种族相关的名称上有所不同，并揭示了一个关键的脱节：模型没有显示输出水平的偏差，但保留并放大了跨模型层的人口统计表征。通过激活引导和新颖的跨层干预，我们证明了这种被抑制的信息与决策相关：当在关键层重新注入时，它会产生近乎完全的决策逆转。至关重要的是，这种潜在偏见是不对称的——引导干预会影响一个人口统计方向的决策，而反向影响却很小——并且容易受到对抗性即时工程和参数高效微调的影响。这些发现表明，专注于产出的行为审计是不够的：公平的产出可以掩盖可利用的内部偏见。它们还激发了双层测试框架，将输出评估与高风险决策中人工智能治理的代表性分析相结合。