智能AI
morning
公平的产出,有偏见的内部:法学硕士高风险决策中潜在偏见的因果效力和不对称性
2026-05-18
1 阅读
Jagdish Tripathy, Marcus Buckmann
arXiv:2605.15217v1 公告类型:新摘要:指令调整的语言模型在高风险决策中表现出行为公平性,同时在其内部表示中保留有偏见的关联。然而,这些被抑制的表征是否会影响模型输出,以及这种因果效力在人口群体中是否对称,仍然未知。我们研究了开放权重模型在抵押贷款承销中的使用,使用匹配的应用程序,这些应用程序仅在种族相关的名称上有所不同,并揭示了一个关键的脱节:模型没有显示输出水平的偏差,但保留并放大了跨模型层的人口统计表征。通过激活引导和新颖的跨层干预,我们证明了这种被抑制的信息与决策相关:当在关键层重新注入时,它会产生近乎完全的决策逆转。至关重要的是,这种潜在偏见是不对称的——引导干预会影响一个人口统计方向的决策,而反向影响却很小——并且容易受到对抗性即时工程和参数高效微调的影响。这些发现表明,专注于产出的行为审计是不够的:公平的产出可以掩盖可利用的内部偏见。它们还激发了双层测试框架,将输出评估与高风险决策中人工智能治理的代表性分析相结合。