是否干预：通过概率模型混合指导推理时间对齐

摘要

11201v1 Announce Type: new Abstract: The wide deployment of LLMs has made model alignment necessary to make newly trained models safely and effectively respond to user instructions。

and alignment models BlendIn model

2026-06-11 1 阅读约1分钟阅读 Jin Gan, Xin Li, Jun Luo

arXiv:2606.11201v1 公告类型：新摘要：LLM 的广泛部署使得模型对齐成为必要，以使新训练的模型安全有效地响应用户指令。在不同的方法中，推理时间对齐通常更便宜，因为它仅在输出生成期间进行干预（即提供指导）。现有提案应用从某些一致模型中提取的指导，而没有正确评估其可靠性。尽管如此，我们的系统评估表明，不同模型的指导效果差异很大；由于无效的指导会导致进一步的混乱，从而导致进一步的干预，由此产生的过度干预通常表明绩效不佳。为了使干预措施更加有效，从而更加高效，我们引入了 BlendIn，这是一种推理时间对齐框架，它从二元决策转变为创建集成两种模型知识的混合分布。 BlendIn 通过执行质量感知对齐并根据可靠性按比例加权每个模型的贡献来稳定推理时间对齐。与现有作品相比，它保留了有益的指导，同时淡化了不可靠的建议。 BlendIn 提供诊断信号和针对偏差指导的缓解策略，在具有挑战性的模型对上实现一致且高达 50% 的性能改进。我们的代码位于：https://github.com/DecayingSeart/BlendIn。

订阅66必读