智能AI morning

当正确的信念崩溃时:法学硕士在临床压力下的认知弹性

2026-05-26 1 阅读 Boyu Xiao, Xiuqi Tian, Xuwen Song, Haochun Wang, Guanchun Song, Sendong Zhao, Bing Qin
arXiv:2605.23932v1 公告类型:新 摘要:尽管医学基准准确性很高,但法学硕士在临床对话中可能会表现出严重的多轮阿谀奉承,在不断升级的压力下放弃最初的正确诊断。我们提出 \textbf{\textsc{Med-Stress}},一个有针对性的压力测试框架,用于评估不断升级的压力下的信念稳定性。在九个前沿大语言模型(LLM)中,我们发现医学知识和鲁棒性之间存在明显的分离:高初始诊断能力并不意味着高信念稳定性,从而导致一些 LLM 存在巨大的知识鲁棒性差距。为了缓解这种故障模式,我们提出了一种轻量级推理时间防御,\textbf{\texttt{RBED}}(\textbf{R}ole-\textbf{B}ased\textbf{E}pistemic\textbf{D}efense)和\textbf{\texttt{R-FT}}(\textbf{R}弹性导向) \textbf{F}ine-\textbf{T}uning),一种将基于证据的压力抵抗内化的训练时间方法。实验表明 \textbf{\texttt{R-FT}} 几乎消除了信念变化并显着提高了鲁棒性。