智能AI
morning
法学硕士不知道它不知道什么:通过临床表格数据的跨模型归因分歧检测认知盲点
2026-06-19
1 阅读
Akshat Dasula, Prasanna Desikan, Jaideep Srivastava
arXiv:2606.19509v1 公告类型:新 摘要:大型语言模型 (LLM) 越来越多地应用于结构化临床数据,但它们是否能够认识到自己的知识在此类任务上的局限性仍有待探索。我们通过跨模型归因分歧的视角研究这个问题,目的是减少结构化任务的认知不确定性,通过归因分歧分析在预测任务上比较 Qwen 2.5 7B 和 XGBoost。我们报告了四项发现。首先,LLM 语言化置信度在认知上是空洞的,无论准确度是 49% 还是 75.3%,它都会输出接近常数 (0.856-0.937),跟踪提示格式而不是预测质量。其次,LLM 表现出反向难度效应:当 XGBoost 99% 正确时,准确率下降至 64.8%,但在中等不确定性时,与 XGBoost 匹配(73.8% 与 73.1%)。第三,少样本样本和 SHAP 衍生的特征证据是正交的、超级相加的干预措施:它们将归因不一致分数 (ADS) 从 1.54 降低到 0.38,并且在没有训练的情况下将准确率从 49% 提高到 75.3%。第四,使用归因分歧信号确定 LLM 可靠性的跨模型校准器将预期校准误差从 0.254 降低到 0.080,用患者特定的可靠性估计取代无信息的口头置信度,无需访问模型内部或需要重复推理。我们将这些发现视为法学硕士在结构化数据上的冷启动问题,并概述了一条通往真正认知自我意识的道路。