迈向法学硕士的下一个前沿，私有数据培训：联合微调的跨域基准

arXiv:2605.13936v1 公告类型：新摘要：大型语言模型 (LLM) 最近的成功很大程度上是由庞大的公共数据集推动的。然而，法学硕士发展的下一个前沿领域超出了公共数据。世界上许多最有价值的信息都是私人的，特别是在医疗保健和金融等受到严格监管的行业，这些行业的数据包括患者病史或客户通信。解锁这些数据可能代表着一次重大飞跃，使法学硕士能够拥有更深入的领域专业知识和更强的现实实用性。然而，这些数据无法共享，因为它们分布在各个机构之间，并受到隐私、监管和组织障碍的限制。此外，机构数据集通常是非独立且同分布的（非 IID），不同地点的人口特征、数据模式、文档模式和特定任务的标签分布有所不同。在本文中，我们展示了一种实用方法，通过跨数据孤岛的联合协作来解锁私有和分布式机构数据以适应法学硕士。我们的框架建立在 Sherpa.ai 联合学习平台上，使节点能够共同微调共享的 LLM，而无需交换私有数据。我们通过医疗保健和金融领域的跨领域基准评估这种方法，使用四个封闭式问答和分类数据集：MedQA、MedMCQA、FPB 和 FiQA-SA。我们比较了反映机构数据异质性的非 IID 设置下预训练主干网的三种参数高效微调 (PEFT) 策略（LoRA、QLoRA 和 IA3）。我们的结果表明，联合微调的性能接近集中式训练，并且优于孤立的单机构学习。从绿色人工智能的角度来看，QLoRA 和 IA3 在精度下降有限的情况下提高了效率，支持联合 PEFT 作为适应数据无法共享的 LLM 的可行方法。