立场：让我们开发数据探针，从根本上了解数据如何影响 LLM 表现

2026-05-20 1 阅读 Shiqiang Wang, Herbert Woisetschl\"ager, Hans Arno Jacobsen, Mingyue Ji

arXiv:2605.18801v1 公告类型：新摘要：数据是大型语言模型 (LLM) 的基础。然而，了解什么使某些数据对法学硕士工作流程的不同阶段有用，包括训练、调整、对齐、上下文学习等，以及为什么，仍然是一个悬而未决的问题。当前的方法在很大程度上依赖于对大型公共数据集的广泛实验，以获得数据过滤和数据集构建的经验启发。这些方法是计算密集型的，并且缺乏理解特定数据特征如何驱动 LLM 行为的本质的原则方法。在这篇立场文件中，我们主张需要开发系统方法，从适当定义的随机过程中生成合成序列，目标是这些序列在用于法学硕士工作流程的一个或多个阶段时可以揭示有用的特征。我们将此类序列称为数据探针。通过观察数据探针上的 LLM 行为，研究人员可以系统地研究数据特征如何影响模型性能、泛化性和鲁棒性。探测序列表现出统计特性，可以使用理论概念（例如典型集）来查看这些特性，这些概念被概括为描述 LLM 的行为。这种数据探索方法提供了一条途径，可以超越经验启发法，揭示数据在法学硕士培训和推理中的作用的基本见解。