空间启动优于语义提示：一种基于网格的方法来提高 LLM 在图表数据提取方面的准确性

2026-05-12 1 阅读 Andrei Lazarev, Dmitrii Sedov, Alexander Galkin

arXiv:2605.08220v1 发布类型：新摘要：从科学图表中自动提取数据是大规模文献分析的关键任务。虽然多模态大语言模型 (LLM) 展现出希望，但它们在非标准化图表上的准确性仍然是一个挑战。这就提出了一个关键的研究问题：提高模型性能（高级语义启动）或低级空间启动的最有效策略是什么？本文对这两种不同的策略进行了比较研究。我们描述了我们使用语义方法进行的探索性实验，例如两阶段元数据优先框架和思想链，但未能产生统计上显着的改进。相比之下，我们提出了一种简单但高效的空间启动方法：在分析之前将坐标网格覆盖到图表图像上。我们对合成数据集的定量实验表明，与基线相比，这种基于网格的方法在数据提取误差方面提供了统计上显着的减少（SMAPE 从 25.5% 减少到 19.5%，p < 0.05）。我们的结论是，对于当前一代的多模态模型，提供明确的空间上下文是比此类任务的高级语义指导更有效和可靠的策略。