从无到有：语言模型能否发现 0？

摘要

17289v1 Announce Type: new Abstract: AI systems based on artificial neural networks are being developed with aspirations of pushing the boundary of human mathematical knowledge。

that language models the mathematical

2026-06-17 1 阅读约1分钟阅读 Phoebe Zeng, Thomas L. Griffiths, Brenden M. Lake

arXiv:2606.17289v1 公告类型：新摘要：基于人工神经网络的人工智能系统正在开发中，旨在突破人类数学知识的边界。这些系统的一个关键问题是它们能够超出训练数据的范围有多大。数学发现需要一种强大的分布外泛化形式；假设真正新的——并且可能在逻辑上更强大——数学结构的能力。有人假设语言能力支持人类认知的这种概括。在这项工作中，我们以简单的算术作为案例研究，考察现代人工智能模型如何扩展其数学视野，评估这些模型是否能够独立发现“零”的概念。我们表明，(1) 无论语言预训练如何，GPT-2 大小的语言模型都无法在测试时执行这种泛化，但 (2) 模型在对数十或数百个零示例进行训练后可以大幅改进。此外，我们发现语言预训练将所需示例的数量减少了大约 50\%$，这表明语言能力可以支撑神经模型中的数学发现。

订阅66必读