智能AI morning

从无到有:语言模型能否发现 0?

2026-06-17 1 阅读 Phoebe Zeng, Thomas L. Griffiths, Brenden M. Lake
arXiv:2606.17289v1 公告类型:新 摘要:基于人工神经网络的人工智能系统正在开发中,旨在突破人类数学知识的边界。这些系统的一个关键问题是它们能够超出训练数据的范围有多大。数学发现需要一种强大的分布外泛化形式;假设真正新的——并且可能在逻辑上更强大——数学结构的能力。有人假设语言能力支持人类认知的这种概括。在这项工作中,我们以简单的算术作为案例研究,考察现代人工智能模型如何扩展其数学视野,评估这些模型是否能够独立发现“零”的概念。我们表明,(1) 无论语言预训练如何,GPT-2 大小的语言模型都无法在测试时执行这种泛化,但 (2) 模型在对数十或数百个零示例进行训练后可以大幅改进。此外,我们发现语言预训练将所需示例的数量减少了大约 50\%$,这表明语言能力可以支撑神经模型中的数学发现。