智能AI morning

受污染数据的最小二乘插值的双下降:模拟研究

2026-05-23 1 阅读 Tino Werner
arXiv:2605.21494v1 发布类型:新 摘要:过参数化模型可以表现出出色的泛化性能,尽管根据经典统计理论,它们应该容易出现过拟合。 “双下降”的发现表明模型达到一定复杂度后泛化误差会减小,开辟了一条新的研究路线。稳健统计考虑对受污染数据的统计估计,由于不支持真实数据的假设,使得数据点显示为异常值。假设的“理想”分布,可能会严重扭曲任何经典估计量。我们解决了在训练数据受污染的线性回归设置中是否可以观察到双下降现象的问题。我们将高度非鲁棒最小二乘插值估计器的性能与几种鲁棒替代方案进行比较。事实证明,大的过参数化确实允许双重下降现象,从而导致最小二乘插值器具有非常好的泛化性能,超越了鲁棒替代方案。