智能AI morning

二元少样本分类的谱相图:固有维数、几何饱和度和表征诊断

2026-06-25 1 阅读 Arnav Gupta
arXiv:2606.24903v1 公告类型:新 摘要:决定何时停止收集带标签的示例是应用机器学习中的一个基本但理论不足的问题。饱和指数 $S(K) = \operatorname{erank}(\widehat{\Sigma}_W^{(K)}) / K$ 衡量池内样本协方差的有效秩与镜头数的比率;我们证明,当协方差估计量充分集中在总体协方差周围并且线性判别式稳定时,它恰好低于阈值。仅从支持特征即可在 $O(d^3)$ 时间内计算出索引,无需测试标签或训练有素的分类器。通过对来自 17 个二元任务和 6 个数据集的 $N = 246$ 双对观测值进行评估,17 个任务中的 16 个在 $S(K)$ 和边际精度增益之间具有​​正任务内 Spearman 相关性(中位数 $\rho = 0.811$)。 The pooled Spearman correlation is $\rho = 0.548$ ($p = 1.1 \times 10^{-20}$, $N = 246$).所有成对显着性检验 ($p \leq 0.008$) 都支持平均边际收益为 $3.48\%$、$2.40\%$ 和 $0.82\%$ 的三相图(探索、过渡、饱和)。 As a binary stopping rule, the index achieves AUC $= 0.752$, providing meaningful probabilistic guidance for annotation decisions.渐近有效排名和峰值准确度显示任务之间不存在显着的单调关系(Spearman $r_s = 0.380$、$p = 0.133$、$N = 17$)。较小的饱和指数与较低的准确度相结合可以诊断代表性不足。 All results are for binary classification with a fixed linear classifier; extensions to $N$-way settings and pretrained backbone representations are discussed as future work.