智能AI morning

用于变压器模型压缩的鲁棒基础样条解耦

2026-05-20 1 阅读 Joppe De Jonghe, Van Tien Pham, Mariya Ishteva
arXiv:2605.18794v1 公告类型:新 摘要:解耦是一种强大的建模范例,用于将多元函数表示为线性变换和单变量非线性函数的组合。单层解耦可以被视为具有单个隐藏层和灵活激活函数的全连接神经网络,提供与神经网络的直接链接。因此,解耦方法的使用在神经网络领域(尤其是压缩)中获得了越来越多的关注,因为它可以实现结构化近似并降低参数复杂度。现有的基于张量的解耦方法通常依赖于内部非线性函数的多项式或分段线性参数化,这可能会受到数值不稳定或表达能力有限的影响。在这项工作中,我们引入了一个基于 B 样条的解耦框架,该框架概括了这些现有方法。通过利用 B 样条的局部支持和灵活的平滑度控制,所提出的公式产生了更加数值稳定和更具表现力的表示。我们推导了约束耦合矩阵张量分解,并提出了一种鲁棒的交替最小二乘算法,称为 R-CMTF-BSD,结合了归一化和 Tikhonov 正则化。通过合成数据和变压器模型压缩的实验验证了所提出的方法。 Vision 和 Swin Transformer 架构的结果表明,B 样条解耦能够在保持有竞争力的精度的同时大幅减少参数,使 R-CMTF-BSD 算法成为结构化神经网络压缩的有前景的工具。