智能AI morning

只靠头显和手柄,搞定全身动作高精度重建 | ICML'26

2026-05-16 1 阅读 新智元
新智元报道 编辑:LRST 【新智元导读】 MotionMAR模型,通过分层生成方式解决稀疏观测下人体运动重建难题。该模型将运动视为多尺度过程,先生成整体轮廓再细化局部动作,从而在仅用头部和双手数据时,依然能还原完整姿态,为轻量级动捕系统提供新方向。 在VR/AR场景当中,用户仅仅需要戴着头显、手握两个手柄,便能够在虚拟世界里面去完成挥手、转身以及自由移动等一系列动作。 但是设备所捕捉到的数据,实际上只有头部和双手。至于腰部究竟是怎么扭动的?腿部又是怎么迈开的?还有脚跟到底在何时落地?这些缺失的肢体动态方面的信息,完全是凭借着模型在后台进行推理来获取的。 这也就构成了 稀疏观测人体运动重建 面临的核心挑战:输入端只有3个追踪点,输出端却要还原22个关节的完整姿态。如果捕捉设备越少,用户的使用门槛自然也就越低;但传感器越少,则意味着模型在后台所需要去推理的信息变得更多。 面对这一挑战,厦门大学与上海科技大学联合提出了一种全新思路: 不要把动作当成一串平铺的时间帧来预测,而是像人类运动的物理直觉那样,从整体的大趋势到局部的小细节,采用分层的方式来进行生成。 论文主页: http://www.lidarhumanmotion.net/motionmar/ 实验室主页: https://asc.xmu.edu.cn/ 论文第一作者来自厦门大学信息学院空间感知与计算实验室(ASC)2024级博士生罗裕华、2025级硕士生张俊圣,通讯作者为厦门大学沈思淇长聘副教授,并由刘梦茵、林心成、颜明、陈朱迪、温程璐教授、许岚助理教授(上海科技大学)、王程教授共同合作完成。 研究团队长期聚焦于3D人体姿态估计、快速人体运动捕捉及相关多模态数据集构建。 只看头和手,难在哪? 在MotionMAR的具体设定当中,输入的数据是头部以及左右手这三个传感器所提供的 6-DoF(六自由度)刚体变换 ,另外再加上线速度与角速度;而最终的目标则是要输出由22个关键节点所组合而成的完整人体动作序列。 这里面真正的难点在于「一对多 」 的姿态歧义性。 举个例子:当你的双手位置保持不变时,你的下半身可能在静止站立,也可能正在原地踏步;当头部的运动轨迹平稳地向前行进时,躯干和腿部依然会存在着无数种不同的发力方式。 而传统的那些单尺度序列处理方法,往往会表现得顾此失彼,很难去同时兼顾到长时间的物理稳定性以及短时间内的动作细节。 针对这一点,MotionMAR所提出的思路是非常巧妙的: 人体动作本来就不是单尺度的平铺信号。 它把视觉自回归生成当中那种「先去生成粗略的图像、再去补充具体细节 」 的内在逻辑,直接运用到了人体运动生成过程上面。 图1:MotionMAR的coarse-to-fine多尺度生成过程 MotionMAR 先定轮廓,再补细节 MotionMAR主要是由四个核心组件共同组成:包含了时间多尺度词元量化变分自编码器(Temporal Multi-scale Tokenization VQ-VAE,TMT VQ-VAE)、尺度感知控制模块(Scale-Aware Control Module,SAC)、运动自回归网络(Motion Autoregressive Network,MAN),以及运动精炼网络(Motion Refinement Network,MRN)。 图2:MotionMAR整体框架 如图所示, TMT VQ-VAE 架构基于Transformer编码器(E)和解码器(D)构建,并与多尺度量化器协同工作。完整的人体运动数据 从编码器开始:它处理人体运动序列并将其压缩为连续的潜在表示 ,其中t表示时间降采样长度,d表示特征维度。经过压缩后,多尺度量化器 将这些连续特征映射为离散标记 ,而后经过解码器重建完整的人体运动。TMT VQ-VAE主要功能是将连续运动序列映射到多尺度的离散潜在空间,为自回归生成提供层次先验。 研究人员将TMT的处理过程总结如下。 对于长度为 T 的输入隐变量,通过使用一个共享的码本,在K = 3个时间尺度(即 T/4、T/2、T)上对其进行逐次量化。 在每个尺度k下,残差特征(初始值为输入的潜在特征H)会经历以下四个步骤:首先,通过1D线性插值将残差特征降采样到分辨率t 。接下来,降采样特征和共享代码本嵌入进行L2 loss。通过余弦相似度检索降采样特征的最近码本向量。然后,将码本向量插值到原始长度T 。应用1D残差卷积块来平滑时间上的不连续性。最后,将平滑后的量化特征添加到最终重建中,并从当前残差中减去,从而得到下一层更精细尺度的输入。 SAC 负责将稀疏跟踪信号投影到高维潜在空间中,随后通过一维卷积模块提取连续的局部时序特征。由于自回归网络作用于离散的多尺度token,这些连续信号需要进行时间对齐。 通过线性插值法实现这一对齐:对提取的特征进行重采样,使其精确匹配TMT VQVAE 定义的每个尺度对应的时间分辨率 。由此生成的控制特征金字塔 ,使其能够同步条件信号与各尺度下的token序列长度。 MAN 可以说是整个生成过程的核心所在,并不是像以往那样逐帧地去做next-token,而是去执行next-scale的预测方式:也就是先预测粗尺度token,再预测更细尺度token;在同一层内的token是可以通过并行的方式来进行预测的,而在不同的层与层之间则是保持着一种自回归的依赖关系。 在最后阶段,MRN会在连续的姿态空间里面去进行残差修正,以此来减少量化误差和局部的抖动现象,从而让最终输出的动作能够变得更加稳定、也更加顺畅。 实验结果 AMASS上多数指标达到最优 MotionMAR在AMASS数据集上训练和评估,模拟标准VR/XR设置,并且针对三种不同的设置进行了测试:分别是三点追踪的S1设置、加入了root joint的四追踪器S2设置,以及在更大规模数据组合情况下的S3设置。评价指标包括 MPJRE、MPJPE、MPJVE、部位级误差和Jitter。 先看最标准的三点追踪设置S1。 表1:S1设置下的全身运动重建结果 从表中可以看到,MotionMAR在绝大多数的重建指标上都取得了更低的误差,只有Jitter比RPM略低,但RPM在人体结构的还原以及姿态重建精度方面明显落后。 图3:MotionMAR与baseline方法的可视化对比 图中是MotionMAR在S1设置下的可视化评估。结果显示,MotionMAR在手部以及腿部等区域与Ground Truth之间的的对齐效果要表现得更好一些。 在加入了root joint之后,MotionMAR在S2设置中仍保持领先的地位。 表2:S2设置下的全身运动重建结果 而更大规模数据组合下的S3设置,则是被用来测试模型的泛化能力。 表3:S3设置下的泛化实验结果 MotionMAR在S3设置下依然保持着多数指标优势,说明了它并不只是在单一数据设置下才能够发挥作用。 消融实验:最关键的是「时间多尺度」 为了准确地验证出每一个单独的模块有没有发挥作用,MotionMAR做了系统消融实验。 表4:MotionMAR消融实验结果 通过表格的数据我们能够发现,TMT、SAC、MRN其实各自都在解决不同问题:TMT决定了模型进行多尺度建模的能力,