只靠头显和手柄，搞定全身动作高精度重建

新智元报道编辑：LRST 【新智元导读】 MotionMAR模型，通过分层生成方式解决稀疏观测下人体运动重建难题。该模型将运动视为多尺度过程，先生成整体轮廓再细化局部动作，从而在仅用头部和双手数据时，依然能还原完整姿态，为轻量级动捕系统提供新方向。在VR/AR场景当中，用户仅仅需要戴着头显、手握两个手柄，便能够在虚拟世界里面去完成挥手、转身以及自由移动等一系列动作。但是设备所捕捉到的数据，实际上只有头部和双手。至于腰部究竟是怎么扭动的？腿部又是怎么迈开的？还有脚跟到底在何时落地？这些缺失的肢体动态方面的信息，完全是凭借着模型在后台进行推理来获取的。这也就构成了稀疏观测人体运动重建面临的核心挑战：输入端只有3个追踪点，输出端却要还原22个关节的完整姿态。如果捕捉设备越少，用户的使用门槛自然也就越低；但传感器越少，则意味着模型在后台所需要去推理的信息变得更多。面对这一挑战，厦门大学与上海科技大学联合提出了一种全新思路：不要把动作当成一串平铺的时间帧来预测，而是像人类运动的物理直觉那样，从整体的大趋势到局部的小细节，采用分层的方式来进行生成。论文主页： http://www.lidarhumanmotion.net/motionmar/ 实验室主页： https://asc.xmu.edu.cn/ 论文第一作者来自厦门大学信息学院空间感知与计算实验室（ASC）2024级博士生罗裕华、2025级硕士生张俊圣，通讯作者为厦门大学沈思淇长聘副教授，并由刘梦茵、林心成、颜明、陈朱迪、温程璐教授、许岚助理教授（上海科技大学）、王程教授共同合作完成。研究团队长期聚焦于3D人体姿态估计、快速人体运动捕捉及相关多模态数据集构建。只看头和手，难在哪？在MotionMAR的具体设定当中，输入的数据是头部以及左右手这三个传感器所提供的 6-DoF（六自由度）刚体变换，另外再加上线速度与角速度；而最终的目标则是要输出由22个关键节点所组合而成的完整人体动作序列。这里面真正的难点在于「一对多」的姿态歧义性。举个例子：当你的双手位置保持不变时，你的下半身可能在静止站立，也可能正在原地踏步；当头部的运动轨迹平稳地向前行进时，躯干和腿部依然会存在着无数种不同的发力方式。而传统的那些单尺度序列处理方法，往往会表现得顾此失彼，很难去同时兼顾到长时间的物理稳定性以及短时间内的动作细节。针对这一点，MotionMAR所提出的思路是非常巧妙的：人体动作本来就不是单尺度的平铺信号。它把视觉自回归生成当中那种「先去生成粗略的图像、再去补充具体细节」的内在逻辑，直接运用到了人体运动生成过程上面。图1：MotionMAR的coarse-to-fine多尺度生成过程 MotionMAR 先定轮廓，再补细节 MotionMAR主要是由四个核心组件共同组成：包含了时间多尺度词元量化变分自编码器（Temporal Multi-scale Tokenization VQ-VAE，TMT VQ-VAE）、尺度感知控制模块（Scale-Aware Control Module，SAC）、运动自回归网络（Motion Autoregressive Network，MAN），以及运动精炼网络（Motion Refinement Network，MRN）。图2：MotionMAR整体框架如图所示， TMT VQ-VAE 架构基于Transformer编码器（E）和解码器（D）构建，并与多尺度量化器协同工作。完整的人体运动数据从编码器开始：它处理人体运动序列并将其压缩为连续的潜在表示，其中t表示时间降采样长度，d表示特征维度。经过压缩后，多尺度量化器将这些连续特征映射为离散标记，而后经过解码器重建完整的人体运动。TMT VQ-VAE主要功能是将连续运动序列映射到多尺度的离散潜在空间，为自回归生成提供层次先验。研究人员将TMT的处理过程总结如下。对于长度为 T 的输入隐变量，通过使用一个共享的码本，在K = 3个时间尺度（即 T/4、T/2、T）上对其进行逐次量化。在每个尺度k下，残差特征（初始值为输入的潜在特征H）会经历以下四个步骤：首先，通过1D线性插值将残差特征降采样到分辨率t 。接下来，降采样特征和共享代码本嵌入进行L2 loss。通过余弦相似度检索降采样特征的最近码本向量。然后，将码本向量插值到原始长度T 。应用1D残差卷积块来平滑时间上的不连续性。最后，将平滑后的量化特征添加到最终重建中，并从当前残差中减去，从而得到下一层更精细尺度的输入。 SAC 负责将稀疏跟踪信号投影到高维潜在空间中，随后通过一维卷积模块提取连续的局部时序特征。由于自回归网络作用于离散的多尺度token，这些连续信号需要进行时间对齐。通过线性插值法实现这一对齐：对提取的特征进行重采样，使其精确匹配TMT VQVAE 定义的每个尺度对应的时间分辨率。由此生成的控制特征金字塔，使其能够同步条件信号与各尺度下的token序列长度。 MAN 可以说是整个生成过程的核心所在，并不是像以往那样逐帧地去做next-token，而是去执行next-scale的预测方式：也就是先预测粗尺度token，再预测更细尺度token；在同一层内的token是可以通过并行的方式来进行预测的，而在不同的层与层之间则是保持着一种自回归的依赖关系。在最后阶段，MRN会在连续的姿态空间里面去进行残差修正，以此来减少量化误差和局部的抖动现象，从而让最终输出的动作能够变得更加稳定、也更加顺畅。实验结果 AMASS上多数指标达到最优 MotionMAR在AMASS数据集上训练和评估，模拟标准VR/XR设置，并且针对三种不同的设置进行了测试：分别是三点追踪的S1设置、加入了root joint的四追踪器S2设置，以及在更大规模数据组合情况下的S3设置。评价指标包括 MPJRE、MPJPE、MPJVE、部位级误差和Jitter。先看最标准的三点追踪设置S1。表1：S1设置下的全身运动重建结果从表中可以看到，MotionMAR在绝大多数的重建指标上都取得了更低的误差，只有Jitter比RPM略低，但RPM在人体结构的还原以及姿态重建精度方面明显落后。图3：MotionMAR与baseline方法的可视化对比图中是MotionMAR在S1设置下的可视化评估。结果显示，MotionMAR在手部以及腿部等区域与Ground Truth之间的的对齐效果要表现得更好一些。在加入了root joint之后，MotionMAR在S2设置中仍保持领先的地位。表2：S2设置下的全身运动重建结果而更大规模数据组合下的S3设置，则是被用来测试模型的泛化能力。表3：S3设置下的泛化实验结果 MotionMAR在S3设置下依然保持着多数指标优势，说明了它并不只是在单一数据设置下才能够发挥作用。消融实验：最关键的是「时间多尺度」为了准确地验证出每一个单独的模块有没有发挥作用，MotionMAR做了系统消融实验。表4：MotionMAR消融实验结果通过表格的数据我们能够发现，TMT、SAC、MRN其实各自都在解决不同问题：TMT决定了模型进行多尺度建模的能力，