智能AI
morning
Pro$^2$Assist:通过多模式自我中心感知为长期程序任务提供持续的步骤感知主动协助
2026-05-08
1 阅读
Lilin Xu, Bufang Yang, Siyang Jiang, Kaiwei Liu, Kaiyuan Hou, Yuang Fan, Hongkai Chen, Zhenyu Yan, Xiaofan Jiang
arXiv:2605.04227v1 公告类型:新 摘要:具有多个有序步骤的程序任务在日常生活中无处不在。多模式大语言模型 (MLLM) 的最新进展使得支持日常活动的个人助理成为可能。然而,现有系统主要提供由用户查询触发的反应性指导,或对孤立的短期事件而不是长期程序任务提供有限的主动帮助。在这项工作中,我们引入了 Pro$^2$Assist,这是一种步骤感知的主动助手,可以持续跟踪细粒度的任务进度以及用户不断变化的状态的原因,以便在整个任务过程中提供及时的帮助。 Pro$^2$Assist 利用增强现实 (AR) 眼镜的多模态数据来实现基于运动的感知。然后,它从多尺度时间动态和特定任务的专家知识中提取面向步骤的程序上下文。基于感官输入和程序上下文,Pro$^2$Assist 进行连续推理以推断用户需求并在 AR 眼镜上显示及时的帮助。我们使用从公共来源收集的数据集以及在我们的测试平台上使用 AR 眼镜收集的真实数据集来评估 Pro$^2$Assist。广泛的评估表明,Pro$^2$Assist 在程序动作理解准确性方面比表现最佳的基线高出 21% 以上,并且其主动计时准确性高达基线的 2.29 倍。一项针对 20 名参与者的用户研究进一步表明,90% 的人认为 Pro$^2$Assist 很有用,这表明它在现实世界的程序协助方面的有效性。