智能AI
morning
入选ECCV 2026!清华开源空间模型打败Gemini:真正的空间智能是在世界变化中持续学习
2026-06-22
1 阅读
思邈
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 入选ECCV 2026!清华开源空间模型打败Gemini:真正的空间智能是在世界变化中持续学习 思邈 2026-06-22 11:48:38 来源: 量子位 120分钟长视频一边看一边记 允中 发自 凹非寺 量子位 | 公众号 QbitAI 在机器人、自动驾驶、AR等真实场景中, 空间理解 从来都不是“看一眼图像”就能解决的问题。 相机持续移动、视角不断变化、目标时隐时现,空间信息从来不是明确且集中的,而是往往分散在长时间视频流里,模型不仅要“看得见”,更要 “记得住、连得起来、还能持续更新” 。 这使得 流式空间智能 成为多模态大模型迈向真实世界应用的一道关键门槛。 这篇文章的出发点是思考:多模态Agent如何在动态变化的世界中持续更新自己,而不是每次都像第一次看见世界。 真实世界不是一张静态图片,也不是一段固定长度的视频,而是 一段持续展开的经验流 。 正如人理解空间,也不是一次性看完整个房间,而是在移动、观察、遗忘、修正中,逐渐形成稳定的空间记忆。 近日,由 清华大学博士生刘芳甫 担任一作,联合多位研究者共同完成的 Spatial-TTT ,被计算机视觉顶级会议ECCV 2026正式接收。 ECCV与CVPR、ICCV通常并称为计算机视觉三大顶级会议,每两年举办一届,用率常年偏低。 对于一项工作而言,入选ECCV不只是多了一个会议标签,也意味着它需要在研究问题、方法创新与实验完整性上接受严格的同行评审。 Spatial-TTT瞄准的,正是多模态模型从“看懂画面”迈向“理解真实空间”过程中一个尚未解决的核心问题: 当视频不断延长,模型能否不依赖无限膨胀的上下文,而是在观看过程中,持续形成并更新自己的空间记忆? 实验中,仅有 2B 参数的Spatial-TTT,在论文测试的多个专项空间智能基准上超过 GPT-5、Gemini-3-pro 等闭源模型,并能够处理 最长120分钟 的流式视频。 它所给出的答案可以概括为一句话: 让模型不只是看视频,而是在观看过程中, 边看、边更新、边“长出”一份空间记忆 。 能看长视频,不等于能够记住和理解空间 空间智能的难点,从来不只是“把上下文做长”,而是 空间信息该如何在时间维度上被选择、组织、保留下来 。 在真实场景中,模型面对的是一段持续涌入的视觉流: 相机移动会改变视角,遮挡会打断观察,物体的显隐又会让关键证据散落在相距很远的时刻。 现有方法尝试过引入深度信息、多视角输入、空间专项微调数据,乃至训练专用空间模型,但大多仍局限于单张图像或短视频片段,很难扩展到真实应用中动辄 几十分钟、几小时 的长时程流式视频。 更进一步看,问题的核心并不只是模型”窗口不够长”,而是它缺少一种机制,能在推理过程中不断把新观察吸收进内部状态,再把这些状态组织成一份可供后续调用的空间记忆。 传统的静态推理范式很难解决这一点,而TTT恰好提供了另一种可能: 让模型在推理时边看边更新参数,用参数本身的变化来承担记忆功能。 Spatial-TTT:把模型参数变成动态记忆 为应对上述挑战,研究团队提出Spatial-TTT,将fast weights作为一种紧凑的非线性记忆,在处理视频流的同时进行在线更新,不断累积跨时间的3D空间证据。 与把整段视频一次性塞进上下文不同,Spatial-TTT更像是在 持续“维护一份空间状态” : 每当新的视频chunk到来,模型就对已有的空间记忆做一次增量式刷新。 TTT概念并不新,难的是让它真正理解空间 TTT此前已经被用于语言建模、新视角合成和视频生成,但流式视觉空间理解有其特殊性: 模型既要保留预训练阶段形成的视觉—语言能力,又要显式利用视频token的局部几何与时间连续性,还需要足够密集的监督,教会快速权重哪些空间信息值得长期保留。 围绕这三个问题,Spatial-TTT分别设计了 混合架构、空间预测机制和密集场景描述监督 。 设计一:混合式TTT架构,完美兼顾预训练知识和长视频处理 直接把所有注意力层替换成TTT层,理论上效率更高,但会破坏原始多模态模型的跨模态对齐与语义能力,相当于在获得长程记忆的同时,丢失了模型原本的语义理解能力。 为此,研究团队设计了 混合式TTT架构 : 在解码器中按照3:1的比例交错插入TTT层与标准self-attention anchor layers,其中75%的层采用TTT,负责将长程信息写入快速权重; 25%的层保留标准全注意力,作为锚定层,维持预训练模型已有的语义理解和跨模态推理能力。 也就是说,Spatial-TTT并非用TTT取代注意力,而是让两者各自承担不同角色: TTT负责记得更久,全注意力负责理解得更准。 与此同时,为提升大块视觉token的处理效率,模型还引入了 large-chunk更新 ,并搭配并行的sliding-window attention —— 前者大幅提升GPU利用率,避免传统TTT小块频繁更新导致的效率低下,以及强行切断帧内空间结构的问题; 后者则保证chunk内部仍具有完整的因果局部交互,避免空间连续性被更新边界打断。 两者分工明确:滑动窗口负责处理近期帧和局部结构,快速权重则负责跨块保存更长期的信息。 这一设计让模型在长视频场景下既具备线性复杂度带来的可扩展性,又不会牺牲局部时空建模能力。 设计二:Spatial-predictive mechanism,让在线记忆真正“懂空间” 仅仅把TTT搬到视频中还不够。 研究团队观察到,传统TTT中Q/K/V通常通过逐点线性投影生成,这意味着每个视觉token在进入快速权重之前,主要被当成一个孤立单元处理—— 这种方式忽略了视觉token之间天然存在的局部几何结构和时间连续性,不利于空间状态的稳定更新。 但视觉空间信息天然存在于局部关系中,如果忽略这种局部连续性,快速权重就需要从零开始推断几何关系,记忆也更容易变得碎片化。 为此,Spatial-TTT在TTT分支中引入了 空间预测机制 (spatial-predictive mechanism),对Q/K/V加入轻量级3D时空卷积。 经过这一处理,fast weights学到的就不再是孤立token之间的映射,而是 时空上下文到时空上下文的预测关系 ,从而能更好地捕捉几何对应、视角变化与时间连续性,显著增强在线更新的稳定性与有效性。 设计三:稠密场景描述监督,模型从“会答题”走向“维护全局3D记忆” 现有空间智能数据大多是 稀疏、局部的Q&A监督 ,例如判断两个物体的相对关系,或者回答一个整数计数问题—— 这类短答案,只能覆盖场景状态中的极小部分,对fast weights学习长期有效的更新动态帮助有限。 问题在于,快速权重需要学习的是如何持续维护整个场景,而不仅仅是提取某个局部答案。 如果训练中只问桌子和椅子的关系,模型就没有动力记住房间里其他物体,也没有动力形成完整的空间布局。 因此,研究团队构建了一份 稠密的3D场景描述数据 。 这份数