入选ECCV 2026！清华开源空间模型打败Gemini：真正的空间智能是在世界变化中持续学习

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 入选ECCV 2026！清华开源空间模型打败Gemini：真正的空间智能是在世界变化中持续学习思邈 2026-06-22 11:48:38 来源：量子位 120分钟长视频一边看一边记允中发自凹非寺量子位 | 公众号 QbitAI 在机器人、自动驾驶、AR等真实场景中，空间理解从来都不是“看一眼图像”就能解决的问题。相机持续移动、视角不断变化、目标时隐时现，空间信息从来不是明确且集中的，而是往往分散在长时间视频流里，模型不仅要“看得见”，更要 “记得住、连得起来、还能持续更新” 。这使得流式空间智能成为多模态大模型迈向真实世界应用的一道关键门槛。这篇文章的出发点是思考：多模态Agent如何在动态变化的世界中持续更新自己，而不是每次都像第一次看见世界。真实世界不是一张静态图片，也不是一段固定长度的视频，而是一段持续展开的经验流。正如人理解空间，也不是一次性看完整个房间，而是在移动、观察、遗忘、修正中，逐渐形成稳定的空间记忆。近日，由清华大学博士生刘芳甫担任一作，联合多位研究者共同完成的 Spatial-TTT ，被计算机视觉顶级会议ECCV 2026正式接收。 ECCV与CVPR、ICCV通常并称为计算机视觉三大顶级会议，每两年举办一届，用率常年偏低。对于一项工作而言，入选ECCV不只是多了一个会议标签，也意味着它需要在研究问题、方法创新与实验完整性上接受严格的同行评审。 Spatial-TTT瞄准的，正是多模态模型从“看懂画面”迈向“理解真实空间”过程中一个尚未解决的核心问题：当视频不断延长，模型能否不依赖无限膨胀的上下文，而是在观看过程中，持续形成并更新自己的空间记忆？实验中，仅有 2B 参数的Spatial-TTT，在论文测试的多个专项空间智能基准上超过 GPT-5、Gemini-3-pro 等闭源模型，并能够处理最长120分钟的流式视频。它所给出的答案可以概括为一句话：让模型不只是看视频，而是在观看过程中，边看、边更新、边“长出”一份空间记忆。能看长视频，不等于能够记住和理解空间空间智能的难点，从来不只是“把上下文做长”，而是空间信息该如何在时间维度上被选择、组织、保留下来。在真实场景中，模型面对的是一段持续涌入的视觉流：相机移动会改变视角，遮挡会打断观察，物体的显隐又会让关键证据散落在相距很远的时刻。现有方法尝试过引入深度信息、多视角输入、空间专项微调数据，乃至训练专用空间模型，但大多仍局限于单张图像或短视频片段，很难扩展到真实应用中动辄几十分钟、几小时的长时程流式视频。更进一步看，问题的核心并不只是模型”窗口不够长”，而是它缺少一种机制，能在推理过程中不断把新观察吸收进内部状态，再把这些状态组织成一份可供后续调用的空间记忆。传统的静态推理范式很难解决这一点，而TTT恰好提供了另一种可能：让模型在推理时边看边更新参数，用参数本身的变化来承担记忆功能。 Spatial-TTT：把模型参数变成动态记忆为应对上述挑战，研究团队提出Spatial-TTT，将fast weights作为一种紧凑的非线性记忆，在处理视频流的同时进行在线更新，不断累积跨时间的3D空间证据。与把整段视频一次性塞进上下文不同，Spatial-TTT更像是在持续“维护一份空间状态” ：每当新的视频chunk到来，模型就对已有的空间记忆做一次增量式刷新。 TTT概念并不新，难的是让它真正理解空间 TTT此前已经被用于语言建模、新视角合成和视频生成，但流式视觉空间理解有其特殊性：模型既要保留预训练阶段形成的视觉—语言能力，又要显式利用视频token的局部几何与时间连续性，还需要足够密集的监督，教会快速权重哪些空间信息值得长期保留。围绕这三个问题，Spatial-TTT分别设计了混合架构、空间预测机制和密集场景描述监督。设计一：混合式TTT架构，完美兼顾预训练知识和长视频处理直接把所有注意力层替换成TTT层，理论上效率更高，但会破坏原始多模态模型的跨模态对齐与语义能力，相当于在获得长程记忆的同时，丢失了模型原本的语义理解能力。为此，研究团队设计了混合式TTT架构：在解码器中按照3:1的比例交错插入TTT层与标准self-attention anchor layers，其中75%的层采用TTT，负责将长程信息写入快速权重； 25%的层保留标准全注意力，作为锚定层，维持预训练模型已有的语义理解和跨模态推理能力。也就是说，Spatial-TTT并非用TTT取代注意力，而是让两者各自承担不同角色： TTT负责记得更久，全注意力负责理解得更准。与此同时，为提升大块视觉token的处理效率，模型还引入了 large-chunk更新，并搭配并行的sliding-window attention —— 前者大幅提升GPU利用率，避免传统TTT小块频繁更新导致的效率低下，以及强行切断帧内空间结构的问题；后者则保证chunk内部仍具有完整的因果局部交互，避免空间连续性被更新边界打断。两者分工明确：滑动窗口负责处理近期帧和局部结构，快速权重则负责跨块保存更长期的信息。这一设计让模型在长视频场景下既具备线性复杂度带来的可扩展性，又不会牺牲局部时空建模能力。设计二：Spatial-predictive mechanism，让在线记忆真正“懂空间” 仅仅把TTT搬到视频中还不够。研究团队观察到，传统TTT中Q/K/V通常通过逐点线性投影生成，这意味着每个视觉token在进入快速权重之前，主要被当成一个孤立单元处理—— 这种方式忽略了视觉token之间天然存在的局部几何结构和时间连续性，不利于空间状态的稳定更新。但视觉空间信息天然存在于局部关系中，如果忽略这种局部连续性，快速权重就需要从零开始推断几何关系，记忆也更容易变得碎片化。为此，Spatial-TTT在TTT分支中引入了空间预测机制（spatial-predictive mechanism），对Q/K/V加入轻量级3D时空卷积。经过这一处理，fast weights学到的就不再是孤立token之间的映射，而是时空上下文到时空上下文的预测关系，从而能更好地捕捉几何对应、视角变化与时间连续性，显著增强在线更新的稳定性与有效性。设计三：稠密场景描述监督，模型从“会答题”走向“维护全局3D记忆” 现有空间智能数据大多是稀疏、局部的Q&A监督，例如判断两个物体的相对关系，或者回答一个整数计数问题—— 这类短答案，只能覆盖场景状态中的极小部分，对fast weights学习长期有效的更新动态帮助有限。问题在于，快速权重需要学习的是如何持续维护整个场景，而不仅仅是提取某个局部答案。如果训练中只问桌子和椅子的关系，模型就没有动力记住房间里其他物体，也没有动力形成完整的空间布局。因此，研究团队构建了一份稠密的3D场景描述数据。这份数