智能AI
evening
CVPR 2026最热方向,被一家杭州团队率先跑进了端侧!
2026-06-27
1 阅读
henry
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> CVPR 2026最热方向,被一家杭州团队率先跑进了端侧! henry 2026-06-27 20:19:42 来源: 量子位 VLM- R1之后再次出手!全球首个端侧流式多模态来了! henry 发自 凹非寺 量子位 | 公众号 QbitAI 好家伙! 这CVPR也就刚过去没几天,会上还在热议的方向,就已经给一家杭州团队跑进了端侧! 刚刚, Om AI 发布全球首个面向物理世界的 端侧流式多模态模型系列 —— VLX 。 VLX主打真实世界的端侧与具身场景,总共三款模型,三天连发: VLX-Flow:实时流式感知,让视频像水流一样持续输入,模型实时看、实时想、实时更新世界状态。 VLX-Seek:精准定位,从看见走向看清,快速锁定目标。 VLX-Go:行动决策,把感知和定位的结果转化成真实动作——该往哪走、怎么操作,一气呵成。 这三款模型连起来,不仅构成了多模态模型持续感知、精准定位、行动决策的能力闭环。 与此同时,其原生端侧设计也让它能够真正跑进手机、无人机、机器人这些端侧设备。 而这,也并不是Om AI第一次在VL(视觉语言)领域发力。 去年,他们推出了全网爆火的 VLM-R1 。 作为全球首个将DeepSeek R1强化学习范式引入视觉语言模型的开源项目,上线12小时获得超过2000颗GitHub Star。 48小时登顶GitHub全球趋势榜,至今已斩获6000+Star。 这一次,他们交出的新答卷,是VLX。 一条通往物理世界的能力链 为了更好地理解VLX这次的技术路线,我们可以把它拆成两个关键词: 端侧 与 流式多模态 。 咱们先看后者。 所谓流式多模态,就是让AI能够在物理世界中持续、实时地感知环境,并最终形成一条完整的能力链: 感知(Perception)→ 精准定位(Grounding)→ 行动(Action)。 它跟我们此前在语音助手里“听”到的流式多模态不同。 语音助手强调的是人与AI的实时交互,而VLX关注的,则是AI在物理世界中持续观察、持续判断,并最终驱动行动,完成从“看图”到“做事”的跨越。 这种定位的不同,其实反映的是VLM角色的转变。 随着 具身智能 、 空间智能 、 视频生成 等领域快速发展,VLM已经不再只是LLM的一个能力模块,而是在逐渐成为空间理解、视频理解乃至动作规划的新一代基础设施。 这意味着, VLM不仅需要看图说话,更需要具备持续感知、精准定位和驱动行动的能力,从而为下游任务提供统一、精准的基座能力。 一个很直观的信号来自今年CVPR。 数据显示,VLM/多模态相关论文占比已经从去年的4.9%增长到10.6%,几乎翻倍,成为近年来增长最快的研究方向之一。 而在论文数量快速增长的背后,最值得关注的两个关键词,就是 实时感知(Streaming) 和 定位(Grounding) 。 (注:Grounding的核心就是让模型根据一句自然语言描述,准确找到图像或视频中对应的对象、区域和概念) VLX的整套设计,也正是围绕这两个方向展开,并进一步把能力延伸到了最终的行动。 VLX-Flow:流式推理 首先是VLX-Flow,负责持续感知,解决的是看见。 在真实世界中,由于物体始终处于运动之中,环境、状态不断变化、视角切换也时刻发生。 一次性的观察,很难应对这样 动态、开放且持续变化 的环境。因此,模型必须像人一样不断接收新信息、持续更新对环境的理解。 传统视频模型往往将整段视频切成帧,一次性送入模型做离线理解。 视频一长,不仅计算成本急剧上升,还容易丢失前文信息,难以支撑实时交互。 为解决这一问题,Flow采用了流式处理。 让画面像水流一样持续涌入,靠增量编码和缓存机制不断更新自己的视觉状态,既不用反复重算历史,也不会因为视频变长而失忆。 技术层面, Flow用Linear Attention替代标准Attention,并结合双层记忆机制,让视频流能够持续进入模型而不会因上下文增长导致显存爆炸。 也就是说,它不等视频播完再理解,而是一边看一边更新对环境的认知,必要时还能主动发起交互,并做到实时视频流下的低延迟响应。 不过,持续看只是第一步,模型还必须知道 到底该看哪里 。 VLX-Seek:精细感知 接下来是 VLX-Seek ,负责精细感知,解决的是看得准。 以机器人为例,仅仅知道“前面有一把椅子”远远不够,它还需要准确知道目标 在哪里、是哪一个 ,才能完成跟随、抓取、导航、避障等后续动作。 但这恰恰是许多通用VLM的短板。它们虽然擅长高层语义理解,却在精确定位、开放词汇检测和细粒度Grounding等任务上表现有限,难以满足真实世界的需求。 传统方法大多采用自回归方式,一个坐标一个坐标地预测目标位置,不仅速度慢,也容易出现偏差。 Seek则换了一种思路。它不再“猜坐标”,而是先生成候选区域,再完成检索和匹配,把定位过程变成“选区域”。 具体来说,Seek用Region Token替代传统坐标生成,在保持识别能力的同时,大幅降低模型大小和端侧部署成本; 这种方式更符合视觉感知任务本身,因此即使模型规模更小,也能在开放词汇检测、细粒度定位和实时跟踪等任务上保持稳定表现,同时更适合实时追踪和端侧部署。 不过,对于物理世界来说, 看得准 仍然不是终点,真正的目标,是行动。 VLX-Go:运动执行 最后是 VLX-Go ,负责行动,解决的是动得了。 对于机器人来说,理解环境只是第一步,真正重要的是把理解转化成动作。 传统VLM即使知道“目标在左前方”,最终也大多停留在文字回答;真正走过去、绕开障碍、持续跟随目标,仍然需要额外的控制系统来完成。 Go则进一步打通了这一步。 它通过单目视频、历史视觉记忆和自然语言指令作为输入,Go将这些信息直接处理成机器人可执行的短时航点,直接预测未来一小段时间应该如何运动,而不是只输出一句文字建议。 与此同时,Go还结合离线轨迹学习和在线强化学习,在仿真闭环中不断修正运动策略,使机器人能够根据实时视觉反馈持续调整轨迹,在目标跟随、导航、动态避障等任务中保持稳定表现。 为了满足端侧实时控制的需求,Go没有采用复杂的长链路规划,而是选择了更轻量的短时航点预测方案,仅用0.6B参数,就能完成实时运动规划。 至此,VLX完成了从感知到定位再到行动的最后一块拼图。 与此同时,Flow、Seek、Go并不是三个彼此独立的模型,而是共享同一个基座,在同一条视频流上完成端到端协作。 从持续感知,到精准定位,再到行动决策,三者共同组成了VLX面向物理世界的一条完整能力链。 反观,这也是为什么仅靠一个通用VLM,很难真正扛起物理世界AI的闭环。 因为只会看,却找不准目标;看得准,却不会行动,都无法真正完成任务。 物理世界需要的,不是一个更会聊天的模型,而是一套能够从看见、看清一路衔接到行动,并持续稳定运行的系统。 而VLX,就是Om AI交出的答卷。 那么,为什么这样一套系统,必须跑在端侧? Day1端侧原生架构