对话灵感实验室:全帧率 VLM、低成本与分层部署,业务现场不止需要炫技模型

2026-05-20 1 阅读 陈姚戈
作者|陈姚戈 编辑|王一鹏 当多模态大模型成为显学,许多本属于 CV 领域的问题,又被重新摆到了台前。 “大部分现有模型,不管是视频生成模型,还是 VLM,都是先把视频拆成一帧一帧的图片,再用图像编码器编码,最后送进模型。”格灵深瞳旗下灵感实验室 Glint Lab 负责人冯子勇对 InfoQ 表示,“而且这些视频输入都经过抽帧。” 冯子勇所说的“抽帧”,是今天许多视频理解模型默认接受的工程选择。不管是 GPT-4o、Gemini 1.5 Pro 这样的闭源模型,还是 Video-LLaVA、InternVL2、Video-LLaMA 这样的开源模型,很多做法都是按固定间隔抽取帧,或者将长视频切分成数秒级短片段,再送入模型处理。 这么做并不难理解。 一小时视频如果按 24 FPS 计算,就包含近 9 万帧。即使每一帧只产生很少的视觉 token,全帧率输入也会迅速把上下文窗口、显存和推理成本推到难以承受的水平。更何况,视频天然存在大量冗余:相邻帧之间大部分背景、物体和场景并没有变化。把每一帧都完整编码一遍,直觉上就不经济。 因此,过去两年,不少视频编码的研究都在改进抽帧策略。例如从固定间隔采样,走向更智能的关键帧选择。 但在冯子勇看来,只要模型仍然把视频拆成一张张图片来处理,无论抽帧策略如何优化,本质上都没有真正利用视频本身的连续结构。 这条路线可行,但存在巨大浪费。 “图像只是一个瞬间,它前后的连续关系没有在前端建模起来,而是都丢给后端模型去理解。”冯子勇说,“这相当于迫使 LLM,或者中间的模型,去重新理解图和图之间的关系。这不是说不能做,但是很浪费。” 浪费来自两个层面。 第一,算力被浪费了。视频原本就是连续的,相邻帧之间天然存在关系。但在传统流程里,视频先被解码成一张张静态图片,原有的连续结构被打散,模型再用昂贵的计算把这种关系重新学回来。 第二,信息结构被浪费了。视频编码器本身早已在工程世界里存在多年。I 帧、P 帧、运动向量、残差,这些机制原本就是为了描述哪些内容稳定不变,哪些内容发生了变化。视频在被压缩和传输时,已经把很多时空关系显式编码出来了。但今天许多多模态模型的做法,是先把这些结构解开,再让模型重新发现一遍。 面对这些问题,冯子勇认为,可以换一种方式理解视频输入。 “既然视频原来已经有建模好的东西,为什么不直接用这些东西,在上面构建更 compact 的 token,或者更 compact 的表示?让这些本来就存在的信息,直接传给模型。 ” 这种思考萌发于灵感实验室成立之前,并在实验室成立后得以实现。 格灵深瞳一直关注视觉基座和视觉表征能力。出于对模型应用落地的考量,格灵深瞳认为“在后端大模型上堆计算”这件事有持续优化的空间,并且更关心前端视觉编码能否把有效信息提取出来,能否用更少 token 表达更完整的视频内容,能否在效果、成本和部署复杂度之间取得平衡。 2023 年底,随着大模型能力提升、工具链变化,以及客户对多模态能力需求的增加, 格灵深瞳成立灵感实验室 Glint Lab,给予团队更大的研究自主性。 此后,灵感实验室围绕视觉基座和视觉解码框架,先后开源了 RICE-ViT、LLaVA-OneVision-1.5、OneVision-Encoder 等模型。 LLaVA-OneVision-2.0 是最新成果。它延续了 LLaVA 系列“视觉基座—projector—LLM”的基本架构,并引入基于 codec 的密集视频输入策略,在保留全帧率感知的同时,降低视频 token 消耗。 LLaVA-OneVision-2.0 的目标,是突破长视频理解中时长、成本和细节的瓶颈。 它通过四阶段渐进式训练,把模型的视频理解能力从 30 秒短片逐步扩展到 10 到 15 分钟长视频,并进化到具备 2D/3D 空间定位和物体追踪的能力。在训练过程中,团队也借助了百度百舸开源的全模态训练框架 LoongForge,为相关训练与迭代提供支撑。 在编码方式上,它采用了 OneVision-Encoder 作为视觉底座。这是一个专门研发的、拥有 24 层结构的 ViT 模型,它负责接收图像或视频输入,通过共享时间、高度和宽度三个维度的位置编码,将其转化为带有语义和时序信息的视觉 token。 OneVision-Encoder 能利用视频 codec 中已经存在的信息结构,保留 I 帧提供的完整空间上下文,P 帧则记录相邻帧之间的运动和残差变化。模型因此可以从 P 帧中提取运动和变化更明显的 patch,不必把每一帧都当成完整图片重新编码。 左图是均匀帧采样(Uniform 128 Frames) 右图是 OneVision-Encoder 基于编解码器选择的图块采样(Codec-Selected Patches) 根据灵感实验室提供的测试结果,LLaVA-OneVision-2.0 在部分视频理解任务上接近 Qwen3-VL 的效果,同时显著降低了 token 成本。 相关链接: GitHub:https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-2模型: https://huggingface.co/lmms-lab-encoder/LLaVA-OneVision-2-8B-Instruct数据:https://huggingface.co/datasets/mvp-lab/LLaVA-OneVision-2-Data技术报告:https://cdn.jsdelivr.net/gh/anxiangsir/ov2_asset@main/LLaVA_OneVision_2.pdfBlog:https://evolvinglmms-lab.github.io/LLaVA-OneVision-2 此外,对一家以应用见长的 AI 公司来说,多模态模型的价值不能只由参数规模、模型榜单或论文指标定义,它最终要回到客户现场:能不能减少人工配置成本,能不能更快适配新场景,能不能在边缘设备和运营中心之间形成稳定闭环,能不能让模型能力转化为实际业务价值。 因此,格灵深瞳基于模型能力升级打造了新一代视觉 AI 智能产品“视觉智能工坊”。不同于传统“项目制、一次性交付”的视觉算法方案,视觉智能工坊更强调从模型训练、业务编排、边缘部署到运营迭代的全链路打通,将底层多模态能力与具体业务流程衔接起来,帮助客户更快完成场景落地,并在实际运行中持续优化模型效果与应用能力。 在 LLaVA-OneVision-2.0,以及“视觉智能工坊”发布之际,InfoQ 与格灵深瞳灵感实验室 Glint Lab 负责人冯子勇、核心成员谢尹,以及格灵深瞳研发副总裁闫梓祯进行了一次深度交流。 这场交流不局限于技术细节,也包括一家从 CV 时代走来的 AI 公司,如何理解今天的多模态浪潮:有哪些 CV 时代积累的问题意识在 VLM 时代被低估了;为什么一些看起来很先进的研究,如果缺少产品和工程支撑,很难真正落地;以及在成本、效率和效果之间,真实客户究竟愿意为什么样的产品买单。 不过,不论时代怎么变化,格灵深瞳的研究大目标都是不变的,即“从视觉理解世界、理解视觉里蕴含的所有东西。” 以