智能AI
evening
94毫秒延迟、监控胜率100%!国产视频模型干翻Gemini
2026-06-23
1 阅读
新智元
新智元报道 【新智元导读】 京东开源JoyAI-VL-Interaction,把视频AI从「你问我答」的轮次对话,推进到「持续在场、主动开口、按时机说话」的流式交互新范式。 世界杯决赛最后一秒,球进了。 你身边那个号称能「看懂视频」的AI,还在安静地等你开口问一句「刚才发生了什么?」。 这就是今天几乎所有视频AI的样子——不管包装得多酷炫,骨子里都是同一个逻辑: 你问,它答。 可真实世界里最需要AI出声的那些瞬间,从来不会等人提问——解说员不会等导播发话才开口喊「Goal」。 这些场景要的不是「问答」, 而是一双全程在线、自己拿主意什么时候该说话的眼睛。 现在,京东把这双「眼睛」开源了,它叫JoyAI-VL-Interaction。 JoyAI-VL-Interaction的重点不只是「看懂视频」,更是要让模型在连续的视频流里自己决定—— 何时回应、何时沉默、何时把复杂任务甩给后台。 一句话: 它学会了什么时候该闭嘴,更学会了什么时候必须开口。 这套系统刚开源就拿到了生态层面的背书——JoyAI-VL-Interaction 获得了 vLLM-Omni 的 day-0 支持,已原生合入 vLLM-Omni 主线。 开发者可以在 vLLM-Omni 上一键拉起服务体验,也可以直接从京东的仓库一键启动。 代码:https://github.com/jd-opensource/JoyAI-VL-Interaction 模型:https://huggingface.co/jdopensource/JoyAI-VL-Interaction-Preview 数据集:https://huggingface.co/datasets/jdopensource/JoyAI-VL-Interaction 技术报告:https://huggingface.co/papers/2606.14777 主动、实时、还会「甩锅」 JoyAI-VL-Interaction拥有三项核心能力。 第一是自主交互(Proactive Interaction)。 这是整个模型最颠覆直觉的地方—— 它不等你开口,自己判断这一刻值不值得说话。 看护场景里,老人正常活动它一声不吭,一旦察觉异常立刻预警,而不是每隔十秒问你「需要帮忙吗?」。 实时翻译场景更直观:你跟它说「把电影字幕翻译成中文」,它不会翻一句停下来等你发下一条指令,而是自己盯着画面,每出一行新字幕就主动翻译。 比如,JoyAI-VL-Interaction在街头采访视频上逐句翻译字幕,全程不落一句。 第二是实时响应(Real-time Response)。 能力有了,速度跟不上也白搭。 JoyAI-VL-Interaction靠三个关键设计把延迟压到了亚秒级: 一是JoyAI-VL-Interaction推理系统是vllm原生适配的, 确保有较高的KV Cache复用率,获得了 vLLM-Omni 的 day-0 原生支持。 二是AdaCodec—— 它不给每一帧都花完整的ViT token,而是只在画面真正发生变化的「关键帧」上花全量token(约256个),中间的「可预测帧」只用大约16个轻量P-token就搞定。 这样一来,即使持续看几个小时的视频,token预算也只和画面变化量成正比,而不是随帧数线性爆炸。 三是长程记忆的分层缓存: 短期记忆保留最近的原始视觉token,中期记忆存文本摘要,长期记忆做进一步压缩。 这三层加起来能覆盖大约12小时的上下文,而且压缩过程是异步运行的,完全不堵实时推理。 2026 世界杯墨西哥对南非的直播流里,用户只丢了一句「裁判出示红牌时提醒我」,JoyAI-VL-Interaction 就自己盯着画面,红牌亮出的一瞬间同步喊出「裁判出示红牌」——平均延迟 94 毫秒,比现场观众的反应还快。 有人摔倒时,也能够及时提醒。而不是事后总结。 第三是任务委派(Delegation)。 这招最像人。 碰上超出实时推理能力的难题——比如你对着一道数学证明题说「帮我推导一下」,或者看着手机界面说「用HTML把这个APP页面复刻出来」——它不会硬答一通然后翻车。 JoyAI-VL-Interaction能主动把活儿甩给后台的大模型或Agent,自己继续盯着画面、陪着你,等后台结果回来再自然接回对话。 比如,它可以一边把「复刻手机界面」的任务交给后台,一边继续和用户聊天、回答其他问题,后台返回HTML代码后无缝衔接,全程不断线。 你这边还在跟它你问我答,后台已经默默把证明微分中值定理这种硬骨头啃完了。 而且这个「后台」是可替换的: JoyAI-VL-Interaction已经做好了到Claude Code、OpenClaw、Hermes Agent等各种Agent的桥接,任何API、模型都能接进来当「后台大脑」。 前台实时陪伴,后台默默干活—— 它不再只是个视频问答助手,更像一套「边看边说+后台执行」的协作系统。 这就像是在物理世界和数字世界之间自由穿梭。 听着有点玄,但拆开看就是:前台模型盯着摄像头里的真实世界(物理世界),后台Agent去完成搜索、写代码、下单之类的数字世界任务。 看到了,判断了,还能动手干活—— 一个8B的小模型,居然跑出了Agent的味道。 从「一问一答」到「边看边说」 能力清单看着热闹,可它到底比Gemini强在哪?得先看清老办法卡在哪。 今天的视频通话AI看着像实时交互,扒开看还是轮次对话: 你抛一个问题,它回答,然后等你下一句。 本质和文字聊天没区别,只是把输入换成了画面。 豆包的视频通话还更主动一点,靠的是外部轮询触发器定时「打一枪」才看画面。Gemini的视频通话更直接,连这一枪都省了——你不问,它连一帧都不给你看。 同样是世界杯这个例子,不论是豆包还是Gemini都没能实时做出反应。 JoyAI-VL-Interaction改写的正是这套逻辑: 从「轮次对话」走向「流式交互」。 「要不要开口」这个决定,第一次被交给了模型自己——说话、沉默、或者把难题甩给后台。不是if-else规则,而是模型自己学来的判断。 无独有偶,上个月由前OpenAI CTO Mira Murati创立的Thinking Machines Lab也抛出了「交互模型」的概念。 两个团队几乎同时撞到同一个判断——「从轮次走向交互」是个时机已到的方向。 不同的是,TML放出的是276B的research preview,暂不公开;京东则是模型、数据、训练方法和完整系统全部开源。 跟Gemini正面掰手腕 光讲理念是虚的,京东直接拉对手做了人类评测。 在监控预警、实时计数、实时翻译、时间感知、直播解说与引导、长程记忆等六类真实流式场景里,总共58个案例,JoyAI-VL-Interaction对阵豆包、Gemini。 5位专业评审从回答质量和时机两个维度打分,整体胜率分别是 77.6% 和 87.9% 。 几个数字尤其抢眼: 监控预警 对两个对手都打出100%胜率——摔倒检测案例里,JoyAI-VL-Interaction在人倒下一瞬间就发警报,豆包晚了四五秒,Gemini直接表示无法监控。 实时计数 , 飞镖六投六中同步报数,豆包只数出两把,Gemi