ChatGPT那一套要过时了?翁荔实测创业首个模型,回合制AI被“原生实时交互”秒了

2026-05-13 1 阅读 华卫
整理 | 华卫 AI 是否正在结束“回合制”聊天的时代? 所有在工作或日常生活中经常使用 AI 模型的人都知道,在文本、图像、音频和视频等各种模态下,现在基本的交互模式仍然是一样的:人类用户先提供输入,然后等待从几毫秒到几分钟不等(在某些特别复杂的问题中,甚至需要数小时或数天),随后 AI 模型再给出输出。用Thinking Machines 的话说,目前大多数 AI 模型都是通过“外挂式”的方式来实现交互,将不同组件拼接在一起以模拟打断、多模态或并发等能力。然而,这类手工构建的系统终将被通用能力的进步所超越。 “如果 AI 真正要承担那些需要自然交互的工作,它就必须超越这种「回合制」的交互方式。最终,它需要能够更流畅、更自然地响应人类输入,甚至在处理下一次人类输入(无论是文本还是其他形式)的同时就做出回应。”这是 Thinking Machines 的观点。去年,前 OpenAI 首席技术官 Mira Murati、前 OpenAI 研究员兼联合创始人 John Schulman 等人创立了这家资金充足的 AI 初创公司,致力于让先进 AI 系统“更易理解、更可定制,并具备更通用的能力”。 今天,Thinking Machines宣布推出“交互模型”TML-Interaction-Small,将其称为“首个同时具备强大智能/指令遵循能力与交互性的模型”。据介绍,这是一个拥有 2760 亿参数的混合专家(MoE)模型,其中活跃参数为 120 亿,可以持续接收音频、视频和文本输入,并在实时中进行思考、响应和行动,不依赖外部“脚手架”来实现交互能力。根据第三方基准测试结果,这种方法在性能上取得了显著提升,同时也降低了延迟。 不过,该模型目前尚未向公众或企业开放,该公司在公告博客中表示:“在接下来的几个月里,我们将开放一个有限的研究预览以收集反馈,并计划在今年晚些时候更广泛发布。” 137页训练日志的交互模型,实力碾压其他前沿模型 在研究预览中,Thinking Machines展示了TML-Interaction-Small模型在交互能力上的质变,以及在智能与响应速度之间达到的当前最先进的综合表现。 “整体体验更像是在协作,而不是在‘下提示词’。”演示视频中,OpenAI 前应用研究副总裁、Thinking Machines联合创始人翁荔出镜展示了TML-Interaction-Small模型的无缝对话管理能力。该模型能够隐式判断说话者是在思考、让出话语权、自我修正,还是在邀请回应,无需单独的对话管理模块。 视频 在X上,翁荔表示,“过去几个月,我们玩得很开心,也有很多压力,最终产出了 12 个版本(外加大量子版本)和 137 页的训练日志。事实证明,人与人之间的协作对于提升人机协作非常重要。” 不仅如此,TML-Interaction-Small模型还解锁了一系列原本需要通过“外部脚手架”实现的能力,包括: 语言与视觉的即时插话:模型可以根据上下文在需要时主动插入,而不仅仅是在用户说完之后才回应。同时语音(Simultaneous speech):用户与模型可以同时说话(例如实时翻译)。时间感知(Time-awareness):模型对时间流逝具有直接的感知能力。同时进行工具调用、搜索与生成式 UI:在与用户对话(说与听)的同时,模型可以并行执行搜索、浏览网页或生成界面,并将结果自然地融入对话之中。 为衡量交互质量,该实验室使用了 FD-bench,这是目前少数专门用于衡量交互性的基准之一。为量化智能水平,他们使用 Audio MultiChallenge,这是一个常用的基准,用于评估智能和指令遵循能力。结果显示,TML-Interaction-Small 显著优于现有的实时系统,包括Gemini-3.1-flash-live和GPT-realtime-2.0 minimal。 响应速度:其轮次响应延迟为 0.40 秒,而 Gemini-3.1-flash-live 为 0.57 秒,GPT-realtime-2.0 minimal 为 1.18 秒。交互质量:在 FD-bench V1.5 上,其得分为 77.8,几乎是主要竞争对手的两倍(GPT-realtime-2.0 minimal 为 46.8)。在 FD-bench v1.5 中,模型会接收预录音频,并需要在特定时刻作出响应。该基准从多个场景评估模型行为,包括用户打断、用户回应性反馈(backchannel)、与他人对话以及背景语音。 同时,该实验室改造了RepCount-A、ProactiveVideoQA和Charades三个基准来评估模型的视觉主动性。结果显示,在 RepCount-A(视频中物理动作计数)和 ProactiveVideoQA 等专项测试中,Thinking Machines 的模型能够主动参与视觉环境,而其他前沿模型则保持沉默或给出错误答案,包括高推理模型。 Thinking Machines 认为,通过将“交互性”内化为模型的一部分,模型规模的扩展将不仅让其更聪明,也会让它成为更高效的协作伙伴。此外,他们表示,虽然预计随着模型规模的扩大,交互能力也会进一步提升,但目前更大规模的预训练模型在这一实时交互场景下仍然过于缓慢,无法投入使用。“今年晚些时候,我们计划发布更大规模的模型。” 从零开始训练,200毫秒为单位实时响应 这次发布的核心,是 AI 在“时间感知”和“存在感”上的一次根本性转变。当前的前沿模型通常以单线程方式体验现实。它们会等待用户完成输入后才开始处理,并且在生成回应时,其“感知”是冻结的。在博客中,Thinking Machines 的研究人员将这种现状描述为一种限制,它迫使人类不得不去“迁就”AI 接口,比如把问题写得像邮件一样,并将思考打包成一整块再输入。 为解决这种“协作瓶颈”,Thinking Machines 从零开始训练了这一交互模型,并放弃了标准的交替式 token 序列。取而代之的是,他们采用了一种多流(multi-stream)、微回合(micro-turn)的设计,可以以 200 毫秒为单位同时处理输入和输出,确保实时响应能力。这种“全双工”(full-duplex)架构使模型能够实时地“听、说、看”,从而在用户说话时进行回应性反馈(backchannel),或在捕捉到视觉线索时主动插话。例如,当用户在代码片段中写出 bug,或者有朋友进入视频画面时。 技术上,该模型采用了无编码器的早期融合(encoder-free early fusion)。系统不再依赖像 Whisper 这样庞大的独立编码器来处理音频,而是通过一个轻量级嵌入层,直接接收原始音频信号(以 dMel 表示)和图像块(40×40),并在 Transformer 架构中从零开始联合训练所有组件。 由于实时交互需要近乎即时的响应速度,而这往往与深度推理能力存在冲突,该实验室因还此设计了一种由两部分组成的系统: 交互模型(Interaction Model):始终与用户保持持续交互,负责对话管理、存在感维持以及即时响应。后台模型(Background Model):作为一个异步代理,负责处理持续性推理、网页浏览