交互模型 - 66必读

今天，我们宣布交互模型的研究预览：本地处理交互而不是通过外部脚手架的模型。我们认为交互性应该与智能一起扩展；我们使用人工智能的方式不应该被视为事后的想法。交互模型让人们能够以我们自然地相互协作的方式与人工智能进行协作——他们不断地接收音频、视频和文本，并实时思考、响应和行动。我们从头开始训练交互模型。为了保证实时响应能力，我们采用多流、微转设计。我们的研究预览展示了全新的交互能力，以及智能和响应能力方面最先进的综合性能。协作瓶颈人工智能实验室通常将人工智能自主工作的能力视为模型最重要的能力。 Kwa, T.、West, B.、Becker, J. 等。衡量人工智能完成长时间任务的能力。 METR，2025。因此，当今的模型和界面并未针对人类保持在循环中进行优化。最近的前沿模型卡指出：“重要的是，我们发现，当以交互式、同步、“手动键盘”模式使用时，模型的好处不太明显。当以这种方式使用时，一些用户认为[我们的模型]太慢，并且没有意识到那么多的价值。自主的、长期运行的代理可以更好地激发模型的编码能力。”自主界面很有价值，但在大多数实际工作中，用户无法预先完全指定他们的需求并离开——良好的结果受益于协作过程，在该过程中，人类保持在循环中，澄清并提供反馈。然而，人类越来越多地被排挤，不是因为工作不需要他们，而是因为界面没有空间容纳他们。相反，当人们能够像与其他人一样与人工智能协作时，他们的工作效率最高：根据需要发送消息、交谈、倾听、观看、展示和插入，并且让模型也执行同样的操作。通过以下方式，沟通会变得更好： (a) 共存：人们可以与其他人正在互动的事物进行互动； (b) 当代性：人们接收的信息与其他人产生的信息一样，并具有即时反馈； (c) 同时性：人们同时接收和产生信息。 Clark H. 和 Brennan S.，“Grounding in Communication”，《社会共享认知视角》，1991 年。口头语言因其参与性（参见客观距离）性质而消失。当今的计算机和知识工作媒介具有类似的交互特性。 Ong, W. J.. In Orality and Literacy: The technologizing of the word, 1982。为了解决这个问题，我们需要超越当前的基于回合的模型界面。今天的模型在单线程中体验现实。我们指的是商业通用前沿模型 - 有较小规模或专门的模型，例如 Moshi、PersonaPlex、Nemotron VoiceChat 或 GPT-Realtime-Translate。在用户完成打字或说话之前，模型会等待，不知道用户正在做什么或用户如何做。在模型完成生成之前，其感知会冻结，在完成或被中断之前不会接收到新信息。这为人类与人工智能的协作创造了一条狭窄的渠道，限制了一个人的知识量，“Metis 非常重视实践知识、经验和随机推理……是最适合复杂物质和社会任务的推理模式，在这些任务中，不确定性如此令人畏惧，我们必须相信我们（经验丰富的）直觉并摸索自己的方式。”斯科特，J.C：梅蒂斯。在《像一个国家一样看待：改善人类状况的某些计划如何失败》一书中，1998 年，“稍加反思就会表明，存在……一组非常重要但无组织的知识……：关于时间和地点的特定情况的知识。”哈耶克，F.A.“知识在社会中的运用。” 《美国经济评论》，1945。意图、判断能达到模型，模型的工作有多少是可以理解的。想象一下试图通过电子邮件而不是亲自解决关键分歧。在 Thinking Machines，我们相信我们可以通过让 AI 跨任何模式实时交互来解决这一带宽瓶颈。这使得人工智能界面能够满足人类的需求，而不是强迫人类扭曲自己以适应人工智能界面。大多数现有的人工智能模型都通过线束来实现交互：将组件缝合在一起以模拟中断、多模态或并发。大多数实时商业语音系统使用语音活动检测组件来检测转弯边界。然而，“惨痛的教训”Sutton R. The Bitter Lesson, 2019. 表明，这些手工制作的系统将被通用能力的进步所超越。为了使交互性能够随着智能的扩展而扩展，它必须成为模型本身的一部分。通过这种方法，可以缩放