重新构想人工智能时代的鼠标指针

2026 年 5 月 12 日研究重新构想 AI 时代的鼠标指针 Adrien Baranes 和 Rob Marchant 分享我们正在开发更加无缝、直观的方式与 AI 协作鼠标指针一直是计算机屏幕上、每个网站、文档和工作流程中的忠实伴侣。尽管技术发生了巨大的变化，半个多世纪以来，指针几乎没有发展。我们一直在探索新的人工智能功能，帮助指针不仅了解它所指向的内容，还了解它对用户的重要性。我们的目标是解决一个常见的挫败感：因为典型的人工智能工具存在于自己的窗口中，用户需要将自己的世界拖入其中。我们想要相反的结果：直观的人工智能能够满足用户使用所有工具的需求，而不会中断他们的流程。例如，想象一下指向建筑物的图像，并请求“告诉我方向”。当人工智能系统已经了解上下文时，就不需要再做任何事情了。今天，我们概述了指导我们思考未来用户界面的基本原则，并分享由 Gemini 提供支持的人工智能指针的实验演示。例如，您可以访问 Google AI Studio 来编辑图像或在地图上查找地点，只需通过指向和说话即可。该视频展示了我们支持人工智能的指针的实验环境。序列自始至终都被缩短。我们的交互原则我们制定了四项原则，将用户向计算机传达上下文和意图的艰苦工作转移到计算机上，用更简单、更直观的交互取代大量文本提示。以下是我们的方法和原则的说明。保持流程人工智能功能应该适用于所有应用程序，而不是强迫用户在它们之间走上“人工智能弯路”。无论用户在哪里工作，我们的原型人工智能指针都可以使用。例如，他们可以指向 PDF 并请求将要点摘要直接粘贴到电子邮件中，将鼠标悬停在统计表格上并请求饼图版本，或者突出显示菜谱并要求将所有成分加倍。您的浏览器不支持视频标签。展示和讲述当前的人工智能模型需要精确的指令。为了获得良好的响应，用户必须编写详细的提示。支持人工智能的指针将通过平滑地捕获指针周围的视觉和语义上下文来简化这一过程，让计算机“看到”并理解对用户重要的内容。在我们的实验系统中，只需指出，人工智能就会准确地知道用户需要帮助的单词、段落、图像的一部分或代码块。您的浏览器不支持视频标签。拥抱“这个”和“那个”的力量在彼此的日常互动中，人们很少会说长而详细的段落。我们可能会说，“修复这个”，“把它移到这里”，或者“这是什么意思？” ——同时依靠肢体动作和我们共同的背景来填补理解上的任何空白。一个能够理解上下文、指向和语音组合的人工智能系统将允许用户以自然的速记方式提出复杂的请求，而不需要繁琐的提示。您的浏览器不支持视频标签。将像素变成可操作的实体几十年来，计算机只跟踪我们指向的位置。人工智能现在还可以理解用户所指的内容。这会将像素转换为用户可以立即交互的结构化实体，例如地点、日期和对象。一张潦草笔记的照片变成了一个交互式待办事项列表；旅行视频中的暂停帧变成了那家看起来很酷的餐厅的预订链接。您的浏览器不支持视频标签。构建适应人类行为的技术——而不是强迫用户适应它——让未来与人工智能的协作感觉真正直观、流畅和无缝。我们很高兴这些以人为本的概念正在融入我们每天使用的产品中。将这项工作应用到我们的产品中我们现在正在整合这些原则来重新构想 Chrome 中的指向以及我们新的 Googlebook 笔记本电脑体验。从今天开始，您不再需要编写复杂的提示，而是可以使用指针向 Chrome 中的 Gemini 询问您关心的网页部分。例如，您可以在页面上选择一些产品并要求进行比较，或者指出您想要在客厅中想象新沙发的位置。同样，我们很快就会在 Googlebook 中推出 Magic Pointer，让用户可以轻松利用 Gemini，获得更直观的体验。由于还有许多其他潜在的出色应用程序，因此我们将继续在我们的平台上测试未来的概念，包括 Google 实验室的 Disco。尝试 Google AI Studio 中支持 AI 的指针编辑图像在地图上查找地点