开发者生态
morning
Gemini API 文件搜索现在是多模式的
2026-05-10
1 阅读
gmays
Gemini API 文件搜索现在是多模式的:构建高效、可验证的 RAG 2026 年 5 月 5 日 · 分享 x.com Facebook LinkedIn LinkedIn 邮件 复制链接 我们将为 Gemini API 文件搜索工具引入三项重大更新:多模式支持、自定义元数据和页面级引用。这些功能可帮助开发人员将结构引入非结构化数据,以实现高效、可验证的 RAG。 Ivan Solovyev Google DeepMind 产品经理 Kriti Dwivedi 软件工程师 分享 x.com Facebook LinkedIn 邮件 复制链接 您的浏览器不支持音频元素。收听文章此内容由 Google AI 生成。生成式 AI 处于实验阶段 [[持续时间]] 分钟 Voice Speed Voice Speed 0.75X 1X 1.5X 2X 今天,我们正在扩展 Gemini API 的文件搜索工具。您现在可以使用多模式数据和自定义元数据构建检索增强生成 (RAG) 系统。我们还引入了页面引用以提高基础性和透明度。无论您是为周末项目制作原型还是为数千名用户扩展生产应用程序,您的 RAG 系统现在都可以本机处理并更好地组织您的文本和可视数据。为您的应用程序提供过目不忘的记忆 文件搜索现在可以同时处理图像和文本。该工具由 Gemini Embedding 2 模型提供支持,可以理解本机图像数据,为您的代理提供上下文感知。想象一个创意机构试图挖掘特定的视觉资产。您的应用程序可以在整个档案中搜索与自然语言简介中描述的特定情绪基调或视觉风格相匹配的图像,而不是依赖关键字或文件名。了解开发人员如何使用它: 使用自定义元数据过滤噪音 将文件转储到数据库中很容易。大规模地找到合适的人是真正的挑战。自定义元数据允许您将键值标签附加到非结构化数据 - 例如部门:法律或状态:最终。通过在查询时应用元数据过滤器,您的应用程序可以将请求范围限制到所需的数据切片。这显着减少了不相关文档的干扰,提高了 RAG 工作流程的速度和准确性。通过页面引用展示您的工作当您的应用程序从大量 PDF 中提取答案时,用户需要准确验证该答案的来源。文件搜索现在将模型的响应直接与原始来源联系起来。它捕获每条索引信息的页码。这种粒度级别允许您将用户直接引导到正确的位置,这有助于建立信任并使您的工具立即可用于严格的事实检查。开始使用文件搜索 我们希望尽可能轻松地存储和检索使您的想法发挥作用的数据。文件搜索工具可以处理繁重的基础设施,因此您可以专注于构建产品。上传文件并在其中搜索非常简单:在我们的开发人员指南和 Gemini API 文档中探索更多代码片段,以了解如何使用文件搜索进行构建。发表于: