Interfaze:为大规模高精度而构建的新模型架构

2026-05-11 1 阅读 yoeven
Interfaze Beta 定价文档博客登录 Interfaze:为大规模高精度而构建的新模型架构 copy markdown tl;dr :Interfaze 是一种新模型架构,在 OCR、视觉、STT 和结构化输出方面的 9 个头对头基准测试中,其性能优于 Gemini-3-Flash、Claude-Sonnet-4.6、GPT-5.4-Mini 和 Grok-4.3 等模型。人类在计算机级别的任务上效率低下。我们会犯错误,但我们擅长决策和理解细微差别。想象一下,告诉一个人阅读 50 页的 PDF,将每个单词及其 XY 位置映射到另一个文档,然后将整个内容翻译成中文。你会犯很多错误,付出很多代价来留住那个人,并等待很长时间才能得到结果。变压器模型类似。他们在细微差别和人类水平的任务上表现出色,并且像人类一样犯错误,但这也是他们保持创造力的原因。我们一直在使用错误的模型来执行错误的任务。 CNN/DNN 自 90 年代初就已存在,从 LeNet-5 到 ResNet,以及最近的 CRNN-CTC。这些是深度神经网络架构,专门用于 OCR、翻译或 GUI 检测等任务。他们消费和查看数据的方式经过训练,适合特定任务,这使他们在执行特定任务时的准确度提高了 100 倍。它们还生成有用的元数据,例如边界框和置信度分数,让开发人员构建可以依赖的可预测工作流程。那么,为什么我们中的许多人仍然选择使用 Transformer/LLM 来完成确定性任务呢? DNN 不灵活。它们的好坏取决于训练数据,而且它们在人类层面的细微差别方面并不出色。它们的服务成本可能很低,但维护和重新培训新任务的成本却很高。以护照为例:CNN 可以通过边界框和置信度分数提取出生日期,但无法计算该人的年龄。 Interfaze 简介 一种新的模型架构,它将 DNN/CNN 模型的专业性与全能转换器相结合,为您提供两全其美的效果。这意味着确定性任务的高精度和低成本: 视觉(图像和文档、对象和 GUI 检测) Web 提取和搜索 音频(STT 和说话者二值化) 翻译视频(即将推出) 模型规格 特征值 上下文窗口 1M 令牌 最大输出令牌 32k 令牌 输入模式 文本、图像、音频、文件推理 可用(默认:禁用) 基准测试 而像 Claude Opus 4.7 和 GPT 5.5 这样的 Pro 层模型是最好的通才模型在当今市场上的编码和复杂推理任务中,由于成本高且响应时间慢,它们通常不用于 OCR 或翻译等大批量任务。 Interfaze 以类似定价层和功能集的模型为基准,进行了优化,以最快的速度从模型中获得最大的性能,同时保持规模较低的成本。如今,大多数人会选择两种模型类别来完成确定性开发任务:Flash/mini 模型,例如 Gemini-3-Flash、GPT-5.4-Mini 和 Claude Sonnet 4.6。您可以在性能和价格之间实现大规模的最佳平衡。专业提供商,如 Reducto、Mistral OCR 或 Whisper。故障基准 Interfaze Gemini-3-Flash Claude-Sonnet-4.6 GPT-5.4-Mini Grok-4.3 OCRBench V2 70.7% 55.8% 54.7% 52.7% 54.7% olmOCR 85.7% 75.3% 73.9% 80.1% 81.9% RefCOCO 82.1% 75.2% 75.5% 67.0% 25.0% VoxPopuli (WER) ↓ 2.4% 4.0% — — — Spider 2.0-Lite 52.9% 45.2% 49.6% 26.7% 45.9% GPQA 钻石级 89.9% 88.5% 89.9% 82.8% 73.6% MMMLU 90.9% 88.7% 84.9% 75.3% 89.7% MMMU-Pro 71.1% 67.6% 46.3% 40.4% 68.7% SOB 值 Acc 79.5% 77.3% 77.9% 75.1% 78.4% ↓ = 较低更好(字错误率)。 — = 未评分(模型没有本地音频输入)。所有其他行:越高越好。每个模型都在九个基准测试中进行了直接比较:OCRBench V2、olmOCR、RefCOCO、VoxPopuli-Cleaned-AA、SOB Value、Spider-2.0-Lite、GPQA Diamond、MMMLU 和 MMMU-Pro。查看完整排行榜 → Interfaze 在几乎所有基准测试中均领先,无论是每个类别的专用型号还是通用闪存/迷你型号。我们的目标不是取代法学硕士。它专注于确定性任务。这些基准测试重点关注 OCR、对象检测和结构化输出等类别,并提供一些通用基准测试(如 GPQA Diamond)来显示您期望从任何 Transformer 模型中获得的问题解决和理解水平。 Interfaze 的定价范围与 Gemini-3-Flash 类似,每百万输入代币 1.50 美元,每百万输出代币 3.50 美元。 OCR 是我们的第一大用例 我们用户的第一大用例是对图像和复杂的长 PDF 进行 OCR。 Interfaze 的性能优于 Chandra OCR 和 Reducto 等 OCR 提供商,以及 Gemini-3-Flash 和 GPT-5.4-Mini 等通用模型。不仅仅是特定于任务的 CNN 编码器做得很好。它能够依靠图形和图形的对象检测,或者依靠共享向量空间中的转换器的转换层。查看完整的 olmOCR 基准 → 结构化输出是 det 的重要组成部分