Interfaze：为大规模高精度而构建的新模型架构

Interfaze Beta 定价文档博客登录 Interfaze：为大规模高精度而构建的新模型架构 copy markdown tl;dr ：Interfaze 是一种新模型架构，在 OCR、视觉、STT 和结构化输出方面的 9 个头对头基准测试中，其性能优于 Gemini-3-Flash、Claude-Sonnet-4.6、GPT-5.4-Mini 和 Grok-4.3 等模型。人类在计算机级别的任务上效率低下。我们会犯错误，但我们擅长决策和理解细微差别。想象一下，告诉一个人阅读 50 页的 PDF，将每个单词及其 XY 位置映射到另一个文档，然后将整个内容翻译成中文。你会犯很多错误，付出很多代价来留住那个人，并等待很长时间才能得到结果。变压器模型类似。他们在细微差别和人类水平的任务上表现出色，并且像人类一样犯错误，但这也是他们保持创造力的原因。我们一直在使用错误的模型来执行错误的任务。 CNN/DNN 自 90 年代初就已存在，从 LeNet-5 到 ResNet，以及最近的 CRNN-CTC。这些是深度神经网络架构，专门用于 OCR、翻译或 GUI 检测等任务。他们消费和查看数据的方式经过训练，适合特定任务，这使他们在执行特定任务时的准确度提高了 100 倍。它们还生成有用的元数据，例如边界框和置信度分数，让开发人员构建可以依赖的可预测工作流程。那么，为什么我们中的许多人仍然选择使用 Transformer/LLM 来完成确定性任务呢？ DNN 不灵活。它们的好坏取决于训练数据，而且它们在人类层面的细微差别方面并不出色。它们的服务成本可能很低，但维护和重新培训新任务的成本却很高。以护照为例：CNN 可以通过边界框和置信度分数提取出生日期，但无法计算该人的年龄。 Interfaze 简介一种新的模型架构，它将 DNN/CNN 模型的专业性与全能转换器相结合，为您提供两全其美的效果。这意味着确定性任务的高精度和低成本：视觉（图像和文档、对象和 GUI 检测） Web 提取和搜索音频（STT 和说话者二值化）翻译视频（即将推出）模型规格特征值上下文窗口 1M 令牌最大输出令牌 32k 令牌输入模式文本、图像、音频、文件推理可用（默认：禁用）基准测试而像 Claude Opus 4.7 和 GPT 5.5 这样的 Pro 层模型是最好的通才模型在当今市场上的编码和复杂推理任务中，由于成本高且响应时间慢，它们通常不用于 OCR 或翻译等大批量任务。 Interfaze 以类似定价层和功能集的模型为基准，进行了优化，以最快的速度从模型中获得最大的性能，同时保持规模较低的成本。如今，大多数人会选择两种模型类别来完成确定性开发任务：Flash/mini 模型，例如 Gemini-3-Flash、GPT-5.4-Mini 和 Claude Sonnet 4.6。您可以在性能和价格之间实现大规模的最佳平衡。专业提供商，如 Reducto、Mistral OCR 或 Whisper。故障基准 Interfaze Gemini-3-Flash Claude-Sonnet-4.6 GPT-5.4-Mini Grok-4.3 OCRBench V2 70.7% 55.8% 54.7% 52.7% 54.7% olmOCR 85.7% 75.3% 73.9% 80.1% 81.9% RefCOCO 82.1% 75.2% 75.5% 67.0% 25.0% VoxPopuli (WER) ↓ 2.4% 4.0% — — — Spider 2.0-Lite 52.9% 45.2% 49.6% 26.7% 45.9% GPQA 钻石级 89.9% 88.5% 89.9% 82.8% 73.6% MMMLU 90.9% 88.7% 84.9% 75.3% 89.7% MMMU-Pro 71.1% 67.6% 46.3% 40.4% 68.7% SOB 值 Acc 79.5% 77.3% 77.9% 75.1% 78.4% ↓ = 较低更好（字错误率）。 — = 未评分（模型没有本地音频输入）。所有其他行：越高越好。每个模型都在九个基准测试中进行了直接比较：OCRBench V2、olmOCR、RefCOCO、VoxPopuli-Cleaned-AA、SOB Value、Spider-2.0-Lite、GPQA Diamond、MMMLU 和 MMMU-Pro。查看完整排行榜 → Interfaze 在几乎所有基准测试中均领先，无论是每个类别的专用型号还是通用闪存/迷你型号。我们的目标不是取代法学硕士。它专注于确定性任务。这些基准测试重点关注 OCR、对象检测和结构化输出等类别，并提供一些通用基准测试（如 GPQA Diamond）来显示您期望从任何 Transformer 模型中获得的问题解决和理解水平。 Interfaze 的定价范围与 Gemini-3-Flash 类似，每百万输入代币 1.50 美元，每百万输出代币 3.50 美元。 OCR 是我们的第一大用例我们用户的第一大用例是对图像和复杂的长 PDF 进行 OCR。 Interfaze 的性能优于 Chandra OCR 和 Reducto 等 OCR 提供商，以及 Gemini-3-Flash 和 GPT-5.4-Mini 等通用模型。不仅仅是特定于任务的 CNN 编码器做得很好。它能够依靠图形和图形的对象检测，或者依靠共享向量空间中的转换器的转换层。查看完整的 olmOCR 基准 → 结构化输出是 det 的重要组成部分