上下文窗口已被打破：Subquadratic 首次亮相 12M 代币窗口

2026-05-05 14:01:04 上下文窗口已被打破：Subquadratic 首次推出 1200 万代币窗口 AI 工程 / AI 模型 / 新兴技术上下文窗口已被打破：Subquadratic 首次推出 1200 万代币窗口 Subquadratic 推出了全新 AI 架构，具有 1200 万代币上下文窗口，其性能优于 GPT-5.5检索基准。 2026 年 5 月 5 日下午 2:01 作者 Frederic Lardinois 2026 年的每个前沿模型都会宣传至少包含一百万个令牌的上下文窗口，但几乎没有一个模型实际上擅长利用所有这些信息。在多参考检索基准实验室报告 MRCR v2 上，最好的模型是 GPT-5.5，得分为 74.0%。其他如 Claude Opus 4.7（32.2%）则远远落后。目前，一百万个代币似乎是主要前沿实验室提供的上下文窗口的最大值。百万代币上限的一个主要原因与自 2017 年以来塑造每个基于 Transformer 的模型的原因相同：注意力成本与上下文长度成二次方缩放，因此输入加倍会使工作量增加四倍。从本质上讲，RAG、代理分解、混合模型架构以及业界构建的所有其他解决方法都是为了解决这个问题而进行权衡的方法。总部位于迈阿密的初创公司 Subquadratic 于周二推出了其第一个模型，并声称它可以解决所有这些问题，现在提供的模型可以处理 1200 万个代币的代币窗口。更重要的是，该公司表示计划很快提供一个具有 5000 万上下文窗口的模型。该公司拥有11名博士。研究人员认为，其架构称为次二次选择性注意（SSA），可在计算和内存方面根据上下文长度线性扩展。该公司表示，它在处理 100 万个令牌时的运行速度比密集注意力快 52 倍，在处理 1200 万个令牌时，大海捞针检索的准确率达到 92.1%（目前没有任何前沿模型能够接近的上下文长度），并且在 MRCR v2 上得分 83，比 OpenAI 领先 9 分。该公司表示，其 Subquadratic Selective Attention 架构在 100 万个 token 的情况下运行速度比密集注意力快 52 倍，在 1200 万个 token 的大海捞针检索中达到 92.1%，在 MRCR v2 上得分 83，比 OpenAI 领先 9 分。这些都是很大的主张，而 Subquadratic 并不是第一个尝试解决这个问题的人。该公司发布的基准测试令人印象深刻，包括 SWE-bench 的得分为 82.4%，超过了 Anthropic 的最新型号 Opus 4.6（得分为 81.42%）和 Google 的 Gemini 3.1 Pro（得分为 80.6%）。而且它以显着降低的成本完成所有这一切。 Subquadratic 正在通过 API（将具有 1200 万个令牌上下文窗口）以及编码代理（SubQ Code）和深度研究工具（SubQ Search）来提供该模型。之前出现的注意力的二次成本显然不是一个新问题，SSA 也不是解决它的第一次尝试。研究路线几乎可以追溯到最初的变压器论文，总体模式保持一致。每一种方法都用一种必要的属性来换取另一种属性，但没有一种方法能够取代对前沿规模的密集关注。每一种方法都用一种必要的属性来换取另一种属性，但没有一种方法能够取代对前沿规模的密集关注。例如，不同的方法之一是固定模式稀疏注意力。在 Longformer 这样的模型中，它通过让每个标记仅参与滑动窗口来实现线性缩放。当相关信息位于附近时它会起作用，而当相关信息不在附近时它就会崩溃。像 Mamba 、 Mamba-2 、 RWKV 、 RetNet 这样的状态空间模型用循环状态替换了全对比较，该循环状态压缩了迄今为止看到的所有内容。然而，压缩是有损的。 Nvidia 的 8B 规模研究发现，纯 Mamba-2 在 MMLU 和电话簿查找方面滞后于 Transformer，只有当注意力重新添加时，差距才会缩小。 Jamba、Kimi Linear、Qwen3-Next 和 Nvidia 的 Nemotron v3 等混合架构是对此问题的务实答案。它们保持大多数层的效率，并保留一些密集的注意力层以供检索。但经济状况并不像看上去那么有利。 32K 代币价格便宜三倍的混合动力在 10M 代币价格仍然便宜三倍，因为它保留的密集层仍然可以完成 O(n²) 的工作。最近的条目走向了不同的方向。他们不是试图修复模式或压缩状态，而是了解要注意哪些位置。例如，DeepSeek 的 Native Sparse Attention 获得了 ACL 2025 最佳论文奖。其继任者 DeepSeek Sparse Attention (DSA) 已在 DeepSeek V3.2-Exp 中发布。 DSA 的闪电索引器将注意力转移到选定键的一小部分，而对这些键的注意力确实是稀疏的。然而，选择它们的索引器必须针对每个键对每个查询进行评分，这意味着选择步骤本身是二次的。 SubQuadratic 首席技术官 Alex Whedon 告诉 The