DeepSeek-V4-Flash意味着LLM指导再次变得有趣

自从金门克劳德 (Golden Gate Claude) 以来，我一直对“转向”着迷：通过直接操纵飞行中模型的激活来引导 LLM 输出的想法。 DeepSeek V4 Flash 我写这篇文章的灵感来自 antirez 最近的项目 DwarfStar 4，该项目是 llama.cpp 的一个版本，已被精简为仅运行 DeepSeek-V4-Flash。这个模型有什么特别之处？这可能是许多工程师一直在等待的：一个足够好的本地模型，至少可以与低端前沿模型代理编码竞争。由于转向需要本地模型，因此现在对于许多工程师来说第一次尝试是很实用的。事实上，antirez 已将转向作为一等公民纳入 DwarfStar 4。现在它还非常初级（基本上只是你可以通过提示复制的玩具“冗长”示例），但最初发布仅在八天前。我计划密切关注这个项目。转向的工作原理转向背后的基本思想是从模型的内部大脑状态中提取一个概念（例如“简洁响应”），然后在推理过程中进行介入并增强形成该概念的数字激活。您可以执行此操作的一种方法是向模型提供同一组一百个提示两次，一次使用正常提示，一次附加“简洁响应”一词。然后测量每个提示对的模型激活 1 的差异（通过从另一个激活矩阵中减去一个激活矩阵）。这就是你的“转向向量”。理论上，您可以将其添加到任何提示的同一激活层中，并获得相同的效果（模型响应简洁）。另一种更复杂的方法是训练第二个模型，从模型的激活中提取“特征”：似乎同时出现的行为模式。然后，您可以尝试将这些功能映射回各个概念，并以相同的方式增强它们。这或多或少就是 Anthropic 使用稀疏自动编码器 2 所做的事情。它与简单方法的原理相同，但它可以让您捕获更深层次的模式（代价是时间、计算和专业知识方面的成本要高得多）。为什么转向很有趣转向听起来像是一个作弊代码。与其煞费苦心地组装一个训练集，试图将模型推向训练数据分布的“智能”端，为什么不直接揭开模型大脑中的“智能”旋钮，并将其一直向右转动呢？这似乎也是调整模型说话方式的一种更优雅的方式。与其摆弄提示（添加或删除“你必须”之类的限定词），我们难道不能有一个像“简洁/冗长”或“责任心/速度”这样的滑块控制面板并直接移动它们吗？最后，这很酷。看着金门克劳德不情愿地将每句话拖回金门大桥，就像奥利弗·萨克斯的神经轶事一样令人着迷和不安。如果你自己的思想也以类似的方式调整呢？还会是你吗？为什么转向还没有被使用那么我们为什么不更多地转向呢？为什么 ChatGPT 和 Claude Code 没有一个可以实时调整模型大脑的控制面板？原因之一是，不幸的是，在人工智能研究中，转向是一种“中产阶级”想法。它位于大型人工智能实验室的下面，他们可以直接操纵他们的模型，而不必在推理过程中进行尴尬的脑部手术。 Anthropic 正在研究这些东西，但主要是从可解释性和安全的角度出发（据我所知）。当他们希望模型以某种方式表现时，他们不会乱搞转向，他们只是训练模型。对于像你我这样的普通人工智能用户来说，控制也是遥不可及的 3，他们通过 API 使用 LLM，因此无法访问控制模型所需的模型权重或激活。例如，只有 OpenAI 可以识别或公开 GPT-5.5 的转向向量。我们可以对开放权重模型执行此操作，但直到最近（稍后会详细介绍）还没有任何强大到值得这样做的开放模型。最重要的是，大多数基本的转向应用都无法通过提示模型来竞争。能够直接操纵模型的大脑听起来相当令人印象深刻。但你知道还有什么可以直接操纵模型的大脑吗？提示令牌。您可以通过转向对激活进行相当细粒度的控制，但您已经可以通过调整提示语言来进行极其细粒度的控制。换句话说，当你可以简单地询问时，没有太多意义去让模型变得更冗长。引导非提示性引导真正有用的一种方法是，我们是否能够识别出一个无法提示性的概念。那么“智力”呢？你曾经能够提示情报 - 这就是为什么 4o 时代的提示总是以“你是专家”开始 - 但当前一代的模型已经将其融入到他们的个性中，所以 p

订阅66必读