开发者生态
morning
通过 API 在三个真实的 ML 和编码工作流程上测试 MiniMax M2.7
2026-05-20
1 阅读
Artgor
通过 API 在三个真实的 ML 和编码工作流程上测试 MiniMax M2.7 我最近获得了一些 MiniMax M2.7 API 积分,因此我决定将此模型直接插入 Claude Code 中,并在我经常执行的三个工作流程上运行它。使用 Claude Opus 4.7 作为比较基线运行相同的任务。三个工作流程:为活跃的 Kaggle 竞赛搭建一个条目,为我的 ObsidianVault 起草和审核知识库笔记,以及更新一个过时的旧 PyTorch 项目。我想了解当任务有明确的边界时,M2.7 在代理循环中的工作效果如何。三次运行的结果是一致的:当约束明确并且输出格式具体时,M2.7 很有用。尽管 Opus 4.7 中也出现了一些相同的差距,但当重要的上下文被隐含时,它就陷入了困境。对于更开放式的案例,我仍然会在循环中保留人工审核通过。设置 我添加了一个 claude-mm 命令,将 Claude Code 指向 MiniMax API,并在 CC 界面中将思维设置为 max 来运行 M2.7。我在 MiniMax 的 Plus 层(高速,40 美元/月)上运行,其中上下文窗口和每日吞吐量不再成为多步骤代理工作的瓶颈。 claude-mm () { ANTHROPIC_BASE_URL = "https://api.minimax.io/anthropic" \ ANTHROPIC_AUTH_TOKEN = " $MINIMAX_API_KEY " \ ANTHROPIC_MODEL = "MiniMax-M2.7" \ ANTHROPIC_DEFAULT_SONNET_MODEL = "MiniMax-M2.7" \ ANTHROPIC_DEFAULT_OPUS_MODEL = "MiniMax-M2.7" \ ANTHROPIC_DEFAULT_HAIKU_MODEL = "MiniMax-M2.7" \ ANTHROPIC_SMALL_FAST_MODEL = "MiniMax-M2.7" \ API_TIMEOUT_MS = "3000000" \ CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC = "1" \ claude " $@ " } 在代理工作中,线束与模型本身一样重要。我在下面描述的大多数失败都有类似的原因:提示没有明确说明任务所依赖的约束,并且模型用合理的默认值填补了空白。在实践中,模型质量和线束设计很难分开。更强的模型可能会推断出缺失的约束;更好的利用可以使这些限制变得明确。我将其视为工作流程测试,而不是纯粹的模型基准。重构旧的 PyTorch 项目 第一个工作流程是重构:我的 pytorch_tempest 存储库是一个使用 Hydra + PyTorch Lightning 训练神经网络的框架。我想要更新依赖项、现代化工具并清理随着时间的推移积累的代码问题。合并的结果是 PR:重构旧代码并更新依赖项。更改:更新了 CI 版本和预提交挂钩。将 black 和 flake8 替换为 ruff,以实现脱毛和格式化。在 Lightning 训练器配置中启用 fsdp_sharding_strategy。刷新了文档。添加了用于环境管理的紫外线。切换到现代 Python 类型( list[X] 超过 List[X] , X | None 超过Optional[X] )。删除了重复的代码路径。修复了很多小问题。我明确指导了 M2.7:提供了分步要求(“将 black + flake8 切换为 ruff”、“更新预提交配置”),在进行下一个更改之前审查每个更改,并在差异超出范围时提供反馈。我进行了足够的测试来检查更改后是否有任何问题,并且重新运行模型训练只需要几分钟。我在运行 CI 时遇到了一些挑战,代理帮助我一一解决了这些问题。我认识的很多工程师不想让代理自由支配他们关心的代码库;他们想要监督执行并了解每一行现有的代码。 M2.7 非常适合这种方法。您可以编写简短的、范围狭窄的提示,进行行级审查,然后进入下一步。 ObsidianVault 的知识笔记第二个工作流程是为我的 ObsidianVault 编写和审核笔记,我在那里保存了 ML 参考笔记。大部分都是我手写的;有时我会让法学硕士起草一个平行版本来进行比较并从中获取灵感。重要的是要记住,不同的模型喜欢不同的提示样式。针对 Opus 4.7 调整的 100 行提示不会一对一传输到 M2.7。为了解决这个问题,我做了一个小的引导程序:我要求两个模型从相同的起始提示生成注释,然后要求 M2.7 读取这两个注释并为自己提出改进的提示。下一次迭代使用了 M2.7 调整的提示符。我使用了两个提示(一个 writer 命令和一个 Critic 代理),每个提示大约 100 行。这是第一个的精简版本:在 DSWoK 库中填充一个断开的链接存根:研究主题,用 DSWoK 语音起草注释,运行 Draft-critic-mm,保存到正确的文件夹。 1. 阅读上下文:写作风格指南、frontmatter 分类法、别名规则。 2. 选择存根。 3. 查找引用 — 在 Vault 中查找 [[]]。 4. 根据主题组选择目标文件夹。 5. 从相邻的笔记中找到结构模板。 6. 通过 3-5 个来源进行研究,搜索优先——不要相信引用记忆、公式约定或 2024 年后的工作。 6.5.验证eac