约束衰减：LLM 代理在后端代码生成中的脆弱性

计算机科学 > 软件工程 arXiv:2605.06445 (cs) [于 2026 年 5 月 7 日提交] 标题：Constraint Decay：后端代码生成中 LLM 代理的脆弱性作者：Francesco Dente、Dario Satriani、Paolo Papotti 查看题为 Constraint Decay：后端代码生成中 LLM 代理的脆弱性的论文 PDF，作者：Francesco Dente 和 2其他作者查看 PDF HTML（实验）摘要：大型语言模型 (LLM) 代理在宽松的规范下展示了自主代码生成的强大性能。然而，生产级软件需要严格遵守结构约束，例如架构模式、数据库和对象关系映射。现有的基准测试经常忽略这些非功能性需求，奖励功能正确但结构任意的解决方案。我们提出了一项系统研究，评估代理在多文件后端生成中处理结构约束的能力。通过跨 80 个绿地生成任务和跨越 8 个 Web 框架的 20 个功能实现任务修复统一的 API 合约，我们使用端到端行为测试和静态验证器的双重评估来隔离结构复杂性的影响。我们的研究结果揭示了约束衰减的现象：随着结构要求的积累，智能体的性能表现出大幅下降。从基线到完全指定的任务，功能强大的配置的断言通过率平均下降 30 点，而一些较弱的配置则接近零。框架敏感性分析揭示了显着的性能差异：代理在最小的、显式的框架（例如 Flask）中取得了成功，但在约定密集的环境（例如 FastAPI、Django）中平均表现要差得多。最后，错误分析将数据层缺陷（例如，不正确的查询组合和 ORM 运行时违规）识别为主要原因。这项工作强调，共同满足功能和结构要求仍然是编码代理面临的一个关键的开放挑战。科目：软件工程（cs.SE）；人工智能 (cs.AI) 引用为：arXiv:2605.06445 [cs.SE]（或此版本的 arXiv:2605.06445v1 [cs.SE]） https://doi.org/10.48550/arXiv.2605.06445 重点了解更多 arXiv 通过 DataCite 发布的 DOI 提交历史记录来自：Paolo Papotti [ 查看电子邮件 ] [v1] 星期四，2026 年 5 月 7 日 15:44:40 UTC (401 KB) 全文链接：访问论文：查看题为 Constraint Decay: The Fragility of LLM Agents in Backend Code Generation 的论文的 PDF，作者为 Francesco Dente 和其他 2 位作者查看 PDF HTML（实验性）TeX 源代码查看许可证当前浏览上下文：cs.SE < 上一页 |下一页 > 新 |最近 | 2026-05 更改为浏览方式：cs cs.AI 参考文献和引文 NASA ADS Google Scholar 语义学者导出 BibTeX 引文正在加载... BibTeX 格式的引文 × 正在加载... 数据提供者：书签书目工具书目和引文工具书目浏览器切换书目浏览器（什么是浏览器？）已连接论文切换已连接论文（什么是已连接）论文？ ) Litmaps 切换 Litmaps（什么是 Litmaps？） scite.ai 切换 scite 智能引文（什么是智能引文？）与本文相关的代码、数据、媒体代码、数据和媒体 alphaXiv 切换 alphaXiv（什么是 alphaXiv？）代码链接切换 CatalyzeX 论文代码查找器（什么是 CatalyzeX？） DagsHub 切换 DagsHub (什么是 DagsHub？) GotitPub 切换 Gotit.pub (什么是 GotitPub？) Huggingface 切换拥抱面 (什么是 Huggingface？) ScienceCast 切换 ScienceCast (什么是 ScienceCast？) 演示演示复制切换复制 (什么是复制？) Spaces 切换拥抱面空间 (什么是空间？ ) 空间切换 TXYZ.AI（什么是 TXYZ.AI？）相关论文推荐器和搜索工具链接到 Influence Flower Influence Flower（什么是 Influence Flowers？）核心推荐器切换 CORE 推荐器（什么是 CORE？）作者地点机构主题关于 arXivLabs arXivLabs：与社区合作者的实验项目 arXivLabs 是一个允许合作者开发和共享新 arXiv 的框架直接在我们的网站上提供功能。与 arXivLabs 合作的个人和组织都接受并接受了我们开放、社区、卓越和用户数据隐私的价值观。 arXiv 致力于这些价值观，并且只与遵守这些价值观的合作伙伴合作。您有一个能为 arXiv 社区增加价值的项目想法吗？了解有关 arXivLabs 的更多信息。这篇论文的哪些作者是认可者？ |禁用 MathJax（什么是 MathJax？）

订阅66必读