Antigravity 2.0 在 OpenSCAD 建筑 3D LLM 基准测试中名列前茅

2026-05-22 1 阅读 jetter
我们运行了一个小型实用基准测试:为几个 AI 编码工具提供相同类型的任务,并要求它们在 OpenSCAD 中构建 Pantheon。 ModelRift 为平台上的每个 3D 模型生成 OpenSCAD。法学硕士处理空间几何的能力直接影响我们可以运送的东西,因此我们跟踪模型如何改进此类任务。目标是了解每个系统如何使用 OpenSCAD CLI 渲染预览和迭代,将建筑参考材料转换为参数化 CAD 代码。提示是有意的视觉和建筑:根据参考图像构建万神殿,包括圆形大厅、圆顶、门廊、柱子、山形墙和可识别的正面细节。当前六项基准测试结果的概述。每个缩略图都标有用于该运行的客户端和模型。为什么是万神殿?这不是基本的 OpenSCAD 语法测试。目前所有的编码法学硕士都可以在 OpenSCAD 中完美地生成简单的“带孔立方体”模型。这种提示主要测试模型是否知道 Difference() 、cube() 和汽缸() 。万神殿作为基准更有用,因为它位于中间地带。 OpenSCAD 不太适合自然雕刻模型、有机表面或类似角色的几何形状。它在布尔运算、径向对称、挤压和干净的构造形状方面要好得多。万神殿有一个巨大的放射状圆形大厅和圆顶、一个中央洞、直门廊面、圆柱、阶梯底座和三角形山墙。这种混合使其具有说明性,但并非不可能。也是可以认出来的。弱结果看起来仍然隐约像圆顶建筑,但更好的结果必须使圆形鼓、矩形门廊、圆顶环和前立面之间的关系大致正确。为什么选择 OpenSCAD? OpenSCAD 是 LLM 生成的几何图形的强大目标,因为该模型是具有紧凑词汇表的纯文本代码。代理可以将建筑物描述为嵌套转换、布尔运算、圆柱体、挤压、循环和命名模块。这更接近于语言模型已经推理结构的方式,而不是要求它们通过 UI 操作驱动 3D 应用程序。这是我们首先围绕 OpenSCAD 构建 ModelRift 的主要原因,如为什么我们在 OpenSCAD 上构建 ModelRift 中所述。这对于复杂的几何形状很重要。借助 OpenSCAD,法学硕士可以直接在源代码中说“围绕半径制作 28 个重复的柱”或“从圆顶中减去圆孔”。结果是可检查、可重复且易于修改的。如果列间距错误,修复通常是参数或循环更改,而不是隐藏的场景状态突变。同样的文本优先结构使得 OpenSCAD 能够与参数化 UI 层(如构建更好的 OpenSCAD 定制器 中讨论的层)良好配合。 Blender MCP 和类似的工具控制方法对于某些工作流程很有用,但对于此基准测试来说,它们是一种不太自然的编码。代理必须将架构意图转换为一系列应用程序操作,然后随着这些操作的累积保留场景状态的心理模型。对于类似 CAD 的任务,这是很多间接的。 OpenSCAD 将几何图形本身保留为工件。缺点是 OpenSCAD 不是一个雕刻工具。它最擅长处理构造性、参数化和大多数硬表面物体。万神殿就坐落在这个区域:径向对称、重复的柱子、环、切口和简单的建筑实体。它还清晰地映射到 3D 打印的实际文件输出方面:STL 仍然是基线网格格式,而 3MF 可以承载更丰富的装配和颜色信息,如 3D 文件格式解释和我们如何向 ModelRift 添加多色 3MF 导出中所述。这就是为什么它是 ModelRift 希望 LLM 生成的几何类型的有用基准。提示 用于基准测试的提示是:查看两个参考图像并使用 pantheon 的 openscad 实现构建 .scad 文件。使用 openscad CLI(可用)预览您的工作(通过将 openscad 模型渲染为 .png)并进行迭代,直到您对结果感到满意为止。参考图像 参考#1 是左侧的前立面视图。参考#2 是右侧的鸟瞰图/顶视图。组合图像是使用 ffmpeg 从基准测试中使用的两个源图像生成的。结果 六个当前基准输出,按客户和模型标记。工具和模型 时间质量摘要 链接 Cursor 3.5 / Composer 2.5 ●●●●● 5/5,最快 ●○○○○ 1.4/5 运行速度最快,但输出最弱。它捕捉到了圆顶和门廊,但比例、色彩规则和建筑细节是最差的。探索 3D 结果 Codex 5.5 高●●●●○ 4/5,基线●●●○○ 3.0/5 细节密度高,包括柱顶上的铭文。如果最终的 STL 与 PNG 预览相匹配,那么它的得分可能会略低于《反重力》;公布的分数因出口不匹配而受到抑制。探索 3D 结果 Claude Code 2.1 / Opus 4.7 ●●○○○ 2/5,较慢 ●●●○○ 3.0/5 更好的结构