Antigravity 2.0 在 OpenSCAD 建筑 3D LLM 基准测试中名列前茅

我们运行了一个小型实用基准测试：为几个 AI 编码工具提供相同类型的任务，并要求它们在 OpenSCAD 中构建 Pantheon。 ModelRift 为平台上的每个 3D 模型生成 OpenSCAD。法学硕士处理空间几何的能力直接影响我们可以运送的东西，因此我们跟踪模型如何改进此类任务。目标是了解每个系统如何使用 OpenSCAD CLI 渲染预览和迭代，将建筑参考材料转换为参数化 CAD 代码。提示是有意的视觉和建筑：根据参考图像构建万神殿，包括圆形大厅、圆顶、门廊、柱子、山形墙和可识别的正面细节。当前六项基准测试结果的概述。每个缩略图都标有用于该运行的客户端和模型。为什么是万神殿？这不是基本的 OpenSCAD 语法测试。目前所有的编码法学硕士都可以在 OpenSCAD 中完美地生成简单的“带孔立方体”模型。这种提示主要测试模型是否知道 Difference() 、cube() 和汽缸() 。万神殿作为基准更有用，因为它位于中间地带。 OpenSCAD 不太适合自然雕刻模型、有机表面或类似角色的几何形状。它在布尔运算、径向对称、挤压和干净的构造形状方面要好得多。万神殿有一个巨大的放射状圆形大厅和圆顶、一个中央洞、直门廊面、圆柱、阶梯底座和三角形山墙。这种混合使其具有说明性，但并非不可能。也是可以认出来的。弱结果看起来仍然隐约像圆顶建筑，但更好的结果必须使圆形鼓、矩形门廊、圆顶环和前立面之间的关系大致正确。为什么选择 OpenSCAD？ OpenSCAD 是 LLM 生成的几何图形的强大目标，因为该模型是具有紧凑词汇表的纯文本代码。代理可以将建筑物描述为嵌套转换、布尔运算、圆柱体、挤压、循环和命名模块。这更接近于语言模型已经推理结构的方式，而不是要求它们通过 UI 操作驱动 3D 应用程序。这是我们首先围绕 OpenSCAD 构建 ModelRift 的主要原因，如为什么我们在 OpenSCAD 上构建 ModelRift 中所述。这对于复杂的几何形状很重要。借助 OpenSCAD，法学硕士可以直接在源代码中说“围绕半径制作 28 个重复的柱”或“从圆顶中减去圆孔”。结果是可检查、可重复且易于修改的。如果列间距错误，修复通常是参数或循环更改，而不是隐藏的场景状态突变。同样的文本优先结构使得 OpenSCAD 能够与参数化 UI 层（如构建更好的 OpenSCAD 定制器中讨论的层）良好配合。 Blender MCP 和类似的工具控制方法对于某些工作流程很有用，但对于此基准测试来说，它们是一种不太自然的编码。代理必须将架构意图转换为一系列应用程序操作，然后随着这些操作的累积保留场景状态的心理模型。对于类似 CAD 的任务，这是很多间接的。 OpenSCAD 将几何图形本身保留为工件。缺点是 OpenSCAD 不是一个雕刻工具。它最擅长处理构造性、参数化和大多数硬表面物体。万神殿就坐落在这个区域：径向对称、重复的柱子、环、切口和简单的建筑实体。它还清晰地映射到 3D 打印的实际文件输出方面：STL 仍然是基线网格格式，而 3MF 可以承载更丰富的装配和颜色信息，如 3D 文件格式解释和我们如何向 ModelRift 添加多色 3MF 导出中所述。这就是为什么它是 ModelRift 希望 LLM 生成的几何类型的有用基准。提示用于基准测试的提示是：查看两个参考图像并使用 pantheon 的 openscad 实现构建 .scad 文件。使用 openscad CLI（可用）预览您的工作（通过将 openscad 模型渲染为 .png）并进行迭代，直到您对结果感到满意为止。参考图像参考#1 是左侧的前立面视图。参考#2 是右侧的鸟瞰图/顶视图。组合图像是使用 ffmpeg 从基准测试中使用的两个源图像生成的。结果六个当前基准输出，按客户和模型标记。工具和模型时间质量摘要链接 Cursor 3.5 / Composer 2.5 ●●●●● 5/5，最快 ●○○○○ 1.4/5 运行速度最快，但输出最弱。它捕捉到了圆顶和门廊，但比例、色彩规则和建筑细节是最差的。探索 3D 结果 Codex 5.5 高●●●●○ 4/5，基线●●●○○ 3.0/5 细节密度高，包括柱顶上的铭文。如果最终的 STL 与 PNG 预览相匹配，那么它的得分可能会略低于《反重力》；公布的分数因出口不匹配而受到抑制。探索 3D 结果 Claude Code 2.1 / Opus 4.7 ●●○○○ 2/5，较慢 ●●●○○ 3.0/5 更好的结构

订阅66必读