完成数亿元新融资,影眸科技 Hyper3D 让 3D 生成进入“思考时代”丨36氪首发

2026-06-24 1 阅读 36kr
文|王欣逸 编辑|张雨忻 2026 年开年来,3D 生成模型赛道相当热闹。 今年第一季度,影眸科技发布首个 3D 编辑模型 Rodin Gen-2 Edit,让 AI 3D 模型第一次可编辑;今年 6 月,VAST 官宣了新一轮融资,Meshy 也紧随其后,宣称自己发布了全球首款 3D AI Agent。 近日,影眸科技——这支扎根学术圈、创业早、年轻的 3D 模型团队,带着最新的技术研究成果,以及新一轮融资,再添了一把火。 这支团队创立于 2020 年,创始人兼 CEO 吴迪、和联合创始人兼 CTO 张启煊以及另外两位联合创始人张龙文、曾初啸均来自上海科技大学。团队约 60 人,平均年龄不到 25 岁。 尽管看起来年轻,但在 B 端市场,影眸几乎站稳了头部地位,其 B 端客户数及收入比行业内其他公司加起来还要多,客户包括字节跳动、Unity、Figma、Canva 等企业,海外收入占总收入约 80%。 提出定义主流 AI 3D 架构的原生 3D 生成方案 CLAY、连续数年获得计算机图形学顶级会议 SIGGRAPH 最佳论文及提名——在学术成果上,影眸的科研履历也相当亮眼,在顶刊和各大会议上论文、奖项不断,其算法团队每2人中就有1人获得或提名过最佳论文。 《智能涌现》独家获悉, 近日,影眸科技宣布完成数亿元新一轮融资,本轮融资由凯辉基金、上海国投先导领投,老股东持续跟投。 此前,字节跳动、美团龙珠、红杉、蓝驰已相继押注。 伴随新一轮融资,影眸科技发布了最新一代 3D 生成模型——Hyper3D Rodin Gen-2.5,将语言模型“先思考再生成”的模式引入 3D 生成领域。面向不同的生产场景,Gen-2.5 提供了可调节的精度模式,该模型是全球首个千万面级 3D 生成模型,最快 4 秒可实现生成百万面模型,并同步推出全球首个 12K 精度的原生 3D 贴图模型。 长期以来,影眸面向 B 端及专业 C 端,提供平台订阅、B 端 API 售卖、私有化部署、直接提供最终资产等服务,主要的应用场景包括电商、3D 打印、游戏、工业设计、具身智能等行业。 面对市场竞争,影眸的打法是,瞄准海外市场、C 端专业用户以及让模型生成过程更为可控。 值得关注的是,在最新模型Rodin Gen-2.5发布后,C 端收入正在反超 B 端。 Rodin Gen-2.5 上线首月,订阅用户与 ARR 的环比增速均超 400%。 C 端的发力,正击中了影眸想要解决的问题:AI 3D 能否被用户真正使用。 “从学术圈走出的人容易有惯性,认为自己的技术和论文很厉害,为什么市场不用。但实际上,实验室研发出来的东西和真正能被使用的东西之间,存在巨大的鸿沟。”吴迪告诉我们。 想要消弭这一鸿沟,核心在于,生成的模型要符合使用标准,用户能控制3D的生成结果。 为此,他们几乎最大程度上给予了用户参与编辑的自由。 在平台上,用户可以通过影眸自研的 3D ControlNet,控制生成结果的长宽高和形状;实现 3D 编辑功能,平台生成的模型乃至第三方模型都可以实现二次编辑,支持自然语言局部修改模型;能对 3D 资产进行分件,支持分件后再分件。 △影眸科技3D资产的分件能力,图源:企业官方 在影眸看来,看似复杂、需要用户反复确认及控制的流程,恰恰是用户选择他们的理由。 “我们对 3D 生成的用户群体有预估,大部分愿意付费的用户,刚好是那些对「可控」有需求的群体,我们要先服务好真正会买单的人,”张启煊谈到,“3D 生成的落地运用,已经从追求观赏质量,迈向了可控、效率与质量并重,更贴近实际生产的下半场。” 在预训练阶段就做好模型的可控性设计 在经历元宇宙赛道萎缩、2023 年资金困境后,2024 年,原生 3D 生成方案 CLAY 的研究和提出,完全改变了影眸科技乃至整个 3D 生成赛道的走向。 彼时,整个 AI 3D 行业内的技术路径几乎都围绕“2D 升维 3D”的模式——先生成物体的多视角图像,再建模成 3D 资产。这一模式缺点明显:这一模式存在不可逆的信息丢失,生成的模型难以真正应用于工业设计、游戏等相关领域。 但影眸觉得,生成的 3D 资产是否做到了 Production-Ready(生产就绪)是更重要的。于是,他们做出了一个反共识的决定:用 3D 数据,从头开始训 3D 原生模型。 这条没人走过的路被他们走通了。 2024 年,影眸团队提出全球首个产品化的 3D 原生大模型框架 CLAY(《CLAY:用于创建高质量 3D 资产的可控大规模生成模型》),通过算法和框架层面的底层创新,将 3D 生成效果从不可用变为可用。该研究提名当年 SIGGRAPH 最佳论文。 同年年中,基于 CLAY 架构,影眸科技发布了全球首个 3D 原生模型 Rodin Gen-1。这也让行业主流选择技术路线发生变化,纷纷走向了 3D 生成原生路线。 影眸对他们的 3D 模型的两个最重要的要求是:可控性,以及质量。 其中,可控性,是影眸打出的一张明牌。 “对专业创作者来说,可控性特别重要,这是他们选择我们的首要原因。”张启煊称。 “实现可控性的关键在于,在预训练阶段就将相关设计放进去,和模型底层一起长出来。”从 Rodin 的第一个版本起,他们就引入了 3D ControlNet 等可控能力。 此后,影眸团队也持续增加产品的可控性,包括支持局部修改模型,能自动拆分出不同部件,也能实现分件后继续分件,帮助用户减少抽卡次数,提高模型生成过程中的可控性。 Rodin Gen-2.5 首次在 3D 生成领域引入类似 LLM(大语言模型)的 Test-time Scaling(测试时缩放)策略,自适应的可调节 Thinking Effort(思考力度) 为未来实现与图像生成模型类似的、与 LLM 的深度结合提供了可能性。通过该策略,用户可选择模型的思考时间和深度。它支持五档思考深度,耗时 4 秒至 80 秒不等,对应着从快速草稿到高精度资产。在 Extreme-High 模式下,模型能实现千万面数生成能力,能还原皮肤微结构、纹理、毛孔等特征。 △Rodin-2.5的五档思考深度,图源:企业官方 不仅如此,影眸还同步推出了一个原生 3D 贴图模型,区别传统投影法生成材质,这一模型能解决传统方法存在的颜色断层、浸染等问题,清晰保留 Logo、文字等信息。从几何生成到贴图,最快仅需 5 秒。 该贴图模型具备图像生成级别能力,可实现材质纹理无死角覆盖,文字效果提升显著,支持基于物理的 PBR 材质。配合同步推出的12K原生3D贴图模型,生成效果在几何精度与材质保真度上已可超越实景扫描,断代领先行业水平。 另一个关键点——质量,影眸用一系列研究成果对此做出了证明。 自 CLAY 后,他们相继推出了 CAST、BANG 等研究成果。前者能通过输入一张图片,便能生成包含物体和物体关系的完整 3D 场景;后者能实现对 3D 资产的分件。 其中,关于 CAST 的研究论文《CAST:基于单张 RGB 图像的组件对齐式 3D 场景重建》斩获 SIGGRAPH 2025 最佳论文奖。同期在该领域获得最佳论文的商业公司仅有谷歌、Meta 和影眸三家。 作为唯一连续多年获得 SIGGRAPH