智能AI morning

中国第一、全球第二!HiDream-O1-Image-1.5 登顶文生图榜单,超越谷歌、英伟达

2026-06-11 1 阅读 量子位的朋友们
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 中国第一、全球第二!HiDream-O1-Image-1.5 登顶文生图榜单,超越谷歌、英伟达 量子位的朋友们 2026-06-10 19:52:55 来源: 量子位 转载来源:智象未来 本文为量子位获授权转载,观点仅为原作者所有。 近日,智象未来(HiDream.ai) 全新推出的商用版图像生成模型 HiDream-O1-Image-1.5 再次实现 SOTA,在全球知名独立 AI 模型评测与分析平台 Artificial Analysis的文生图榜单(Text to Image Leaderboard)上,一举登上中国图像生成模型第一,成为评分仅次于OpenAI的中国大模型公司,超越Google Nano Banana 2(Gemini 3.1 Flash Image Preview)、NVIDIA Cosmos3-Super-Text2Image 和字节跳动的Seedream 4.0等国内外大厂的主流图像生成模型。 半个月前,智象未来 HiDream-O1 系列的开源模型 HiDream-O1-Image-Dev-2604 刚刚登顶文生图榜单开源模型全球第一。数周之后,HiDream-O1-Image-1.5再次进入全球文生图大模型榜单前三,连续登顶不仅印证了智象未来在图像生成大模型上的硬核实力,更标志着其已在视觉生成大模型的角逐中稳居全球第一梯队阵营。 Artificial Analysis 的 Text to Image Leaderboard 采用匿名对比、用户投票和ELO动态排名机制,尽量减少品牌认知对评测结果的影响,更接近真实用户在开放生成场景中的偏好判断,在这一专业评测体系下,HiDream-O1-Image-1.5在超过4000 个样本对比中取得 1265 ELO 。HiDream-O1-Image-1.5 的表现不仅体现了模型在图像质量上的竞争力,也反映出其在语义遵循、复杂画面生成、文字渲染和多主体控制等综合能力上的提升。 HiDream-O1-Image-1.5 的再度 SOTA, 不只是中国领先大模型公司的又一次全球榜单领先,它更标志着智象未来在业内率先把创新的原生全模态架构Unified Transformer (UiT)从“技术验证”推进到“生产验证”,是 HiDream将底层架构优势转化为视觉生产力工具的关键一步:开源版本证明了像素级原生全模态架构可以在开放评测和开发者社区中跑通,HiDream-O1-Image-1.5 商用版本则进一步面向广告营销、品牌设计、电商视觉、游戏内容、影视分镜、IP 创作等更高要求的商业场景,全面展示了强化的图像质量、文字渲染、复杂排版、多主体一致性和视觉叙事能力。 接下来,真正值得关注的,是它在真实内容生产任务中的表现。 01 会写字、懂排版、能分镜,HiDream-O1-Image-1.5 展现全能图像生成能力 人像摄影生图实例:摄影级画质与多风格表达 在人像生图场景中,HiDream-O1-Image-1.5 展现出 稳定的摄影级画质和多风格适配能力 。从魔幻光影、双人互动到人物特写,模型在皮肤质感、服饰纹理、肢体关系和环境虚化等细节上表现自然;即使面对广角、低机位、室内暖光等复杂构图,也能保持人物比例、空间透视与画面叙事的协调。体现出面向商业人像、品牌视觉和影视分镜等高要求场景的强交付能力。 动物生图实例:运动形态与自然环境的精细建模 在动物生图场景中, HiDream-O1-Image-1.5 展现出对主体形态、运动状态与自然环境的精细建模能力 ,在动物结构、皮毛质感、动态表现及复杂光照、水下折射等高难度画面中保持真实感与视觉冲击力,体现出面向自然影像、品牌视觉、游戏资产和创意内容生产等场景的生产级交付能力。 自然风光生图实例:空间与光影变化的精细捕捉 在自然生图场景中, HiDream-O1-Image-1.5 展现出对大场景空间层次、光影变化与环境氛围的精准控制能力 ,在雪山湖泊、沙漠驼队、晶体洞穴等复杂地貌与多光源场景中保持纵深感、电影感和细节表现,体现出面向旅游视觉、影视概念图、游戏场景和品牌传播等复杂商用场景的稳定交付能力。 多种艺术风格:精确的风格理解与视觉表达 在多风格艺术生成场景中, HiDream-O1-Image-1.5 展现出优秀的风格理解、语义遵循与视觉表达能力 ,可在日系插画、动漫战斗、卡通海报和国风武侠等风格间准确切换,并保持角色造型、构图关系、动作节奏与画面氛围统一,同时在复杂姿态、动态特效和基础文字渲染上具备较强稳定性。可为 IP 创作、漫画分镜、游戏美术、品牌创意视觉提供高效的生产支持。 电商海报生图实例:复杂画面与文字信息无缝融合 在电商海报生成场景中, HiDream-O1-Image-1.5 展现出对商品主体、版式结构与文字信息的综合把控能力 ,可针对不同品类快速匹配视觉风格,并自然融合商品、场景、装饰元素与营销文案;在中英文混排、多层级卖点和复杂排版任务中,仍能保持较高的文字可读性、画面完整度与商业质感,显著提升广告营销、电商上新、社媒种草和品牌物料制作效率。 IP形象设计:多视角生成与角色一致性 在 IP 形象设计场景中, HiDream-O1-Image-1.5 展现出对角色设定、表情变化与多视角一致性的稳定控制能力 ,可围绕同一角色生成多角度视图和多种情绪表情,并保持五官、发型、服饰与整体风格统一,呈现丰富的性格与表现力,可显著提升 IP 设定、角色三视图、动画前期、美术资产和品牌吉祥物开发的效率。 多宫格/分镜设计图:稳定叙事理解与连续画面生成 在多宫格与分镜设计场景中, HiDream-O1-Image-1.5 展现出对连续叙事、画面顺序与信息层级的理解能力 ,可在工具流程、任务推进、儿童绘本和冒险故事等多画面内容中生成逻辑连贯的分镜画面,并保持角色、场景与视觉风格统一;同时对宫格布局、编号、标题和关键文字具备较强组织能力,可为影视分镜、漫画创作、广告脚本、教育内容和短视频脚本视觉化提供高效支持。 多层次复杂文字渲染能力:多语言,多结构的综合生成能力 在多层次复杂文字渲染任务中, HiDream-O1-Image-1.5 展现出对多语言文本、信息结构与视觉场景的综合生成能力 ,可将海报、计划书、结构拆解图、课堂白板、直播界面和数据看板等内容自然嵌入对应场景,并兼顾排版秩序、图文关系与整体美感;面对中英文混排、数字公式、图表信息和多级标题等复杂需求,仍能保持较好的可读性与版面稳定性,拓展了其在广告设计、办公协作、电商详情页和教育培训等场景的实用价值。 02 原生全模态进入生产验证阶段,HiDream-O1-Image-1.5持续放大UiT 架构优势 HiDream-O1-Image-1.5 的表现,进一步证明了智象未来在原生全模态路线上的架构创新优势和快速迭代能力,HiDream-O1 系列(8B 开源版、Pro 版到 1.5 商用版)已经形