开发者生态
morning
Ultralytics YOLO26:统一的实时端到端视觉模型
2026-06-23
1 阅读
teleforce
计算机科学 > 计算机视觉与模式识别 arXiv:2606.03748 (cs) [2026 年 6 月 2 日提交] 标题:Ultralytics YOLO26:统一实时端到端视觉模型 作者:Glenn Jocher、Jing Qiu、Mengyu Liu、Shuai Lyu、Fatih Cagatay Akyon、Muhammet Esat Kalfaoglu 查看 的 PDF题为“Ultralytics YOLO26:统一实时端到端视觉模型”的论文,作者为 Glenn Jocher 和其他 5 位作者 查看 PDF HTML(实验) 摘要:实时视觉需要准确、高效且易于跨不同硬件部署的模型。由于这个原因,YOLO 系列已得到广泛部署,但大多数 YOLO 检测器在推理时仍然依赖于非极大值抑制,由于分布焦点损失而携带沉重的检测头,需要很长的训练计划,并且可能会留下最小的物体而不进行正标签分配。我们推出了 Ultralytics YOLO26,这是一个统一的实时视觉模型系列,它通过协调的架构和训练进步来解决这些限制。 YOLO26 采用双头设计,实现原生无 NMS 端到端推理,并完全消除 DFL,从而产生具有不受约束的回归范围的更轻的头。其训练流程结合了 MuSGD,这是一种改编自大型语言模型训练的混合 Muon-SGD 优化器; Progressive Loss,将监督转向推理时间头; STAL,一种标签分配策略,可保证小物体的积极覆盖。除了检测之外,YOLO26 还引入了特定于任务的头部和损失设计,例如分割、姿态估计和定向检测,从而在任务和尺度上产生一致的增益。该系列涵盖五个尺度 (n/s/m/l/x),并支持单个管道中的检测、实例分割、姿势估计、分类和定向检测,并具有开放词汇扩展 YOLOE-26,用于文本、视觉和无提示推理。在所有尺度上,YOLO26 在 COCO 上以 1.7-11.8 ms T4 TensorRT 延迟实现了 40.9-57.5 mAP,比之前的实时检测器提高了准确性延迟 Pareto 前沿,而 YOLOE-26x 在文本提示下在 LVIS minival 上达到了 40.6 AP。代码和模型可从此 https URL 获取。评论:31 页,8 图主题:计算机视觉和模式识别 (cs.CV);人工智能 (cs.AI) 引用为:arXiv:2606.03748 [cs.CV](或此版本的 arXiv:2606.03748v1 [cs.CV]) https://doi.org/10.48550/arXiv.2606.03748 重点了解更多 arXiv 通过 DataCite 颁发的 DOI(待注册) 提交历史记录发件人:Glenn Jocher [ 查看电子邮件 ] [v1] 星期二,2026 年 6 月 2 日 15:01:13 UTC (8,589 KB) 全文链接: Access Paper:查看标题为 Ultralytics YOLO26:统一实时端到端视觉模型 (Ultralytics YOLO26: Unified Real-Time End-to-End Vision Models) 的 PDF 论文,作者为 Glenn Jocher 和其他 5 位作者 查看 PDF HTML(实验性)TeX 源代码 查看许可证 当前浏览上下文:cs.CV <上一页 |下一页 > 新 |最近 | 2026-06 更改为浏览方式:cs cs.AI 参考文献和引文 NASA ADS Google Scholar 语义学者导出 BibTeX 引文 正在加载... BibTeX 格式的引文 × 正在加载... 数据提供者: 书签 书目工具 书目和引文工具 书目浏览器 切换书目浏览器(什么是浏览器?) 已连接论文 切换已连接论文(什么是已连接)论文? ) Litmaps 切换 Litmaps(什么是 Litmaps?) scite.ai 切换 scite 智能引文(什么是智能引文?) 与本文相关的代码、数据、媒体 代码、数据和媒体 alphaXiv 切换 alphaXiv(什么是 alphaXiv?) 代码链接 切换 CatalyzeX 论文代码查找器(什么是 CatalyzeX?) DagsHub 切换 DagsHub (什么是 DagsHub?) GotitPub 切换 Gotit.pub (什么是 GotitPub?) Huggingface 切换拥抱面 (什么是 Huggingface?) ScienceCast 切换 ScienceCast (什么是 ScienceCast?) 演示 演示 复制 切换复制 (什么是复制?) Spaces 切换拥抱面 空间 (什么是空间? ) 空间 切换 TXYZ.AI(什么是 TXYZ.AI?) 相关论文推荐器和搜索工具 链接到 Influence Flower Influence Flower(什么是 Influence Flowers?) 核心推荐器切换 CORE 推荐器(什么是 CORE?) 作者地点 机构 主题 关于 arXivLabs arXivLabs:与社区合作者的实验项目 arXivLabs 是一个允许合作者开发和共享新 arXiv 的框架直接在我们的网站上提供功能。与 arXivLabs 合作的个人和组织都接受并接受了我们开放、社区、卓越和用户数据隐私的价值观。 arXiv 致力于这些价值观,并且只与遵守这些价值观的合作伙伴合作。您有一个可以为 arXiv 社区增加价值的项目想法吗?了解有关 arXivLabs 的更多信息。这篇论文的哪些作者是认可者? |禁用 MathJax(什么是 MathJax?)