Skip to content

YOLO26: An Analysis of NMS-Free End to End Framework for Real-Time Object Detection

  • 来源: https://arxiv.org/abs/2601.12882
  • 本地PDF: ../raw/2026-01-19-yolo26.pdf
  • 日期: 2026-01-19
  • 标签: yolo, nms-free, end-to-end, real-time, one-stage, export-gap
  • 研究方向: 2D Object Detection → 实时检测 → NMS-Free 端到端架构
  • 作者: Sudip Chakrabarty (School of Computer Engineering, KIIT University)
  • 提交日期: 2026-01-19 (v1), 2026-03-18 (v2)
  • 声明: 这是一篇 secondary analytical review,基于 Ultralytics 公开发布的文档、benchmark 和技术描述进行分析,非 Ultralytics 官方论文

摘要

论文性质: 二次分析(secondary review),非 Ultralytics 官方论文,基于公开文档和 benchmark 做系统解读。

问题: YOLO 历代版本依赖 NMS 后处理 → 引入延迟波动 + 超参数依赖,密集场景误杀严重

方案: YOLO26 彻底去掉 NMS,转向原生端到端学习(one-to-one 标签分配)

三大训练优化:

  • MuSGD — 主干网络稳定化优化器,灵感来自 LLM 训练
  • STAL — 小目标感知标签分配,提升小目标召回
  • ProgLoss — 动态损失权重,早期重分类、后期重回归

验证: COCO val2017,Nano→XL 全尺度对比,CNN vs Transformer(RT-DETR、DEIM、RF-DETR)

扩展: 统一多任务框架 — 实例分割 + YOLOE-26 开放词汇检测

落地价值: 消除 "Export Gap"(训练-推理行为差异),实现确定性延迟,适合边缘部署


引言 (Introduction)

1.1 背景 — Ultralytics 的遗产与 NMS 痛点

  • YOLOv5/v8 把 CSP Backbone + 易用部署结合,让检测"民主化"(边缘设备也能跑)
  • 但历代都依赖 NMS 后处理 → 密集场景延迟波动大,超参数敏感

1.2 YOLO26 定位 — NMS-Free 的新 Pareto 前沿

  • 核心 claim:NMS-Free CNN 可以超越 attention-based Transformer 检测器,DETR 路线可能到头了
  • 官方 benchmark (T4 GPU, TensorRT10, FP16):
模型COCO mAP 50-95延迟
YOLO26n>40~1.5 ms
YOLO26x~57.5~11.5 ms
  • 对比对象:历代 YOLO (v5-v11)、RT-DETR (v2/v3/v4)、RTMDet、DAMO-YOLO、PP-YOLOE+
  • YOLO26 全尺度压制:Nano→XL 每个档位都形成新 Pareto 前沿

1.3 本文 5 大贡献

  1. 架构拆解:NMS-Free 的数学机制
  2. 训练策略:MuSGD / STAL / ProgLoss 如何支撑轻量端到端收敛
  3. 全尺度 benchmark:v1-v13 vs Transformer 对手
  4. 多任务 + 开放词汇:YOLOE-26 零开销 prompt 检测
  5. Export Gap 分析:确定性延迟对安全关键边缘应用的意义

1.4 全文结构

  • Sec 2: YOLO 演进史(Foundational v1-v3 → Community v4-v7 → Modern v8-26)
  • Sec 3: 核心创新(NMS-Free pipeline、DFL-free head、MuSGD 训练动态)
  • Sec 4: 多任务扩展(检测、分割、姿态估计)
  • Sec 5: 官方 benchmark 和 SOTA 分析
  • Sec 6: Export Gap 挑战和确定性延迟
  • Sec 7: 未来方向(内在可解释性、时空感知)
  • Sec 8: 总结

Section 2: YOLO 演进史

三大时代划分

时代版本时间核心特点
奠基时代v1-v32015-2018单阶段回归、anchor boxes、多尺度特征
社区扩张v4-v72020-2022CSP、Bag-of-Freebies、重参数化、E-ELAN
现代统一v8-262023-PresentAnchor-free、解耦头、多任务、NMS-Free

各版本关键里程碑

v1-v3 (奠基时代)

  • v1: 开创单阶段回归框架,SSE 损失
  • v2: 引入 anchor boxes、batch norm、passthrough 层
  • v3: Darknet-53 + 多尺度预测,解决小目标问题

v4-v7 (社区扩张)

  • v4: CSPDarknet53 + PAN + CIoU + BCE,优化速度-精度平衡
  • v5: PyTorch 模块化 + 自动 anchor 优化,易用性起飞
  • v6: 重参数化卷积(EfficientRep),工业部署优化
  • v7: E-ELAN + 深度监督 + OTA 分配

v8-13 + v26 (现代统一)

版本BackboneHeadLossNMS关键创新
v8C2fDecoupledBCE+CIoU+DFLAnchor-free + 多任务(检测/分割/姿态)
v9GELANDecoupledBCE+CIoU+DFLPGI (可编程梯度信息)
v10GELANDecoupledBCE+CIoU+DFL首次 NMS-Free! 双标签分配
v11C3k2DecoupledBCE+CIoU+DFLC2PSA 特征细化
v12Flash + Area AttentionDecoupledBCE+CIoU+DFLA2 注意力,长距离依赖
v13Hyper-NetDecoupledBCE+CIoU+DFL超图空间建模(iMoonLab 第三方)
v26CSP-MuonDecoupled (1-to-1)STAL+ProgLossDFL 移除 + edge 优化

核心概念:Export Gap

问题: v8-v13 使用的 DFL (Distribution Focal Loss) 需要在 16 个离散 bin 上做 Softmax

痛点: Edge 硬件(NPU/DSP)上 Softmax 极难量化,成为延迟瓶颈

公式: 每个坐标预测需要计算 Softmax 加权求和

ŷ_DFL = Σ i · Softmax(w_i) = Σ i · e^{w_i} / Σ e^{w_j}

解决: YOLO26 移除 DFL,改用直接回归

ŷ_v26 = F_reg(x)  # 简单线性映射

结论: v10 是第一个 NMS-Free 的 YOLO,但 v26 是第一个同时移除 DFL + NMS 的版本,真正实现「确定性延迟」。


Section 3: 核心架构创新

3.1 Native End-to-End NMS-Free 架构

传统 NMS 的问题

  • 顺序执行,延迟取决于场景密度(物体数量)
  • 超参数 N_t 敏感,不同场景需要调参
  • 公式:
    s_i = s_i, if IoU(M, b_i) < N_t
         0,     if IoU(M, b_i) ≥ N_t

YOLO26 解决方案

  • 改用 one-to-one 标签分配:训练时一个物体只匹配一个检测框
  • 推理时直接输出唯一预测,消除 NMS 步骤
  • 结果:常数时间延迟,与物体数量无关
  • 官方数据:CPU 推理速度提升 43%

3.2 DFL-Free 解耦头(直接回归)

DFL 的开销

  • 每个坐标需要在 16 个离散 bin 上做 Softmax
  • 包含 exp 和除法运算,Edge 硬件(NPU/DSP)极难量化
  • 公式:
    ŷ_DFL = Σ i · Softmax(w_i) = Σ i · e^{w_i} / Σ e^{w_j}

YOLO26 方案

  • 移除 DFL 模块,改用直接回归
    ŷ_v26 = F_reg(x)  # 简单线性映射
  • 保留解耦头结构:Head(x) =
  • STAL + ProgLoss 补偿精度

3.3 三大训练创新

3.3.1 MuSGD Optimizer

灵感来源:Moonshot AI 的 Kimi K2 大模型训练

核心思想:融合 SGD + Muon optimizer

Muon 部分

  • 不像 AdamW 逐元素更新
  • 对整个权重矩阵做正交化( orthogonalization)
  • 让更新方向与当前状态正交,最大化有效更新方向,抑制谱范数

数学形式

θ_{t+1} = θ_t - η · (α · v_{t+1} + (1-α) · NewtonSchulz(g_t))
  • v_{t+1} = β · v_t + g_t (SGD momentum)
  • α 控制 SGD 和 Muon 的混合比例
  • Newton-Schulz 迭代对梯度矩阵做"白化"

效果:减少梯度方差,无需复杂 warm-up 也能稳定收敛

3.3.2 STAL (Small-Target-Aware Label Assignment)

问题:小目标(<1% 图像面积)即使 anchor 居中,IoU 也极低,被固定阈值 τ=0.5 过滤掉

STAL 公式

τ_dynamic = τ_base · (1 - α · e^{-Area_obj / Area_img})

效果

  • 物体越小,阈值越低(动态适配)
  • 相当于给小目标开了"放大镜"
  • 无人机影像、医学扫描等场景特别受益

3.3.3 ProgLoss (Progressive Loss Balancing)

问题:端到端架构同时学特征和定位,没有 anchor prior 引导,固定 loss 权重 suboptimal

ProgLoss 公式

L_total(t) = λ_t · L_cls + (1-λ_t) · L_box

调度策略

  • 早期(高 λ_t):主攻分类,稳定 backbone 学语义
  • 晚期(低 λ_t):主攻回归,精调边界
  • λ_t 随时间递减(cosine decay)

Section 3 总结

YOLO26 通过五个机制协同实现「训练简单、推理快、部署确定」:

  1. NMS-Free → 确定性延迟(常数时间)
  2. DFL 移除 → Edge 量化友好
  3. MuSGD → 稳定收敛
  4. STAL → 小目标召回
  5. ProgLoss → 动态权重平衡

Section 4: 多任务能力

YOLO26 是统一多任务框架,一个模型支持 6 种视觉任务。核心是共享 backbone + 任务特定 head。

任务总览(Table 2)

任务输出坐标格式关键机制
目标检测Class + Box(xc, yc, w, h)NMS-Free + STAL
实例分割Class + Box + Mask+ MaskpixPrototype + ProgLoss
图像分类Class LabelNone (Global)GAP + Linear
姿态估计Class + Box + Keypoints(xi, yi, vi)_17OKS + RLE
旋转检测 OBBClass + Rotated Box(xc, yc, w, h, θ)Angle-Aware Loss
开放词汇 YOLOE-26Text/Visual + Box+ EmbedtxtVision-Language

4.1 目标检测

  • 43% CPU 延迟降低(对比 NMS-based)
  • STAL 防止小目标梯度消失(<1% 图像面积也能保召回)
  • NMS 移除后可解释性提升:像素→框的映射是确定性

4.2 实例分割

  • 新增 Boundary-Aware Supervision(边界感知监督)
  • ProgLoss 后期 = "轮廓抛光器",确保 mask 边缘锐利
  • DFL-free 避免边缘离散化误差

4.3 图像分类

  • 最简单:Global Average Pooling → Linear Head
  • 延迟最低,适合大规模初筛

4.4 姿态估计

  • 输出 17 个关键点(COCO 标准)
  • 坐标格式:(xi, yi, vi),vi 是可见性
  • OKS (Object Keypoint Similarity) 衡量精度
  • 引入 RLE 建模空间不确定性,处理遮挡

4.5 旋转检测 OBB

  • 坐标格式:(xc, yc, w, h, θ) — 多了旋转角 θ
  • 解决痛点:航拍/工业图像中目标倾斜,水平框包不准
  • 引入 Angle Loss 解决边界 discontinuity
  • 同样 43% 加速(对比传统旋转 NMS)

4.6 Open-Vocabulary Detection — YOLOE-26 Official Extension

关键澄清: YOLOE-26 不是这篇论文提出的。它是 Ultralytics 官方发布的独立扩展变种,基于 YOLO26 骨干。核心 YOLO26 是闭集检测器;YOLOE-26 在其之上增加了开放词汇能力。

YOLOE 架构来源

原始 YOLOE 论文: arXiv:2503.07465 (ICCV 2025)

YOLOE-26 论文: arXiv:2602.00168

  • 把 YOLOE 的三大模块嫁接到 YOLO26 的 NMS-Free + DFL-Free 架构上
  • 享受 YOLO26 的部署优势(确定性延迟、Edge 友好)

YOLOE 架构演进时间线

时间事件
2025.03YOLOE 原始论文发布 (基于 YOLOv8)
2025.09YOLO Vision 2025 大会,Ultralytics 预览 YOLO26
2026.01YOLO26 正式发布 (NMS-Free, DFL-Free)
2026.02YOLOE-26 论文发布 (2602.00168) — YOLOE 模块 + YOLO26 backbone

三种推理模式(Ultralytics 官方)

模式输入用途
Text Prompt文本描述"找红杯子"
Visual Prompt参考图像One-shot 识别
Prompt-free零样本,借助 LVIS/Objects365 词表

官方三大模块

模块功能
RepRTARe-parameterizable Region-Text Alignment
SAVPESemantic-Activated Visual Prompt Encoder
LRPCLazy Region-Prompt Contrast (zero-shot)

零开销重参数化: RepRTA + SAVPE 训练后可折叠进标准 head,延迟与闭集相同。

开源情况

项目代码仓库
YOLOE (v8 版)https://github.com/THU-MIG/yoloe (清华)
YOLOE-26Ultralytics 官方仓库 (和 YOLO26 一起)
YOLO26https://github.com/ultralytics/ultralytics

本论文(2601.12882)作为综述,未提供任何原创代码或训练细节

Section 4 总结

YOLO26 用一套 backbone + 任务专属 head 统一多任务,NMS-Free + ProgLoss 调度保证切换任务不增加延迟。YOLOE-26 提供开放词汇能力且保持零开销,其架构源自清华 YOLOE (ICCV 2025) 嫁接到 YOLO26 backbone。


Section 5: 官方 Benchmark 与 SOTA 分析

5.1 目标检测 (COCO val2017)

模型mAP 50-95mAP e2eCPU ONNX (ms)T4 TensorRT (ms)Params (M)FLOPs (B)
YOLO26n40.940.138.91.72.45.4
YOLO26s48.647.887.22.59.520.7
YOLO26m53.152.5220.04.720.468.2
YOLO26l55.054.4286.26.224.886.4
YOLO26x57.556.9525.811.855.7193.9

关键观察: mAP e2e 接近 mAP val → NMS-Free 几乎无精度损失;Nano 1.7ms 极致轻量

5.2 实例分割 (COCO)

模型mAP boxmAP maskT4 (ms)Params
YOLO26n-seg39.633.92.12.7M
YOLO26s-seg47.340.03.310.4M
YOLO26x-seg56.547.016.462.8M

Mask 分支仅增加 ~0.3M 参数,ProgLoss "轮廓抛光" 生效

5.3 图像分类 (ImageNet)

模型Top-1Top-5T4 (ms)
YOLO26n-cls71.490.11.1
YOLO26s-cls76.092.91.3
YOLO26x-cls79.995.03.8

5.4 姿态估计 (COCO Keypoints)

模型mAP pose 50-95mAP pose 50T4 (ms)
YOLO26n-pose57.283.31.8
YOLO26s-pose63.086.62.7
YOLO26x-pose71.691.612.2

DFL 移除未降低关键点精度,RLE 生效

5.5 旋转检测 OBB (DOTAv1, 1024×1024)

模型mAP 50-95mAP 50T4 (ms)
YOLO26n-obb52.478.92.8
YOLO26s-obb54.880.94.9
YOLO26x-obb56.781.730.5

1024 分辨率下仍保持 <5ms (s-variant),Angle Loss 解决边界不连续,航拍直接可用

5.6 YOLOE-26 开放词汇分割

模型mAP (Text / Visual)mAP raremAP commonmAP frequent
YOLOE-26n-seg23.7 / 20.920.5 / 17.624.1 / 22.326.1 / 22.4
YOLOE-26s-seg29.9 / 27.123.9 / 25.129.6 / 27.833.0 / 29.9
YOLOE-26x-seg39.5 / 36.237.4 / 35.340.9 / 38.841.0 / 38.8

Prompt-Free (Zero-Shot):

  • YOLOE-26n-seg-pf: 16.6 mAP, 6.5M params, 15.8B FLOPs
  • YOLOE-26x-seg-pf: 29.9 mAP, 86.3M params, 314.4B FLOPs

Prompt-Free 需更重内部编码(6.5M vs 4.8M),但无需外部语义锚点

5.7 综合 SOTA 对比 (COCO val2017)

Large/XL 组:

模型Params (M)mAP 50-95mAP 50mAP 75F1 50F1 75
RF-DETR-XXL126.959.978.265.415.312.9
RF-DETR-XL126.458.577.163.715.012.4
DEIM-D-FINE-X61.756.574.061.65.74.8
YOLO26x55.756.373.461.714.412.5
RF-DETR-L33.956.374.861.115.212.6
YOLOv12x59.154.070.359.026.222.5
YOLO11x56.953.670.258.413.911.8

Nano 组:

模型Params (M)mAP 50-95
DEIM-D-FINE-N10.249.0
RF-DETR-N30.548.4
RTMDet-t4.941.0
YOLOv13n2.540.4
YOLO26n2.439.9
YOLO11n2.638.6

核心结论:

  1. YOLO26x 以更少参数 (55.7M) 碾压 YOLO11x (56.9M),追平 DEIM-D-FINE-X (61.7M)
  2. YOLO26n (2.4M) 同等规模下 SOTA
  3. F1 分数全面领先 — NMS-Free 减少误报和边界不连续

Section 6: Export Gap — 边缘 AI 的延迟瓶颈

6.1 传统模型的痛点 (v8-v13)

  • DFL 的 Softmax 在服务器 GPU 上可忽略
  • Edge 硬件 (NPU/DSP/无人机) 上难以量化,成为主要瓶颈
  • 导致论文里"高效模型"部署后吞吐量骤降

6.2 YOLO26 的解决方案

  • 移除 DFL,推理图仅含标准卷积 + 线性操作
  • 确定性延迟 — 与场景复杂度/物体密度无关
  • 对安全关键应用(自动驾驶、机器人导航、医疗)至关重要

Section 7: 未来方向

7.1 内在可解释性 (Inherent Explainability)

  • 现状: Grad-CAM/SHAP 等事后解释
  • 未来: 检测头直接输出理由图/文本解释("分类为肿瘤→因为边界纹理不规则")
  • 对医疗诊断、自主防御等安全关键领域是变革性的

7.2 统一时空感知 (Unified Spatiotemporal Perception)

  • 现状: NMS 导致视频流"闪烁"(不同帧选不同框)
  • 未来: YOLO26 的 NMS-Free 天然适合视频分析
  • 将时间作为第三维,单向前向传播内完成跟踪 + 动作识别,无需 DeepSORT

7.3 边缘测试时自适应 (TTA)

  • 现状: 训练后模型静态
  • 未来: Edge 设备实时更新 BatchNorm 或轻量 adapter
  • 无人机实时"适应"新光照/传感器噪声,无需服务器重训

Section 8: 结论

创新解决的问题收益
NMS-Free顺序后处理延迟波动确定性延迟,常数时间推理
DFL-FreeEdge 量化瓶颈关闭 Export Gap,部署友好
MuSGD端到端训练不稳定无需复杂 warm-up
STAL小目标梯度消失<1% 面积目标保召回
ProgLoss分类/回归固定权重动态平衡,早期语义后期几何

YOLOE-26 证明开放词汇能力可零开销集成,为下一代安全关键 Edge AI 提供蓝图。


可复用代码与资源

项目链接
YOLO26 官方仓库https://github.com/ultralytics/ultralytics
YOLO26 文档https://docs.ultralytics.com/models/yolo26/
YOLOE (v8 版 清华)https://github.com/THU-MIG/yoloe
YOLOE 文档https://docs.ultralytics.com/models/yoloe/
Roboflow Leaderboardhttps://leaderboard.roboflow.com/

个人评价

核心价值: YOLO26 不是一篇研究论文,而是 Ultralytics 工程哲学的集大成者 — 为部署而设计,不为刷榜而设计。

对无人机方向的意义:

  1. OBB variant 直接可用 — DOTA 上 54.8% mAP (s-variant) @ 4.9ms,1024 分辨率下 <5ms
  2. NMS-Free 适合密集场景 — 无人机俯瞰下小目标密集,NMS 误杀最严重
  3. 确定性延迟 — 视频流处理无闪烁,时序一致性天然保证
  4. Edge 友好 — 机载 Jetson/NPU 部署无 DFL 瓶颈,CPU 推理提速 43%

建议切入方向:

  • YOLO26-OBB + VisDrone/DOTA — 验证 NMS-Free 在无人机密集场景的优势
  • 时序扩展 — 利用确定性延迟做跨帧跟踪,解决闪烁问题
  • 多模态融合 — 可见光 + 红外,YOLO26 的 DFL-Free 架构更适合 Edge 融合

局限:

  • 这篇论文是 secondary review,无原创代码/训练细节
  • 真正实现看 Ultralytics 官方仓库
  • YOLOE-26 细节看 arXiv:2602.00168

关键疑问解答 (猴哥提问)

Q1: 这篇论文的对比是作者自己跑的吗?

: 不是。论文明确声明:

  • Section 5 开头:"this study reviews the official performance metrics published by the Ultralytics development team"
  • 所有表格标注 "Official YOLO26 Benchmarks"
  • 作者仅整理解读,数据来自 Ultralytics 官方

对你的意义: 数据可信(官方背书),但这篇论文本身不贡献新实验。


Q2: mAP e2e 接近 mAP val 怎么理解?YOLO26 本来就是 NMS-Free 的,e2e 是啥意思?

: 这里的 e2e 不是指 NMS-Free,而是指「纯推理配置 vs 训练配置」的差异。

背景: YOLO 训练时常用双头设计

  • one-to-many 辅助头:训练时帮助收敛(一个物体匹配多个 anchor),推理时丢弃
  • one-to-one 主头:每个物体仅输出一个预测框,训练和推理都用

推理阶段:训练完成后自动丢弃 Dense Head,仅保留 One-to-One Head

指标区别:

指标含义配置
mAP val标准 COCO 评估包含 Dense Head 的增益(和训练时一致,用于和旧模型公平对比)
mAP e2e纯端到端推理评估仅 one-to-one 头,真正部署时的真实性能

YOLO26 的差距:

模型mAP valmAP e2e差距
YOLO26x57.556.9-0.6
YOLO26n40.940.1-0.8

差距小(<1%)说明:

  • one-to-one 头本身就很强,不依赖训练辅助
  • 推理时的性能接近训练时的理论上限
  • 部署后性能不会大幅缩水

Q3: F1 分数在 detection 中怎么算的,揭示什么?

:

公式: F1 = 2 × (Precision × Recall) / (Precision + Recall)

在目标检测中:

  • Precision = TP / (TP + FP) — 预测的框中有多少是真的
  • Recall = TP / (TP + FN) — 真实的物体中有多少被检测到了

COCO 的 F1 通常在特定 IoU 阈值下计算:

  • F1@50:IoU≥0.5 时的 F1
  • F1@75:IoU≥0.75 时的 F1(更严格)

F1 揭示什么:

情况PrecisionRecallF1模型行为
太保守只检测明显的,漏检多
太激进到处画框,误检多
平衡好既不漏也不误

YOLO26 的 F1 表现:

  • YOLO26x: F1@50=14.4, F1@75=12.5
  • YOLOv12x: F1@50=26.2, F1@75=22.5(更高,但 mAP 更低)

关键洞察: F1 高不代表综合性能好 — YOLOv12x F1 高但 mAP 低,说明更激进(画框多)但定位/分类精度差。

YOLO26 的真正优势: 在同等参数量下,mAP + F1 都领先;NMS-Free 减少边界不连续(FP↓),STAL 提升小目标召回(FN↓)。