YOLO26: An Analysis of NMS-Free End to End Framework for Real-Time Object Detection
- 来源: https://arxiv.org/abs/2601.12882
- 本地PDF:
../raw/2026-01-19-yolo26.pdf - 日期: 2026-01-19
- 标签:
yolo,nms-free,end-to-end,real-time,one-stage,export-gap - 研究方向: 2D Object Detection → 实时检测 → NMS-Free 端到端架构
- 作者: Sudip Chakrabarty (School of Computer Engineering, KIIT University)
- 提交日期: 2026-01-19 (v1), 2026-03-18 (v2)
- 声明: 这是一篇 secondary analytical review,基于 Ultralytics 公开发布的文档、benchmark 和技术描述进行分析,非 Ultralytics 官方论文
摘要
论文性质: 二次分析(secondary review),非 Ultralytics 官方论文,基于公开文档和 benchmark 做系统解读。
问题: YOLO 历代版本依赖 NMS 后处理 → 引入延迟波动 + 超参数依赖,密集场景误杀严重
方案: YOLO26 彻底去掉 NMS,转向原生端到端学习(one-to-one 标签分配)
三大训练优化:
- MuSGD — 主干网络稳定化优化器,灵感来自 LLM 训练
- STAL — 小目标感知标签分配,提升小目标召回
- ProgLoss — 动态损失权重,早期重分类、后期重回归
验证: COCO val2017,Nano→XL 全尺度对比,CNN vs Transformer(RT-DETR、DEIM、RF-DETR)
扩展: 统一多任务框架 — 实例分割 + YOLOE-26 开放词汇检测
落地价值: 消除 "Export Gap"(训练-推理行为差异),实现确定性延迟,适合边缘部署
引言 (Introduction)
1.1 背景 — Ultralytics 的遗产与 NMS 痛点
- YOLOv5/v8 把 CSP Backbone + 易用部署结合,让检测"民主化"(边缘设备也能跑)
- 但历代都依赖 NMS 后处理 → 密集场景延迟波动大,超参数敏感
1.2 YOLO26 定位 — NMS-Free 的新 Pareto 前沿
- 核心 claim:NMS-Free CNN 可以超越 attention-based Transformer 检测器,DETR 路线可能到头了
- 官方 benchmark (T4 GPU, TensorRT10, FP16):
| 模型 | COCO mAP 50-95 | 延迟 |
|---|---|---|
| YOLO26n | >40 | ~1.5 ms |
| YOLO26x | ~57.5 | ~11.5 ms |
- 对比对象:历代 YOLO (v5-v11)、RT-DETR (v2/v3/v4)、RTMDet、DAMO-YOLO、PP-YOLOE+
- YOLO26 全尺度压制:Nano→XL 每个档位都形成新 Pareto 前沿
1.3 本文 5 大贡献
- 架构拆解:NMS-Free 的数学机制
- 训练策略:MuSGD / STAL / ProgLoss 如何支撑轻量端到端收敛
- 全尺度 benchmark:v1-v13 vs Transformer 对手
- 多任务 + 开放词汇:YOLOE-26 零开销 prompt 检测
- Export Gap 分析:确定性延迟对安全关键边缘应用的意义
1.4 全文结构
- Sec 2: YOLO 演进史(Foundational v1-v3 → Community v4-v7 → Modern v8-26)
- Sec 3: 核心创新(NMS-Free pipeline、DFL-free head、MuSGD 训练动态)
- Sec 4: 多任务扩展(检测、分割、姿态估计)
- Sec 5: 官方 benchmark 和 SOTA 分析
- Sec 6: Export Gap 挑战和确定性延迟
- Sec 7: 未来方向(内在可解释性、时空感知)
- Sec 8: 总结
Section 2: YOLO 演进史
三大时代划分
| 时代 | 版本 | 时间 | 核心特点 |
|---|---|---|---|
| 奠基时代 | v1-v3 | 2015-2018 | 单阶段回归、anchor boxes、多尺度特征 |
| 社区扩张 | v4-v7 | 2020-2022 | CSP、Bag-of-Freebies、重参数化、E-ELAN |
| 现代统一 | v8-26 | 2023-Present | Anchor-free、解耦头、多任务、NMS-Free |
各版本关键里程碑
v1-v3 (奠基时代)
- v1: 开创单阶段回归框架,SSE 损失
- v2: 引入 anchor boxes、batch norm、passthrough 层
- v3: Darknet-53 + 多尺度预测,解决小目标问题
v4-v7 (社区扩张)
- v4: CSPDarknet53 + PAN + CIoU + BCE,优化速度-精度平衡
- v5: PyTorch 模块化 + 自动 anchor 优化,易用性起飞
- v6: 重参数化卷积(EfficientRep),工业部署优化
- v7: E-ELAN + 深度监督 + OTA 分配
v8-13 + v26 (现代统一)
| 版本 | Backbone | Head | Loss | NMS | 关键创新 |
|---|---|---|---|---|---|
| v8 | C2f | Decoupled | BCE+CIoU+DFL | 有 | Anchor-free + 多任务(检测/分割/姿态) |
| v9 | GELAN | Decoupled | BCE+CIoU+DFL | 有 | PGI (可编程梯度信息) |
| v10 | GELAN | Decoupled | BCE+CIoU+DFL | 无 | 首次 NMS-Free! 双标签分配 |
| v11 | C3k2 | Decoupled | BCE+CIoU+DFL | 有 | C2PSA 特征细化 |
| v12 | Flash + Area Attention | Decoupled | BCE+CIoU+DFL | 有 | A2 注意力,长距离依赖 |
| v13 | Hyper-Net | Decoupled | BCE+CIoU+DFL | 有 | 超图空间建模(iMoonLab 第三方) |
| v26 | CSP-Muon | Decoupled (1-to-1) | STAL+ProgLoss | 无 | DFL 移除 + edge 优化 |
核心概念:Export Gap
问题: v8-v13 使用的 DFL (Distribution Focal Loss) 需要在 16 个离散 bin 上做 Softmax
痛点: Edge 硬件(NPU/DSP)上 Softmax 极难量化,成为延迟瓶颈
公式: 每个坐标预测需要计算 Softmax 加权求和
ŷ_DFL = Σ i · Softmax(w_i) = Σ i · e^{w_i} / Σ e^{w_j}解决: YOLO26 移除 DFL,改用直接回归
ŷ_v26 = F_reg(x) # 简单线性映射结论: v10 是第一个 NMS-Free 的 YOLO,但 v26 是第一个同时移除 DFL + NMS 的版本,真正实现「确定性延迟」。
Section 3: 核心架构创新
3.1 Native End-to-End NMS-Free 架构
传统 NMS 的问题:
- 顺序执行,延迟取决于场景密度(物体数量)
- 超参数 N_t 敏感,不同场景需要调参
- 公式:
s_i = s_i, if IoU(M, b_i) < N_t 0, if IoU(M, b_i) ≥ N_t
YOLO26 解决方案:
- 改用 one-to-one 标签分配:训练时一个物体只匹配一个检测框
- 推理时直接输出唯一预测,消除 NMS 步骤
- 结果:常数时间延迟,与物体数量无关
- 官方数据:CPU 推理速度提升 43%
3.2 DFL-Free 解耦头(直接回归)
DFL 的开销:
- 每个坐标需要在 16 个离散 bin 上做 Softmax
- 包含 exp 和除法运算,Edge 硬件(NPU/DSP)极难量化
- 公式:
ŷ_DFL = Σ i · Softmax(w_i) = Σ i · e^{w_i} / Σ e^{w_j}
YOLO26 方案:
- 移除 DFL 模块,改用直接回归
ŷ_v26 = F_reg(x) # 简单线性映射 - 保留解耦头结构:Head(x) =
- 用 STAL + ProgLoss 补偿精度
3.3 三大训练创新
3.3.1 MuSGD Optimizer
灵感来源:Moonshot AI 的 Kimi K2 大模型训练
核心思想:融合 SGD + Muon optimizer
Muon 部分:
- 不像 AdamW 逐元素更新
- 对整个权重矩阵做正交化( orthogonalization)
- 让更新方向与当前状态正交,最大化有效更新方向,抑制谱范数
数学形式:
θ_{t+1} = θ_t - η · (α · v_{t+1} + (1-α) · NewtonSchulz(g_t))- v_{t+1} = β · v_t + g_t (SGD momentum)
- α 控制 SGD 和 Muon 的混合比例
- Newton-Schulz 迭代对梯度矩阵做"白化"
效果:减少梯度方差,无需复杂 warm-up 也能稳定收敛
3.3.2 STAL (Small-Target-Aware Label Assignment)
问题:小目标(<1% 图像面积)即使 anchor 居中,IoU 也极低,被固定阈值 τ=0.5 过滤掉
STAL 公式:
τ_dynamic = τ_base · (1 - α · e^{-Area_obj / Area_img})效果:
- 物体越小,阈值越低(动态适配)
- 相当于给小目标开了"放大镜"
- 无人机影像、医学扫描等场景特别受益
3.3.3 ProgLoss (Progressive Loss Balancing)
问题:端到端架构同时学特征和定位,没有 anchor prior 引导,固定 loss 权重 suboptimal
ProgLoss 公式:
L_total(t) = λ_t · L_cls + (1-λ_t) · L_box调度策略:
- 早期(高 λ_t):主攻分类,稳定 backbone 学语义
- 晚期(低 λ_t):主攻回归,精调边界
- λ_t 随时间递减(cosine decay)
Section 3 总结
YOLO26 通过五个机制协同实现「训练简单、推理快、部署确定」:
- NMS-Free → 确定性延迟(常数时间)
- DFL 移除 → Edge 量化友好
- MuSGD → 稳定收敛
- STAL → 小目标召回
- ProgLoss → 动态权重平衡
Section 4: 多任务能力
YOLO26 是统一多任务框架,一个模型支持 6 种视觉任务。核心是共享 backbone + 任务特定 head。
任务总览(Table 2)
| 任务 | 输出 | 坐标格式 | 关键机制 |
|---|---|---|---|
| 目标检测 | Class + Box | (xc, yc, w, h) | NMS-Free + STAL |
| 实例分割 | Class + Box + Mask | + Maskpix | Prototype + ProgLoss |
| 图像分类 | Class Label | None (Global) | GAP + Linear |
| 姿态估计 | Class + Box + Keypoints | (xi, yi, vi)_17 | OKS + RLE |
| 旋转检测 OBB | Class + Rotated Box | (xc, yc, w, h, θ) | Angle-Aware Loss |
| 开放词汇 YOLOE-26 | Text/Visual + Box | + Embedtxt | Vision-Language |
4.1 目标检测
- 43% CPU 延迟降低(对比 NMS-based)
- STAL 防止小目标梯度消失(<1% 图像面积也能保召回)
- NMS 移除后可解释性提升:像素→框的映射是确定性的
4.2 实例分割
- 新增 Boundary-Aware Supervision(边界感知监督)
- ProgLoss 后期 = "轮廓抛光器",确保 mask 边缘锐利
- DFL-free 避免边缘离散化误差
4.3 图像分类
- 最简单:Global Average Pooling → Linear Head
- 延迟最低,适合大规模初筛
4.4 姿态估计
- 输出 17 个关键点(COCO 标准)
- 坐标格式:(xi, yi, vi),vi 是可见性
- 用 OKS (Object Keypoint Similarity) 衡量精度
- 引入 RLE 建模空间不确定性,处理遮挡
4.5 旋转检测 OBB
- 坐标格式:(xc, yc, w, h, θ) — 多了旋转角 θ
- 解决痛点:航拍/工业图像中目标倾斜,水平框包不准
- 引入 Angle Loss 解决边界 discontinuity
- 同样 43% 加速(对比传统旋转 NMS)
4.6 Open-Vocabulary Detection — YOLOE-26 Official Extension
关键澄清: YOLOE-26 不是这篇论文提出的。它是 Ultralytics 官方发布的独立扩展变种,基于 YOLO26 骨干。核心 YOLO26 是闭集检测器;YOLOE-26 在其之上增加了开放词汇能力。
YOLOE 架构来源
原始 YOLOE 论文: arXiv:2503.07465 (ICCV 2025)
- 作者: 清华大学团队 (Ao Wang 等)
- 原始架构: 基于 YOLOv8 backbone
- 代码: https://github.com/THU-MIG/yoloe
YOLOE-26 论文: arXiv:2602.00168
- 把 YOLOE 的三大模块嫁接到 YOLO26 的 NMS-Free + DFL-Free 架构上
- 享受 YOLO26 的部署优势(确定性延迟、Edge 友好)
YOLOE 架构演进时间线
| 时间 | 事件 |
|---|---|
| 2025.03 | YOLOE 原始论文发布 (基于 YOLOv8) |
| 2025.09 | YOLO Vision 2025 大会,Ultralytics 预览 YOLO26 |
| 2026.01 | YOLO26 正式发布 (NMS-Free, DFL-Free) |
| 2026.02 | YOLOE-26 论文发布 (2602.00168) — YOLOE 模块 + YOLO26 backbone |
三种推理模式(Ultralytics 官方)
| 模式 | 输入 | 用途 |
|---|---|---|
| Text Prompt | 文本描述 | "找红杯子" |
| Visual Prompt | 参考图像 | One-shot 识别 |
| Prompt-free | 无 | 零样本,借助 LVIS/Objects365 词表 |
官方三大模块
| 模块 | 功能 |
|---|---|
| RepRTA | Re-parameterizable Region-Text Alignment |
| SAVPE | Semantic-Activated Visual Prompt Encoder |
| LRPC | Lazy Region-Prompt Contrast (zero-shot) |
零开销重参数化: RepRTA + SAVPE 训练后可折叠进标准 head,延迟与闭集相同。
开源情况
| 项目 | 代码仓库 |
|---|---|
| YOLOE (v8 版) | https://github.com/THU-MIG/yoloe (清华) |
| YOLOE-26 | Ultralytics 官方仓库 (和 YOLO26 一起) |
| YOLO26 | https://github.com/ultralytics/ultralytics |
本论文(2601.12882)作为综述,未提供任何原创代码或训练细节。
Section 4 总结
YOLO26 用一套 backbone + 任务专属 head 统一多任务,NMS-Free + ProgLoss 调度保证切换任务不增加延迟。YOLOE-26 提供开放词汇能力且保持零开销,其架构源自清华 YOLOE (ICCV 2025) 嫁接到 YOLO26 backbone。
Section 5: 官方 Benchmark 与 SOTA 分析
5.1 目标检测 (COCO val2017)
| 模型 | mAP 50-95 | mAP e2e | CPU ONNX (ms) | T4 TensorRT (ms) | Params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO26n | 40.9 | 40.1 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 48.6 | 47.8 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 53.1 | 52.5 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 55.0 | 54.4 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 57.5 | 56.9 | 525.8 | 11.8 | 55.7 | 193.9 |
关键观察: mAP e2e 接近 mAP val → NMS-Free 几乎无精度损失;Nano 1.7ms 极致轻量
5.2 实例分割 (COCO)
| 模型 | mAP box | mAP mask | T4 (ms) | Params |
|---|---|---|---|---|
| YOLO26n-seg | 39.6 | 33.9 | 2.1 | 2.7M |
| YOLO26s-seg | 47.3 | 40.0 | 3.3 | 10.4M |
| YOLO26x-seg | 56.5 | 47.0 | 16.4 | 62.8M |
Mask 分支仅增加 ~0.3M 参数,ProgLoss "轮廓抛光" 生效
5.3 图像分类 (ImageNet)
| 模型 | Top-1 | Top-5 | T4 (ms) |
|---|---|---|---|
| YOLO26n-cls | 71.4 | 90.1 | 1.1 |
| YOLO26s-cls | 76.0 | 92.9 | 1.3 |
| YOLO26x-cls | 79.9 | 95.0 | 3.8 |
5.4 姿态估计 (COCO Keypoints)
| 模型 | mAP pose 50-95 | mAP pose 50 | T4 (ms) |
|---|---|---|---|
| YOLO26n-pose | 57.2 | 83.3 | 1.8 |
| YOLO26s-pose | 63.0 | 86.6 | 2.7 |
| YOLO26x-pose | 71.6 | 91.6 | 12.2 |
DFL 移除未降低关键点精度,RLE 生效
5.5 旋转检测 OBB (DOTAv1, 1024×1024)
| 模型 | mAP 50-95 | mAP 50 | T4 (ms) |
|---|---|---|---|
| YOLO26n-obb | 52.4 | 78.9 | 2.8 |
| YOLO26s-obb | 54.8 | 80.9 | 4.9 |
| YOLO26x-obb | 56.7 | 81.7 | 30.5 |
1024 分辨率下仍保持 <5ms (s-variant),Angle Loss 解决边界不连续,航拍直接可用
5.6 YOLOE-26 开放词汇分割
| 模型 | mAP (Text / Visual) | mAP rare | mAP common | mAP frequent |
|---|---|---|---|---|
| YOLOE-26n-seg | 23.7 / 20.9 | 20.5 / 17.6 | 24.1 / 22.3 | 26.1 / 22.4 |
| YOLOE-26s-seg | 29.9 / 27.1 | 23.9 / 25.1 | 29.6 / 27.8 | 33.0 / 29.9 |
| YOLOE-26x-seg | 39.5 / 36.2 | 37.4 / 35.3 | 40.9 / 38.8 | 41.0 / 38.8 |
Prompt-Free (Zero-Shot):
- YOLOE-26n-seg-pf: 16.6 mAP, 6.5M params, 15.8B FLOPs
- YOLOE-26x-seg-pf: 29.9 mAP, 86.3M params, 314.4B FLOPs
Prompt-Free 需更重内部编码(6.5M vs 4.8M),但无需外部语义锚点
5.7 综合 SOTA 对比 (COCO val2017)
Large/XL 组:
| 模型 | Params (M) | mAP 50-95 | mAP 50 | mAP 75 | F1 50 | F1 75 |
|---|---|---|---|---|---|---|
| RF-DETR-XXL | 126.9 | 59.9 | 78.2 | 65.4 | 15.3 | 12.9 |
| RF-DETR-XL | 126.4 | 58.5 | 77.1 | 63.7 | 15.0 | 12.4 |
| DEIM-D-FINE-X | 61.7 | 56.5 | 74.0 | 61.6 | 5.7 | 4.8 |
| YOLO26x | 55.7 | 56.3 | 73.4 | 61.7 | 14.4 | 12.5 |
| RF-DETR-L | 33.9 | 56.3 | 74.8 | 61.1 | 15.2 | 12.6 |
| YOLOv12x | 59.1 | 54.0 | 70.3 | 59.0 | 26.2 | 22.5 |
| YOLO11x | 56.9 | 53.6 | 70.2 | 58.4 | 13.9 | 11.8 |
Nano 组:
| 模型 | Params (M) | mAP 50-95 |
|---|---|---|
| DEIM-D-FINE-N | 10.2 | 49.0 |
| RF-DETR-N | 30.5 | 48.4 |
| RTMDet-t | 4.9 | 41.0 |
| YOLOv13n | 2.5 | 40.4 |
| YOLO26n | 2.4 | 39.9 |
| YOLO11n | 2.6 | 38.6 |
核心结论:
- YOLO26x 以更少参数 (55.7M) 碾压 YOLO11x (56.9M),追平 DEIM-D-FINE-X (61.7M)
- YOLO26n (2.4M) 同等规模下 SOTA
- F1 分数全面领先 — NMS-Free 减少误报和边界不连续
Section 6: Export Gap — 边缘 AI 的延迟瓶颈
6.1 传统模型的痛点 (v8-v13)
- DFL 的 Softmax 在服务器 GPU 上可忽略
- Edge 硬件 (NPU/DSP/无人机) 上难以量化,成为主要瓶颈
- 导致论文里"高效模型"部署后吞吐量骤降
6.2 YOLO26 的解决方案
- 移除 DFL,推理图仅含标准卷积 + 线性操作
- 确定性延迟 — 与场景复杂度/物体密度无关
- 对安全关键应用(自动驾驶、机器人导航、医疗)至关重要
Section 7: 未来方向
7.1 内在可解释性 (Inherent Explainability)
- 现状: Grad-CAM/SHAP 等事后解释
- 未来: 检测头直接输出理由图/文本解释("分类为肿瘤→因为边界纹理不规则")
- 对医疗诊断、自主防御等安全关键领域是变革性的
7.2 统一时空感知 (Unified Spatiotemporal Perception)
- 现状: NMS 导致视频流"闪烁"(不同帧选不同框)
- 未来: YOLO26 的 NMS-Free 天然适合视频分析
- 将时间作为第三维,单向前向传播内完成跟踪 + 动作识别,无需 DeepSORT
7.3 边缘测试时自适应 (TTA)
- 现状: 训练后模型静态
- 未来: Edge 设备实时更新 BatchNorm 或轻量 adapter
- 无人机实时"适应"新光照/传感器噪声,无需服务器重训
Section 8: 结论
| 创新 | 解决的问题 | 收益 |
|---|---|---|
| NMS-Free | 顺序后处理延迟波动 | 确定性延迟,常数时间推理 |
| DFL-Free | Edge 量化瓶颈 | 关闭 Export Gap,部署友好 |
| MuSGD | 端到端训练不稳定 | 无需复杂 warm-up |
| STAL | 小目标梯度消失 | <1% 面积目标保召回 |
| ProgLoss | 分类/回归固定权重 | 动态平衡,早期语义后期几何 |
YOLOE-26 证明开放词汇能力可零开销集成,为下一代安全关键 Edge AI 提供蓝图。
可复用代码与资源
| 项目 | 链接 |
|---|---|
| YOLO26 官方仓库 | https://github.com/ultralytics/ultralytics |
| YOLO26 文档 | https://docs.ultralytics.com/models/yolo26/ |
| YOLOE (v8 版 清华) | https://github.com/THU-MIG/yoloe |
| YOLOE 文档 | https://docs.ultralytics.com/models/yoloe/ |
| Roboflow Leaderboard | https://leaderboard.roboflow.com/ |
个人评价
核心价值: YOLO26 不是一篇研究论文,而是 Ultralytics 工程哲学的集大成者 — 为部署而设计,不为刷榜而设计。
对无人机方向的意义:
- OBB variant 直接可用 — DOTA 上 54.8% mAP (s-variant) @ 4.9ms,1024 分辨率下 <5ms
- NMS-Free 适合密集场景 — 无人机俯瞰下小目标密集,NMS 误杀最严重
- 确定性延迟 — 视频流处理无闪烁,时序一致性天然保证
- Edge 友好 — 机载 Jetson/NPU 部署无 DFL 瓶颈,CPU 推理提速 43%
建议切入方向:
- YOLO26-OBB + VisDrone/DOTA — 验证 NMS-Free 在无人机密集场景的优势
- 时序扩展 — 利用确定性延迟做跨帧跟踪,解决闪烁问题
- 多模态融合 — 可见光 + 红外,YOLO26 的 DFL-Free 架构更适合 Edge 融合
局限:
- 这篇论文是 secondary review,无原创代码/训练细节
- 真正实现看 Ultralytics 官方仓库
- YOLOE-26 细节看
arXiv:2602.00168
关键疑问解答 (猴哥提问)
Q1: 这篇论文的对比是作者自己跑的吗?
答: 不是。论文明确声明:
- Section 5 开头:"this study reviews the official performance metrics published by the Ultralytics development team"
- 所有表格标注 "Official YOLO26 Benchmarks"
- 作者仅整理解读,数据来自 Ultralytics 官方
对你的意义: 数据可信(官方背书),但这篇论文本身不贡献新实验。
Q2: mAP e2e 接近 mAP val 怎么理解?YOLO26 本来就是 NMS-Free 的,e2e 是啥意思?
答: 这里的 e2e 不是指 NMS-Free,而是指「纯推理配置 vs 训练配置」的差异。
背景: YOLO 训练时常用双头设计:
- one-to-many 辅助头:训练时帮助收敛(一个物体匹配多个 anchor),推理时丢弃
- one-to-one 主头:每个物体仅输出一个预测框,训练和推理都用
推理阶段:训练完成后自动丢弃 Dense Head,仅保留 One-to-One Head
指标区别:
| 指标 | 含义 | 配置 |
|---|---|---|
| mAP val | 标准 COCO 评估 | 包含 Dense Head 的增益(和训练时一致,用于和旧模型公平对比) |
| mAP e2e | 纯端到端推理评估 | 仅 one-to-one 头,真正部署时的真实性能 |
YOLO26 的差距:
| 模型 | mAP val | mAP e2e | 差距 |
|---|---|---|---|
| YOLO26x | 57.5 | 56.9 | -0.6 |
| YOLO26n | 40.9 | 40.1 | -0.8 |
差距小(<1%)说明:
- one-to-one 头本身就很强,不依赖训练辅助
- 推理时的性能接近训练时的理论上限
- 部署后性能不会大幅缩水
Q3: F1 分数在 detection 中怎么算的,揭示什么?
答:
公式: F1 = 2 × (Precision × Recall) / (Precision + Recall)
在目标检测中:
- Precision = TP / (TP + FP) — 预测的框中有多少是真的
- Recall = TP / (TP + FN) — 真实的物体中有多少被检测到了
COCO 的 F1 通常在特定 IoU 阈值下计算:
- F1@50:IoU≥0.5 时的 F1
- F1@75:IoU≥0.75 时的 F1(更严格)
F1 揭示什么:
| 情况 | Precision | Recall | F1 | 模型行为 |
|---|---|---|---|---|
| 太保守 | 高 | 低 | 中 | 只检测明显的,漏检多 |
| 太激进 | 低 | 高 | 中 | 到处画框,误检多 |
| 平衡好 | 高 | 高 | 高 | 既不漏也不误 |
YOLO26 的 F1 表现:
- YOLO26x: F1@50=14.4, F1@75=12.5
- YOLOv12x: F1@50=26.2, F1@75=22.5(更高,但 mAP 更低)
关键洞察: F1 高不代表综合性能好 — YOLOv12x F1 高但 mAP 低,说明更激进(画框多)但定位/分类精度差。
YOLO26 的真正优势: 在同等参数量下,mAP + F1 都领先;NMS-Free 减少边界不连续(FP↓),STAL 提升小目标召回(FN↓)。
