YOLO26: An Analysis of NMS-Free End to End Framework for Real-Time Object Detection

来源: https://arxiv.org/abs/2601.12882
本地PDF: ../raw/2026-01-19-yolo26.pdf
日期: 2026-01-19
标签: yolo, nms-free, end-to-end, real-time, one-stage, export-gap
研究方向: 2D Object Detection → 实时检测 → NMS-Free 端到端架构
作者: Sudip Chakrabarty (School of Computer Engineering, KIIT University)
提交日期: 2026-01-19 (v1), 2026-03-18 (v2)
声明: 这是一篇 secondary analytical review，基于 Ultralytics 公开发布的文档、benchmark 和技术描述进行分析，非 Ultralytics 官方论文

摘要

论文性质: 二次分析（secondary review），非 Ultralytics 官方论文，基于公开文档和 benchmark 做系统解读。

问题: YOLO 历代版本依赖 NMS 后处理 → 引入延迟波动 + 超参数依赖，密集场景误杀严重

方案: YOLO26 彻底去掉 NMS，转向原生端到端学习（one-to-one 标签分配）

三大训练优化:

MuSGD — 主干网络稳定化优化器，灵感来自 LLM 训练
STAL — 小目标感知标签分配，提升小目标召回
ProgLoss — 动态损失权重，早期重分类、后期重回归

验证: COCO val2017，Nano→XL 全尺度对比，CNN vs Transformer（RT-DETR、DEIM、RF-DETR）

扩展: 统一多任务框架 — 实例分割 + YOLOE-26 开放词汇检测

落地价值: 消除 "Export Gap"（训练-推理行为差异），实现确定性延迟，适合边缘部署

引言 (Introduction)

1.1 背景 — Ultralytics 的遗产与 NMS 痛点

YOLOv5/v8 把 CSP Backbone + 易用部署结合，让检测"民主化"（边缘设备也能跑）
但历代都依赖 NMS 后处理 → 密集场景延迟波动大，超参数敏感

1.2 YOLO26 定位 — NMS-Free 的新 Pareto 前沿

核心 claim：NMS-Free CNN 可以超越 attention-based Transformer 检测器，DETR 路线可能到头了
官方 benchmark (T4 GPU, TensorRT10, FP16)：

模型	COCO mAP 50-95	延迟
YOLO26n	>40	~1.5 ms
YOLO26x	~57.5	~11.5 ms

对比对象：历代 YOLO (v5-v11)、RT-DETR (v2/v3/v4)、RTMDet、DAMO-YOLO、PP-YOLOE+
YOLO26 全尺度压制：Nano→XL 每个档位都形成新 Pareto 前沿

1.3 本文 5 大贡献

架构拆解：NMS-Free 的数学机制
训练策略：MuSGD / STAL / ProgLoss 如何支撑轻量端到端收敛
全尺度 benchmark：v1-v13 vs Transformer 对手
多任务 + 开放词汇：YOLOE-26 零开销 prompt 检测
Export Gap 分析：确定性延迟对安全关键边缘应用的意义

1.4 全文结构

Sec 2: YOLO 演进史（Foundational v1-v3 → Community v4-v7 → Modern v8-26）
Sec 3: 核心创新（NMS-Free pipeline、DFL-free head、MuSGD 训练动态）
Sec 4: 多任务扩展（检测、分割、姿态估计）
Sec 5: 官方 benchmark 和 SOTA 分析
Sec 6: Export Gap 挑战和确定性延迟
Sec 7: 未来方向（内在可解释性、时空感知）
Sec 8: 总结

Section 2: YOLO 演进史

三大时代划分

时代	版本	时间	核心特点
奠基时代	v1-v3	2015-2018	单阶段回归、anchor boxes、多尺度特征
社区扩张	v4-v7	2020-2022	CSP、Bag-of-Freebies、重参数化、E-ELAN
现代统一	v8-26	2023-Present	Anchor-free、解耦头、多任务、NMS-Free

各版本关键里程碑

v1-v3 (奠基时代)

v1: 开创单阶段回归框架，SSE 损失
v2: 引入 anchor boxes、batch norm、passthrough 层
v3: Darknet-53 + 多尺度预测，解决小目标问题

v4-v7 (社区扩张)

v4: CSPDarknet53 + PAN + CIoU + BCE，优化速度-精度平衡
v5: PyTorch 模块化 + 自动 anchor 优化，易用性起飞
v6: 重参数化卷积（EfficientRep），工业部署优化
v7: E-ELAN + 深度监督 + OTA 分配

v8-13 + v26 (现代统一)

版本	Backbone	Head	Loss	NMS	关键创新
v8	C2f	Decoupled	BCE+CIoU+DFL	有	Anchor-free + 多任务（检测/分割/姿态）
v9	GELAN	Decoupled	BCE+CIoU+DFL	有	PGI (可编程梯度信息)
v10	GELAN	Decoupled	BCE+CIoU+DFL	无	首次 NMS-Free！双标签分配
v11	C3k2	Decoupled	BCE+CIoU+DFL	有	C2PSA 特征细化
v12	Flash + Area Attention	Decoupled	BCE+CIoU+DFL	有	A2 注意力，长距离依赖
v13	Hyper-Net	Decoupled	BCE+CIoU+DFL	有	超图空间建模（iMoonLab 第三方）
v26	CSP-Muon	Decoupled (1-to-1)	STAL+ProgLoss	无	DFL 移除 + edge 优化

核心概念：Export Gap

问题: v8-v13 使用的 DFL (Distribution Focal Loss) 需要在 16 个离散 bin 上做 Softmax

痛点: Edge 硬件（NPU/DSP）上 Softmax 极难量化，成为延迟瓶颈

公式: 每个坐标预测需要计算 Softmax 加权求和

ŷ_DFL = Σ i · Softmax(w_i) = Σ i · e^{w_i} / Σ e^{w_j}

解决: YOLO26 移除 DFL，改用直接回归

ŷ_v26 = F_reg(x)  # 简单线性映射

结论: v10 是第一个 NMS-Free 的 YOLO，但 v26 是第一个同时移除 DFL + NMS 的版本，真正实现「确定性延迟」。

Section 3: 核心架构创新

3.1 Native End-to-End NMS-Free 架构

传统 NMS 的问题：

顺序执行，延迟取决于场景密度（物体数量）
超参数 N_t 敏感，不同场景需要调参

公式：

s_i = s_i, if IoU(M, b_i) < N_t
     0,     if IoU(M, b_i) ≥ N_t

YOLO26 解决方案：

改用 one-to-one 标签分配：训练时一个物体只匹配一个检测框
推理时直接输出唯一预测，消除 NMS 步骤
结果：常数时间延迟，与物体数量无关
官方数据：CPU 推理速度提升 43%

3.2 DFL-Free 解耦头（直接回归）

DFL 的开销：

每个坐标需要在 16 个离散 bin 上做 Softmax
包含 exp 和除法运算，Edge 硬件（NPU/DSP）极难量化

公式：

ŷ_DFL = Σ i · Softmax(w_i) = Σ i · e^{w_i} / Σ e^{w_j}

YOLO26 方案：

移除 DFL 模块，改用直接回归
```
ŷ_v26 = F_reg(x)  # 简单线性映射
```
1
保留解耦头结构：Head(x) =
用 STAL + ProgLoss 补偿精度

3.3 三大训练创新

3.3.1 MuSGD Optimizer

灵感来源：Moonshot AI 的 Kimi K2 大模型训练

核心思想：融合 SGD + Muon optimizer

Muon 部分：

不像 AdamW 逐元素更新
对整个权重矩阵做正交化（ orthogonalization）
让更新方向与当前状态正交，最大化有效更新方向，抑制谱范数

数学形式：

θ_{t+1} = θ_t - η · (α · v_{t+1} + (1-α) · NewtonSchulz(g_t))

v_{t+1} = β · v_t + g_t (SGD momentum)
α 控制 SGD 和 Muon 的混合比例
Newton-Schulz 迭代对梯度矩阵做"白化"

效果：减少梯度方差，无需复杂 warm-up 也能稳定收敛

3.3.2 STAL (Small-Target-Aware Label Assignment)

问题：小目标（<1% 图像面积）即使 anchor 居中，IoU 也极低，被固定阈值 τ=0.5 过滤掉

STAL 公式：

τ_dynamic = τ_base · (1 - α · e^{-Area_obj / Area_img})

效果：

物体越小，阈值越低（动态适配）
相当于给小目标开了"放大镜"
无人机影像、医学扫描等场景特别受益

3.3.3 ProgLoss (Progressive Loss Balancing)

问题：端到端架构同时学特征和定位，没有 anchor prior 引导，固定 loss 权重 suboptimal

ProgLoss 公式：

L_total(t) = λ_t · L_cls + (1-λ_t) · L_box

调度策略：

早期（高 λ_t）：主攻分类，稳定 backbone 学语义
晚期（低 λ_t）：主攻回归，精调边界
λ_t 随时间递减（cosine decay）

Section 3 总结

YOLO26 通过五个机制协同实现「训练简单、推理快、部署确定」：

NMS-Free → 确定性延迟（常数时间）
DFL 移除 → Edge 量化友好
MuSGD → 稳定收敛
STAL → 小目标召回
ProgLoss → 动态权重平衡

Section 4: 多任务能力

YOLO26 是统一多任务框架，一个模型支持 6 种视觉任务。核心是共享 backbone + 任务特定 head。

任务总览（Table 2）

任务	输出	坐标格式	关键机制
目标检测	Class + Box	(xc, yc, w, h)	NMS-Free + STAL
实例分割	Class + Box + Mask	+ Maskpix	Prototype + ProgLoss
图像分类	Class Label	None (Global)	GAP + Linear
姿态估计	Class + Box + Keypoints	(xi, yi, vi)_17	OKS + RLE
旋转检测 OBB	Class + Rotated Box	(xc, yc, w, h, θ)	Angle-Aware Loss
开放词汇 YOLOE-26	Text/Visual + Box	+ Embedtxt	Vision-Language

4.1 目标检测

43% CPU 延迟降低（对比 NMS-based）
STAL 防止小目标梯度消失（<1% 图像面积也能保召回）
NMS 移除后可解释性提升：像素→框的映射是确定性的

4.2 实例分割

新增 Boundary-Aware Supervision（边界感知监督）
ProgLoss 后期 = "轮廓抛光器"，确保 mask 边缘锐利
DFL-free 避免边缘离散化误差

4.3 图像分类

最简单：Global Average Pooling → Linear Head
延迟最低，适合大规模初筛

4.4 姿态估计

输出 17 个关键点（COCO 标准）
坐标格式：(xi, yi, vi)，vi 是可见性
用 OKS (Object Keypoint Similarity) 衡量精度
引入 RLE 建模空间不确定性，处理遮挡

4.5 旋转检测 OBB

坐标格式：(xc, yc, w, h, θ) — 多了旋转角 θ
解决痛点：航拍/工业图像中目标倾斜，水平框包不准
引入 Angle Loss 解决边界 discontinuity
同样 43% 加速（对比传统旋转 NMS）

4.6 Open-Vocabulary Detection — YOLOE-26 Official Extension

关键澄清: YOLOE-26 不是这篇论文提出的。它是 Ultralytics 官方发布的独立扩展变种，基于 YOLO26 骨干。核心 YOLO26 是闭集检测器；YOLOE-26 在其之上增加了开放词汇能力。

YOLOE 架构来源

原始 YOLOE 论文: arXiv:2503.07465 (ICCV 2025)

作者: 清华大学团队 (Ao Wang 等)
原始架构: 基于 YOLOv8 backbone
代码: https://github.com/THU-MIG/yoloe

YOLOE-26 论文: arXiv:2602.00168

把 YOLOE 的三大模块嫁接到 YOLO26 的 NMS-Free + DFL-Free 架构上
享受 YOLO26 的部署优势（确定性延迟、Edge 友好）

YOLOE 架构演进时间线

时间	事件
2025.03	YOLOE 原始论文发布 (基于 YOLOv8)
2025.09	YOLO Vision 2025 大会，Ultralytics 预览 YOLO26
2026.01	YOLO26 正式发布 (NMS-Free, DFL-Free)
2026.02	YOLOE-26 论文发布 (2602.00168) — YOLOE 模块 + YOLO26 backbone

三种推理模式（Ultralytics 官方）

模式	输入	用途
Text Prompt	文本描述	"找红杯子"
Visual Prompt	参考图像	One-shot 识别
Prompt-free	无	零样本，借助 LVIS/Objects365 词表

官方三大模块

模块	功能
RepRTA	Re-parameterizable Region-Text Alignment
SAVPE	Semantic-Activated Visual Prompt Encoder
LRPC	Lazy Region-Prompt Contrast (zero-shot)

零开销重参数化: RepRTA + SAVPE 训练后可折叠进标准 head，延迟与闭集相同。

开源情况

项目	代码仓库
YOLOE (v8 版)	https://github.com/THU-MIG/yoloe (清华)
YOLOE-26	Ultralytics 官方仓库 (和 YOLO26 一起)
YOLO26	https://github.com/ultralytics/ultralytics

本论文（2601.12882）作为综述，未提供任何原创代码或训练细节。

Section 4 总结

YOLO26 用一套 backbone + 任务专属 head 统一多任务，NMS-Free + ProgLoss 调度保证切换任务不增加延迟。YOLOE-26 提供开放词汇能力且保持零开销，其架构源自清华 YOLOE (ICCV 2025) 嫁接到 YOLO26 backbone。

Section 5: 官方 Benchmark 与 SOTA 分析

5.1 目标检测 (COCO val2017)

模型	mAP 50-95	mAP e2e	CPU ONNX (ms)	T4 TensorRT (ms)	Params (M)	FLOPs (B)
YOLO26n	40.9	40.1	38.9	1.7	2.4	5.4
YOLO26s	48.6	47.8	87.2	2.5	9.5	20.7
YOLO26m	53.1	52.5	220.0	4.7	20.4	68.2
YOLO26l	55.0	54.4	286.2	6.2	24.8	86.4
YOLO26x	57.5	56.9	525.8	11.8	55.7	193.9

关键观察: mAP e2e 接近 mAP val → NMS-Free 几乎无精度损失；Nano 1.7ms 极致轻量

5.2 实例分割 (COCO)

模型	mAP box	mAP mask	T4 (ms)	Params
YOLO26n-seg	39.6	33.9	2.1	2.7M
YOLO26s-seg	47.3	40.0	3.3	10.4M
YOLO26x-seg	56.5	47.0	16.4	62.8M

Mask 分支仅增加 ~0.3M 参数，ProgLoss "轮廓抛光" 生效

5.3 图像分类 (ImageNet)

模型	Top-1	Top-5	T4 (ms)
YOLO26n-cls	71.4	90.1	1.1
YOLO26s-cls	76.0	92.9	1.3
YOLO26x-cls	79.9	95.0	3.8

5.4 姿态估计 (COCO Keypoints)

模型	mAP pose 50-95	mAP pose 50	T4 (ms)
YOLO26n-pose	57.2	83.3	1.8
YOLO26s-pose	63.0	86.6	2.7
YOLO26x-pose	71.6	91.6	12.2

DFL 移除未降低关键点精度，RLE 生效

5.5 旋转检测 OBB (DOTAv1, 1024×1024)

模型	mAP 50-95	mAP 50	T4 (ms)
YOLO26n-obb	52.4	78.9	2.8
YOLO26s-obb	54.8	80.9	4.9
YOLO26x-obb	56.7	81.7	30.5

1024 分辨率下仍保持 <5ms (s-variant)，Angle Loss 解决边界不连续，航拍直接可用

5.6 YOLOE-26 开放词汇分割

模型	mAP (Text / Visual)	mAP rare	mAP common	mAP frequent
YOLOE-26n-seg	23.7 / 20.9	20.5 / 17.6	24.1 / 22.3	26.1 / 22.4
YOLOE-26s-seg	29.9 / 27.1	23.9 / 25.1	29.6 / 27.8	33.0 / 29.9
YOLOE-26x-seg	39.5 / 36.2	37.4 / 35.3	40.9 / 38.8	41.0 / 38.8

Prompt-Free (Zero-Shot):

YOLOE-26n-seg-pf: 16.6 mAP, 6.5M params, 15.8B FLOPs
YOLOE-26x-seg-pf: 29.9 mAP, 86.3M params, 314.4B FLOPs

Prompt-Free 需更重内部编码（6.5M vs 4.8M），但无需外部语义锚点

5.7 综合 SOTA 对比 (COCO val2017)

Large/XL 组:

模型	Params (M)	mAP 50-95	mAP 50	mAP 75	F1 50	F1 75
RF-DETR-XXL	126.9	59.9	78.2	65.4	15.3	12.9
RF-DETR-XL	126.4	58.5	77.1	63.7	15.0	12.4
DEIM-D-FINE-X	61.7	56.5	74.0	61.6	5.7	4.8
YOLO26x	55.7	56.3	73.4	61.7	14.4	12.5
RF-DETR-L	33.9	56.3	74.8	61.1	15.2	12.6
YOLOv12x	59.1	54.0	70.3	59.0	26.2	22.5
YOLO11x	56.9	53.6	70.2	58.4	13.9	11.8

Nano 组:

模型	Params (M)	mAP 50-95
DEIM-D-FINE-N	10.2	49.0
RF-DETR-N	30.5	48.4
RTMDet-t	4.9	41.0
YOLOv13n	2.5	40.4
YOLO26n	2.4	39.9
YOLO11n	2.6	38.6

核心结论:

YOLO26x 以更少参数 (55.7M) 碾压 YOLO11x (56.9M)，追平 DEIM-D-FINE-X (61.7M)
YOLO26n (2.4M) 同等规模下 SOTA
F1 分数全面领先 — NMS-Free 减少误报和边界不连续

Section 6: Export Gap — 边缘 AI 的延迟瓶颈

6.1 传统模型的痛点 (v8-v13)

DFL 的 Softmax 在服务器 GPU 上可忽略
Edge 硬件 (NPU/DSP/无人机) 上难以量化，成为主要瓶颈
导致论文里"高效模型"部署后吞吐量骤降

6.2 YOLO26 的解决方案

移除 DFL，推理图仅含标准卷积 + 线性操作
确定性延迟 — 与场景复杂度/物体密度无关
对安全关键应用（自动驾驶、机器人导航、医疗）至关重要

Section 7: 未来方向

7.1 内在可解释性 (Inherent Explainability)

现状: Grad-CAM/SHAP 等事后解释
未来: 检测头直接输出理由图/文本解释（"分类为肿瘤→因为边界纹理不规则"）
对医疗诊断、自主防御等安全关键领域是变革性的

7.2 统一时空感知 (Unified Spatiotemporal Perception)

现状: NMS 导致视频流"闪烁"（不同帧选不同框）
未来: YOLO26 的 NMS-Free 天然适合视频分析
将时间作为第三维，单向前向传播内完成跟踪 + 动作识别，无需 DeepSORT

7.3 边缘测试时自适应 (TTA)

现状: 训练后模型静态
未来: Edge 设备实时更新 BatchNorm 或轻量 adapter
无人机实时"适应"新光照/传感器噪声，无需服务器重训

Section 8: 结论

创新	解决的问题	收益
NMS-Free	顺序后处理延迟波动	确定性延迟，常数时间推理
DFL-Free	Edge 量化瓶颈	关闭 Export Gap，部署友好
MuSGD	端到端训练不稳定	无需复杂 warm-up
STAL	小目标梯度消失	<1% 面积目标保召回
ProgLoss	分类/回归固定权重	动态平衡，早期语义后期几何

YOLOE-26 证明开放词汇能力可零开销集成，为下一代安全关键 Edge AI 提供蓝图。

可复用代码与资源

项目	链接
YOLO26 官方仓库	https://github.com/ultralytics/ultralytics
YOLO26 文档	https://docs.ultralytics.com/models/yolo26/
YOLOE (v8 版清华)	https://github.com/THU-MIG/yoloe
YOLOE 文档	https://docs.ultralytics.com/models/yoloe/
Roboflow Leaderboard	https://leaderboard.roboflow.com/

个人评价

核心价值: YOLO26 不是一篇研究论文，而是 Ultralytics 工程哲学的集大成者 — 为部署而设计，不为刷榜而设计。

对无人机方向的意义:

OBB variant 直接可用 — DOTA 上 54.8% mAP (s-variant) @ 4.9ms，1024 分辨率下 <5ms
NMS-Free 适合密集场景 — 无人机俯瞰下小目标密集，NMS 误杀最严重
确定性延迟 — 视频流处理无闪烁，时序一致性天然保证
Edge 友好 — 机载 Jetson/NPU 部署无 DFL 瓶颈，CPU 推理提速 43%

建议切入方向:

YOLO26-OBB + VisDrone/DOTA — 验证 NMS-Free 在无人机密集场景的优势
时序扩展 — 利用确定性延迟做跨帧跟踪，解决闪烁问题
多模态融合 — 可见光 + 红外，YOLO26 的 DFL-Free 架构更适合 Edge 融合

局限:

这篇论文是 secondary review，无原创代码/训练细节
真正实现看 Ultralytics 官方仓库
YOLOE-26 细节看 arXiv:2602.00168

关键疑问解答 (猴哥提问)

Q1: 这篇论文的对比是作者自己跑的吗？

答: 不是。论文明确声明：

Section 5 开头："this study reviews the official performance metrics published by the Ultralytics development team"
所有表格标注 "Official YOLO26 Benchmarks"
作者仅整理解读，数据来自 Ultralytics 官方

对你的意义: 数据可信（官方背书），但这篇论文本身不贡献新实验。

Q2: mAP e2e 接近 mAP val 怎么理解？YOLO26 本来就是 NMS-Free 的，e2e 是啥意思？

答: 这里的 e2e 不是指 NMS-Free，而是指「纯推理配置 vs 训练配置」的差异。

背景: YOLO 训练时常用双头设计：

one-to-many 辅助头：训练时帮助收敛（一个物体匹配多个 anchor），推理时丢弃
one-to-one 主头：每个物体仅输出一个预测框，训练和推理都用

推理阶段：训练完成后自动丢弃 Dense Head，仅保留 One-to-One Head

指标区别:

指标	含义	配置
mAP val	标准 COCO 评估	包含 Dense Head 的增益（和训练时一致，用于和旧模型公平对比）
mAP e2e	纯端到端推理评估	仅 one-to-one 头，真正部署时的真实性能

YOLO26 的差距:

模型	mAP val	mAP e2e	差距
YOLO26x	57.5	56.9	-0.6
YOLO26n	40.9	40.1	-0.8

差距小（<1%）说明:

one-to-one 头本身就很强，不依赖训练辅助
推理时的性能接近训练时的理论上限
部署后性能不会大幅缩水

Q3: F1 分数在 detection 中怎么算的，揭示什么？

答:

公式: F1 = 2 × (Precision × Recall) / (Precision + Recall)

在目标检测中：

Precision = TP / (TP + FP) — 预测的框中有多少是真的
Recall = TP / (TP + FN) — 真实的物体中有多少被检测到了

COCO 的 F1 通常在特定 IoU 阈值下计算：

F1@50：IoU≥0.5 时的 F1
F1@75：IoU≥0.75 时的 F1（更严格）

F1 揭示什么:

情况	Precision	Recall	F1	模型行为
太保守	高	低	中	只检测明显的，漏检多
太激进	低	高	中	到处画框，误检多
平衡好	高	高	高	既不漏也不误

YOLO26 的 F1 表现:

YOLO26x: F1@50=14.4, F1@75=12.5
YOLOv12x: F1@50=26.2, F1@75=22.5（更高，但 mAP 更低）

关键洞察: F1 高不代表综合性能好 — YOLOv12x F1 高但 mAP 低，说明更激进（画框多）但定位/分类精度差。

YOLO26 的真正优势: 在同等参数量下，mAP + F1 都领先；NMS-Free 减少边界不连续（FP↓），STAL 提升小目标召回（FN↓）。

YOLO26: An Analysis of NMS-Free End to End Framework for Real-Time Object Detection ​

摘要 ​

引言 (Introduction) ​

Section 2: YOLO 演进史 ​

三大时代划分 ​

各版本关键里程碑 ​

核心概念：Export Gap ​

Section 3: 核心架构创新 ​

3.1 Native End-to-End NMS-Free 架构 ​

3.2 DFL-Free 解耦头（直接回归） ​

3.3 三大训练创新 ​

3.3.1 MuSGD Optimizer ​

3.3.2 STAL (Small-Target-Aware Label Assignment) ​

3.3.3 ProgLoss (Progressive Loss Balancing) ​

Section 3 总结 ​

Section 4: 多任务能力 ​

任务总览（Table 2） ​

4.1 目标检测 ​

4.2 实例分割 ​

4.3 图像分类 ​

4.4 姿态估计 ​

4.5 旋转检测 OBB ​

4.6 Open-Vocabulary Detection — YOLOE-26 Official Extension ​

YOLOE 架构来源 ​

YOLOE 架构演进时间线 ​

三种推理模式（Ultralytics 官方） ​

官方三大模块 ​

开源情况 ​

Section 4 总结 ​

Section 5: 官方 Benchmark 与 SOTA 分析 ​

5.1 目标检测 (COCO val2017) ​

5.2 实例分割 (COCO) ​

5.3 图像分类 (ImageNet) ​

5.4 姿态估计 (COCO Keypoints) ​

5.5 旋转检测 OBB (DOTAv1, 1024×1024) ​

5.6 YOLOE-26 开放词汇分割 ​

5.7 综合 SOTA 对比 (COCO val2017) ​

Section 6: Export Gap — 边缘 AI 的延迟瓶颈 ​

6.1 传统模型的痛点 (v8-v13) ​

6.2 YOLO26 的解决方案 ​

Section 7: 未来方向 ​

7.1 内在可解释性 (Inherent Explainability) ​

7.2 统一时空感知 (Unified Spatiotemporal Perception) ​

7.3 边缘测试时自适应 (TTA) ​

Section 8: 结论 ​

可复用代码与资源 ​

个人评价 ​

关键疑问解答 (猴哥提问) ​

Q1: 这篇论文的对比是作者自己跑的吗？ ​

Q2: mAP e2e 接近 mAP val 怎么理解？YOLO26 本来就是 NMS-Free 的，e2e 是啥意思？ ​

Q3: F1 分数在 detection 中怎么算的，揭示什么？ ​