YOLO26: A Comprehensive Architecture Overview and Key Improvements

来源: https://arxiv.org/abs/2602.14582
本地PDF: ../raw/2026-02-17-yolo26-comprehensive-overview.pdf
日期: 2026-02-17
标签: yolo26, architecture, nms-free, third-party-analysis
研究方向: 2D Object Detection → YOLO 系列
核心贡献: 首个基于 GitHub 源码详细分析 YOLO26 CNN 架构的论文，揭示官方文档未披露的内部机制
方法简述:
- 消除 Distribution Focal Loss (DFL)
- 端到端 NMS-Free 推理
- ProgLoss + Small-Target-Aware Label Assignment (STAL)
- MuSGD 优化器
关键结果: CPU 模式推理速度提升 43%
缺点/局限: 非官方论文，第三方分析
可复用代码: https://github.com/ultralytics/ultralytics
个人评价: 目前最硬核的 YOLO26 分析论文，回答了"官方文档没写的问题"

摘要 (Abstract)

YOLO 系列是深度学习计算机视觉的主流模型。本文探索了 YOLO26 的新颖特性，主要增强包括：

消除 Distribution Focal Loss (DFL)
实现端到端 NMS-Free 推理
引入 ProgLoss + Small-Target-Aware Label Assignment (STAL)
使用 MuSGD 优化器

声称 CPU 模式下推理速度提升 43%，使 YOLO26 能在边缘设备或无 GPU 设备上实现实时性能。此外，YOLO26 在实例分割、姿态估计、定向边界框 (OBB) 等任务上也有改进。

本文首次呈现基于 CNN 的 YOLO26 架构（YOLO26 的核心）。

1. Introduction

核心信息：

YOLO26 发布于 2026年1月14日，slogan："Built End-to-End. Built for the Edge"
目标是让 YOLO26 在边缘设备或无 GPU 设备上实现实时性能
填补了 YOLO26 架构图的空白 —— 官方文档没有明确画出各模块位置
论文基于 GitHub 源码 (release 8.4.14) 进行分析，而非纯理论推导

2. Evolution of YOLO Models

YOLO26 关键演进节点：

版本	年份	关键创新
YOLOv10	2024.5	首次 NMS-free + 双标签分配 (one-to-many + one-to-one)
YOLO26	2026.1	SPPF shortcut, PSABlock, 移除DFL, MuSGD, ProgLoss+STAL

3. YOLO26 Architecture

架构总览

Input (3-ch) → Backbone → Neck → Head (3个检测头)

Backbone

2个卷积块 (kernel=3, stride=2) — 逐层降采样
C3k2 blocks (blocks 3-8) — 提取高抽象层次特征
关键改动: 最终 C3k2 block 内部嵌入了 PSABlock (注意力机制)

Neck

SPPF with shortcut — 首次加入残差连接，增强梯度流动
C2PSA — 自注意力机制，增强全局建模
Upsample + Concat — 多尺度特征融合

Head

3个检测头：小目标 / 中目标 / 大目标
已移除 DFL — 直接坐标回归

4. YOLO26 Key Improvements

4.1 SPPF with Shortcut

YOLO11/之前: SPPF → 输出
YOLO26:      SPPF → + shortcut(输入) → 输出

改进梯度传播，稳定高层语义特征的优化

4.2 PSABlock in Final C3k2

在最后一个 C3k2 block 嵌入注意力模块
目的：增强全局上下文建模，同时控制参数量和延迟

4.3 移除 Distribution Focal Loss (DFL)

之前 (YOLOv8-v13)	YOLO26
DFL 预测边界框位置分布	直接回归坐标
额外计算开销 + 固定回归范围	简化训练和推理
依赖 NMS 后处理	支持 NMS-free

关键洞察: DFL 的去除是 NMS-free 架构的前提 — 让模型学会 one-to-one 精确定位，而非一对多模糊预测。

4.4 Dual Assignment (NMS-Free Training)

继承自 YOLOv10：

训练时: 双头 — one-to-many + one-to-one
- one-to-many: 多个预测框对应一个目标 → 提供充分的监督信号，保证召回率
- one-to-one: 一个预测框对应一个目标 → 端到端学习的核心
推理时: 丢弃 one-to-many head，仅用 one-to-one head 直接输出

4.5 ProgLoss (Progressive Loss Balancing)

动态调整双头的损失权重：

训练早期:   one-to-many (权重高) → 保证召回率和训练稳定
训练后期:   one-to-one (权重高) → 逐渐对齐推理行为

效果：收敛更平滑，训练更稳定，最终性能更一致。

4.6 STAL (Small-Target-Aware Label Assignment)

问题背景：TAL (Task Alignment Learning) 容易忽略极小目标

STAL 解决方案：

输入 640×640 时，小于 8×8 像素的目标，强制分配至少 4 个 anchor
确保小目标不因标签分配策略而被"忽略"

4.7 MuSGD Optimizer

借鉴 LLM 训练中的 Muon 方法：

部分参数：Muon-style update + SGD 混合
部分参数：纯 SGD
效果：收敛更快，训练行为更可预测

4.8 Top-K Score-Based Inference

推理时不需要计算 IoU 或 NMS：

直接按分类分数全局排序
选取 Top-K 个最高分预测作为最终输出

5. YOLO26 Computer Vision Specific Tasks Improvement

任务	YOLO26 改进点
目标检测	DFL-free 架构
实例分割	Semantic segmentation loss + 增强的 proto module (多尺度信息)
图像分类	(无重大改动)
姿态估计	集成 RLE (Residual Log-Likelihood Estimation) + 优化 keypoint 解码
OBB	专用 angle loss + 解决边界不连续问题

6. Performance Comparison

精度: YOLO26 所有变体 (n/s/m/l/x) 在 COCO 上 mAP 最高
速度: 仅 s 和 m 变体与 YOLO11 相当，其他变体略慢

附：三篇 YOLO26 论文对比

	2601.12882	2602.00168	2602.14582
主题	NMS-Free 机制深度分析	YOLOE-26 开放词汇分割	YOLO26 架构全景 + 源码解读
核心贡献	理论分析 DFL 去除 + 双头机制	将 YOLO26 与 YOLOE 结合做零样本分割	首个完整架构图 + 各改进的源码级拆解
方法	论文研读 + 推理	应用集成方案	源码分析 (yolo26.yaml + tasks.py)
亮点	DFL 的作用机制解析	开放词汇分割新思路	ProgLoss 和 STAL 的实现细节首次披露

参考资料

官方文档: https://docs.ultralytics.com/models/yolo26/
GitHub: https://github.com/ultralytics/ultralytics
YOLO26 权重: https://github.com/ultralytics/assets/releases
源码版本: release 8.4.14

YOLO26: A Comprehensive Architecture Overview and Key Improvements ​

摘要 (Abstract) ​

1. Introduction ​

2. Evolution of YOLO Models ​

3. YOLO26 Architecture ​

架构总览 ​

Backbone ​

Neck ​

Head ​

4. YOLO26 Key Improvements ​

4.1 SPPF with Shortcut ​

4.2 PSABlock in Final C3k2 ​

4.3 移除 Distribution Focal Loss (DFL) ​

4.4 Dual Assignment (NMS-Free Training) ​

4.5 ProgLoss (Progressive Loss Balancing) ​

4.6 STAL (Small-Target-Aware Label Assignment) ​

4.7 MuSGD Optimizer ​

4.8 Top-K Score-Based Inference ​

5. YOLO26 Computer Vision Specific Tasks Improvement ​

6. Performance Comparison ​

附：三篇 YOLO26 论文对比 ​

参考资料 ​