Skip to content

TinyFormer: Preserving Tiny Objects in YOLO-DETR Hybrid Real-time Detectors

  • 来源: https://arxiv.org/abs/2605.25046
  • 本地PDF: ../raw/2026-05-24-tinyformer.pdf
  • 日期: 2026-05-24
  • 标签: yolo, detr, tiny object detection, real-time detection
  • 研究方向: 2D Object Detection → 小目标检测 → YOLO-DETR 混合架构
  • 作者: Jun-Wei Hsieh, Meng-Yu Kao, Ghufron Wahyu Kurniawan, Kuan-Chuan Peng (NYCU Taiwan / MERL)
  • 代码: https://github.com/mmpmmpmmpjosh/TinyFormer
  • arXiv日报: 2026-05-27

摘要

问题: YOLO 和 DETR 在小目标检测上都存在结构性缺陷——YOLO 的 32× 下采样让目标消失,DETR 的粗粒度 token 化让小目标被忽视。

方案: TinyFormer,YOLO-DETR 混合实时检测器。

  • PBM: 从浅层构建高分辨率 shortcut 到特征金字塔,保留空间细节
  • SSA: 从早期阶段提取高分辨率线索注入 Transformer token,补偿 token 化空间损失

关键结果: TinyFormer-X-PBM COCO 58.5% AP,+Objects365 达 60.2% AP,小目标 APS 40.9%(+1.6%)。首个不用外部预训练破 60% AP 的实时检测器。


1. Introduction

问题分析:

  • CNN 检测器(YOLO):32× 下采样 → 小目标在深层消失;grid assignment + NMS 进一步伤害密集小目标
  • DETR:coarse 特征图上的 global attention → 小目标只占少数低能量 token,二分匹配中被压制
  • 共同瓶颈:stride-32 特征的早期压缩不可逆地丢失高频空间信息

贡献:

  1. TinyFormer:YOLO-DETR 混合架构,ViT 全局语义 + DETR NMS-free + YOLO 金字塔 neck
  2. PBM: 从浅层建立直接高分辨率 shortcut 到融合 neck,确保像素级定位
  3. SSA: 明确恢复 ViT tokenization 过程中丢失的早期空间细节
  4. 首个不靠外部预训练破 60% AP 的实时检测器(60.2% AP / 43.0% APS on COCO)

YOLO 与 DETR 的趋同:

  • YOLO26 加 Hungarian matching 实现 NMS-free,桥接了 YOLO 和 DETR
  • TinyFormer 沿此趋势,结合两者优势

Backbone 瓶颈:

  • 现代模型都用 stride-32 特征,每个 cell 覆盖大区域 → 小目标可能缩到 1 个 token 或消失
  • YOLO:grid assignment 模糊,定位差
  • DETR:token 竞争偏好大实例,压制小实例

3. Method

3.1 PBM

问题: 传统 FPN/PAN 有两个问题:

  1. 无法恢复早期下采样丢失的细粒度空间信息
  2. 高度依赖从粗到细的 top-down 上采样 → 边界模糊
  3. 重复跨尺度聚合进一步压制小目标的弱响应

方案: 两个双向 shortcut,同时传播浅层的空间细节(绿色路径)+ 深层的语义信息(橙色路径)到主流中。

Align-then-Injection 机制:

F~i = Fi + Up×2(Conv1×1(Fi+1))
Fi = P(F~i, Conv3×3,s=2(Fi-1))

3.2 SSA

双重分支:

  • SDE (Spatial Detail Extractor): 在输入图像上直接操作,通过轻量卷积层(3×3 stride 2)提取高分辨率空间先验,在 tokenization 之前保留细节
    • F2 = SDE2(I) — stride 4 的特征图
  • SPB (Semantic Purification Block): 通过轻量卷积投影精炼 ViT 的高层语义特征
    • F3 = Conv1×1(Concat(SDE3(I), Up(F3_vit)))中间层融合,平衡定位精度和语义丰富度
    • F4 = Conv1×1(F4_vit)
    • F5 = Conv3×3,s=2(F5_vit)

融合策略: 不在太早(语义不足)也不在太深(干扰已形成的语义表征)注入空间信息,选择 intermediate scale。


4. Experiments

4.1 COCO SoTA 对比

ModelParamsFLOPsLatencyAPAP50AP75APSAPMAPL
DEIMv2-S9.7M25.6G2.34ms50.968.355.131.455.370.3
TinyFormer-S-PBM10.8M32.6G2.36ms51.568.955.732.655.369.8
DEIMv2-M18.1M52.2G3.09ms53.070.257.534.257.471.5
TinyFormer-M-PBM20.2M63.9G3.22ms53.770.958.335.157.871.3
DEIMv2-L32.2M96.7G3.59ms56.073.561.137.560.875.2
TinyFormer-L-PBM33.6M105.9G3.72ms56.874.361.839.061.275.5
DEIMv2-X50.3M151.6G4.72ms57.875.463.239.262.975.9
TinyFormer-X-PBM51.5M164.2G4.81ms58.575.964.140.963.276.6
TinyFormer-XL-PBM125.5M437.9G7.91ms60.678.066.343.465.977.9

4.2 Objects365 预训练结果

ModelAPAP50AP75APSAPMAPL
YOLO26-X (w/o nms)56.974.562.241.461.272.8
D-FINE-X59.376.864.642.364.276.4
RF-DETR-2XL (880×880)60.178.565.543.264.976.2
TinyFormer-X-PBM60.277.665.843.065.176.7
TinyFormer-XL-PBM62.579.768.446.867.478.2

4.3 VisDrone 2019 泛化

ModelAPAPS
DEIMv2-X32.252.3
TinyFormer-X-PBM34.7 (+2.5)55.5 (+3.2)

4.4 消融实验

核心模块消融:

SSAPBMAPAPS
57.3239.08
57.9939.33
57.5639.66
58.5040.94

→ SSA 提供空间基础,PBM 确保非稀释分布到金字塔,两者互补

PBM 通用性(跨架构):

  • RT-DETRv2-X + PBM: APS +1.62%
  • DEIM-X + PBM: APS +0.68%

5. Conclusion

  • TinyFormer = ViT 语义 + DETR NMS-free + YOLO 金字塔 neck + SSA/PBM
  • 60.2% AP / 43.0% APS with Objects365 pretraining
  • 超 YOLO 系列、D-FINE、DEIMv2,参数量更少

局限性: Transformer self-attention 在超高分 (>1280²) 下二次复杂度,后续探索硬件感知剪枝和线性注意力。


个人评价

核心价值: 小目标检测的标杆工作。PBM + SSA 的互补设计很干净——PBM 从浅层拉 shortcut 是直观的,SSA 的 dual-branch 设计在 ViT 之外独立保持分辨率思路巧妙。消融证实两者缺一不可。

可借鉴点:

  • SSA 的 SDE 分支:在 ViT tokenization 之前用轻量 CNN 保持高分辨率特征
  • PBM 的 Align-then-Injection:双向三尺度融合替代传统 top-down FPN
  • SSA 的中间层融合策略(不过早也不过晚注入空间信息)

对比 EdgeCrafter: EdgeCrafter 用 ConvStem 保持分辨率,TinyFormer 用 SSA 分支并行保持——思路类似但实现不同。


疑问解答 (Q&A)

Q1: SSA 的 SDE 和 PBM 的 shortcut 功能上不重叠吗?

: 不重叠。SDE 解决的是 ViT 的 stride-16 tokenization 导致的信息不可逆丢失——在 tokenization 之前就提取了高分辨率特征。PBM 解决的是特征金字塔融合时多尺度特征的传递损失。SSA 提供"原材料",PBM 确保"原材料"在金字塔各层被有效利用。

Q2: 和 YOLO26 的 NMS-free 的关系?

: YOLO26 在 CNN 架构上加 Hungarian matching 实现 NMS-free。TinyFormer 用 DETR 的 set prediction 做 NMS-free,但加了一个 YOLO 风格的金字塔 neck 和 PBM/SSA 做小目标增强。方向类似但路线不同。