EdgeCrafter: Compact ViTs for Edge Dense Prediction via Task-Specialized Distillation
- 推文链接: https://mp.weixin.qq.com/s/Z4eNbhWL7FpBYte1ay8clg
- 推文标题: DEIMv2 后的又一力作!英特灵达开源 EdgeCrafter:让轻量级 ViT 在边缘端密集预测强于YOLO系
- 来源: https://arxiv.org/abs/2603.18739
- 本地PDF:
../raw/2026-03-19-edgecrafter.pdf - 日期: 2026-03-19
- 标签:
ViT,edge,knowledge distillation,object detection,pose estimation,instance segmentation - 研究方向: 2D Object Detection → 轻量级检测 → 边缘端密集预测
- 作者: Longfei Liu, Yongjie Hou, Yang Li, Qirui Wang, Youyang Sha, Yongjun Yu, Yinzhi Wang, Peizhe Ru, Xuanlong Yu, Xi Shen (Intellindust AI Lab)
- 代码: https://github.com/intellindust-ai-lab/edgecrafter
- 项目主页: https://intellindust-ai-lab.github.io/projects/EdgeCrafter
公众号推文解读
摘要
EdgeCrafter 是一个让轻量级 ViT 在边缘端密集预测任务上超越 YOLO 系的统一框架。核心思路:通过任务专门化蒸馏(Task-Specialized Distillation),把 DINOv3 ViT 的目标检测表征知识注入紧凑型学生骨干 ECViT。
关键结果:
- ECDet-S(10M 参数)COCO 51.7 AP → 超 YOLO11-S(46.6)、YOLOv12-S(47.6)
- ECPose-X 74.8 AP → 超 YOLO26-Pose-X(71.6,用了 Objects365 预训练)
- ECInsSeg-S(10.3M)43.0 AP → 逼近 3 倍参数的 RF-DETR(43.1)
三阶段流程
- 教师训练:DINOv3 ViT → 适配检测,成为"检测专家"
- 特征蒸馏:ImageNet+COCO 混合集上特征对齐蒸馏到 ECViT
- 多任务构建:蒸馏后的骨干 → ECDet/ECInsSeg/ECPose
架构特点
- ConvStem(4 层 3×3 卷积,stride=2)替代 Patch Embedding
- 极简多尺度:不加 FPN,融合最后 2 个 Block 输出,线性投影出 stride 8/16/32
- RT-DETR 风格 Encoder-Decoder(AIFI + CCFF)
- 消融:LARS > AdamW(+0.3 AP);寄存器 Token 减少伪影;DINOv3-B 教师优于 L
论文解读
1. Introduction
背景 & 动机:
- 边缘端密集预测(检测/分割/姿态)仍是 CNN(YOLO)主导
- ViT 在云端大模型风头正劲,但缩小到边缘端尺寸后性能骤降
- 即使 ImageNet-21K 监督预训练对紧凑型 ViT 提升也有限,有时甚至不如从零训练(Figure 1b)
- 核心问题:紧凑型 ViT 缺乏有效的任务特定表征学习,而非架构本身不适合
本文贡献:
- EdgeCrafter 框架: 统一紧凑型 ViT 框架,覆盖检测/分割/姿态估计
- 任务专门化蒸馏: 将 DINOv3 检测教师的知识蒸馏到小型学生骨干 ECViT
- 边缘友好架构: ConvStem + 极简多尺度特征 + RT-DETR 风格 Encoder-Decoder
- SOTA 结果: ECDet-S 10M 参数 COCO 51.7 AP,无需 Objects365 预训练
2. Related Work
知识蒸馏:
- 传统 KD 从大模型蒸馏到小模型,但多数针对分类任务
- 本文不同:教师先适配到密集预测任务(检测专家),再蒸馏给学生
高效目标检测:
- 实践中 CNN 架构(YOLO 系列)仍占主导
- DETR 类方法(RT-DETR, D-FINE, RF-DETR)在实时检测上追赶
- 紧凑型 ViT 在此场景中应用较少
紧凑型 ViT:
- 现有紧凑 ViT(DeiT, TinyViT, EfficientViT 等)主要针对分类,未针对密集预测专门优化
- EdgeCrafter 目标是把大 ViT 转为任务专门化的教师,再蒸馏给紧凑学生
3. Method
3.1 三阶段 Pipeline
Stage 1: 教师准备
- DINOv3 ViT backbone → 适配到 COCO 目标检测 → 成为"检测专家"教师
- 教师分为 ECTeacher-S(small)和 ECTeacher-B(base)
Stage 2: 知识蒸馏到 ECViT
- 在 ImageNet + COCO 混合数据集上蒸馏
- 学生骨干仅受
L_distill优化(匹配教师特征) - 使用 LARS 优化器(比 AdamW +0.3 AP)
- 蒸馏后骨干固定权重,进入下游任务训练
Stage 3: 任务特定训练
- ECViT 骨干 + 轻量级任务头 → ECDet(检测)/ ECPose(姿态)/ ECInsSeg(分割)
- 骨干冻结,只训练任务头(阶段 3 骨干 ❄️ 冻结)
3.2 ECDet 架构
ConvStem: 4 层 3×3 卷积(stride=2),替代 ViT 的 16 步长 Patch Embedding
- 保留更多局部细节,逐步扩大感受野
ECViT 骨干: ConvStem + 12 个 Transformer Block(带 RoPE)
极简多尺度特征金字塔:
- 无 FPN,直接融合最后 2 个 Block 的输出
- 通过线性投影 + 插值生成 stride 8/16/32 特征图
Hybrid Encoder & Decoder:
- RT-DETR 风格的尺度内交互(AIFI)+ 跨尺度融合(CCFF)
- 4 层解码器,300 个 object queries
模型配置(Table 1):
| Model | Resolution | ECViT | Embed Dim | Attn Heads | Teacher | Encoder Hidden | Encoder FFN | Decoder FFN |
|---|---|---|---|---|---|---|---|---|
| S | 640 | T | 192 | 3 | ECTeacher-S | 192 | 768 | 768 |
| M | 640 | T+ | 256 | 4 | ECTeacher-B | 256 | 1024 | 1024 |
| L | 640 | S | 384 | 6 | ECTeacher-B | 384 | 1536 | 1536 |
| X | 640 | S+ | 512 | 8 | ECTeacher-B | 512 | 2048 | 2048 |
3.3 ECPose
- 基于 ECDet,检测查询 → 1 个实例 Token + N 个关键点 Token
- 同时回归边界框 + 人体关键点坐标
- 损失:L1 + OKS loss
3.4 ECInsSeg
- 基于 ECDet,复用检测查询做 mask 预测
- 轻量级 query-base mask head(MaskDINO / RF-DETR 风格)
4. Experiments
4.1 目标检测(COCO val2017)
| Model | Params | GFLOPs | Latency | APval | AP50 | AP75 |
|---|---|---|---|---|---|---|
| YOLO11-S | 9.4M | 21.3 | 2.9ms | 46.6 | 63.0 | 50.4 |
| YOLOv12-S | 9.5M | 19.5 | 3.4ms | 47.6 | 63.7 | 51.4 |
| RT-DETRv4-S | 10.3M | 51.4 | 5.2ms | 50.3 | 68.0 | 54.7 |
| ECDet-S | 9.8M | 45.6 | 5.4ms | 51.7 | 69.4 | 56.3 |
| YOLO26-M* | 22.3M | 62.6 | 4.8ms | 53.3 | 70.4 | 58.5 |
| ECDet-M | 17.5M | 85.6 | 8.9ms | 55.6 | 73.0 | 60.0 |
| YOLO26-L* | 46.9M | 130.9 | 8.1ms | 56.5 | 73.6 | 62.1 |
| ECDet-L | 34.1M | 181.7 | 12.9ms | 57.9 | 75.5 | 63.2 |
| YOLO26-X* | 74.1M | 250.3 | 11.9ms | 57.9 | 74.8 | 63.9 |
| ECDet-X | 49.3M | 280.7 | 14.2ms | 58.5 | 75.8 | 63.7 |
*标注带 Objects365 预训练。ECDet 仅用 COCO 标注。
关键发现:
- ECDet-S(9.8M)51.7 AP → 超 YOLOv12-S(47.6)+4.1 AP
- 所有尺度均超过 YOLO26(即使后者用了 Objects365 预训练)
- 仅在大模型(X)上 AP75 略低于 YOLO26-X
4.2 人体姿态估计(COCO val2017)
| Model | Params | AP | AP50 |
|---|---|---|---|
| RTMO-S | 5.9M | 67.4 | 87.5 |
| ECPose-S | 10.0M | 71.2 | 90.2 |
| YOLO26-Pose-M* | 13.6M | 68.1 | 87.8 |
| ECPose-M | 17.7M | 72.9 | 91.4 |
| YOLO26-Pose-X* | 36.1M | 71.6 | 89.9 |
| ECPose-X | 24.4M | 74.8 | 91.9 |
*ECPose 无 Objects365 预训练,YOLO26-Pose 有
4.3 实例分割(COCO val2017)
| Model | Params | AP | AP50 | AP75 |
|---|---|---|---|---|
| ECInsSeg-S | 10.3M | 43.0 | 64.3 | 46.2 |
| YOLO26-Seg-M* | 23.2M | 40.9 | 61.9 | 43.6 |
| ECInsSeg-M | 17.7M | 44.7 | 66.0 | 47.3 |
| RF-DETR-Seg-S* | 31.6M | 43.1 | 64.7 | 46.0 |
| ECInsSeg-L | 34.3M | 45.9 | 67.3 | 49.3 |
4.4 消融实验
损失函数对比(ECDet-S):
| Method | APval |
|---|---|
| 无蒸馏(train from scratch) | 46.9 |
| SL(相似性损失,MSE) | 49.7 |
| CL(对比损失) | 49.6 |
| SL + CL(本文方法) | 50.8 |
| Teacher 最后 2 层(本文最终) | 51.7 |
优化器:
| Optimizer | AP |
|---|---|
| AdamW | 53.8 |
| LARS | 54.1 (+0.3) |
教师模型选择:
| Teacher | AP |
|---|---|
| DINOv3-S | 53.6 |
| DINOv3-B | 54.3 |
| DINOv3-L | 53.8 |
→ 并非教师越大越好,DINOv3-L 的表征过于复杂,紧凑学生难以吸收(认知鸿沟)
寄存器 Token:
| Register Tokens | AP |
|---|---|
| 0 | 53.8 |
| 1 | 54.3 (+0.5) |
| 2 | 53.8 |
→ 1 个寄存器 Token 即可显著减少特征伪影
5. Conclusion
- 紧凑型 ViT 性能不佳的根源是任务特定表征不足,而非架构不兼容
- 任务专门化蒸馏 + 边缘友好设计 = 紧凑 ViT 在边缘端与 CNN 竞争甚至超越
- ECDet-S 10M 参数 51.7 AP,无需大规模预训练
- 蒸馏表征可跨任务迁移(检测→分割→姿态),仅需更换轻量级任务头
局限性: 未提及
个人评价
核心价值: 验证了一个重要假设——紧凑 ViT 不行不是架构问题,而是训练方式不对。任务专门化蒸馏的思路简单有效,工程价值高。
可借鉴点:
- 任务专门化蒸馏的套路:教师先做任务适配 → 再蒸馏特征 → 学生冻结骨干只训头
- DINOv3-B > DINOv3-L 的"认知鸿沟"现象,选择教师要考虑学生的吸收能力
- ConvStem + 极简多尺度(不用 FPN)的轻量设计
量化结论: 在 COCO 检测上,EdgeCrafter 的蒸馏方案比从零训练高 +4.8 AP(46.9 → 51.7),比无蒸馏的 SL+CL 消融高 +0.9 AP(50.8 → 51.7)
疑问解答 (Q&A)
Q1: Stage 3 为什么要冻结骨干?
答: 因为蒸馏阶段已经让学生骨干学到了检测相关的表征。冻结骨干可以防止在特定任务数据(如姿态估计的人体关键点)上 finetune 时"污染"蒸馏来的通用检测特征,保证跨任务迁移能力。
Q2: 为什么 FPN 省掉了?只靠 2 个 Block 融合够用?
答: 文章直接在最后 2 个 Transformer Block 输出上做线性投影 + 插值,生成 stride 8/16/32 的三层特征。对于紧凑型 ViT 来说,层数少、语义层级有限,FPN 的额外参数和延迟不划算。实验结果证明这种简化设计足够。
Q3: ECDet-X 在 AP75 上略微低于 YOLO26-X,说明了什么?
答: 大模型下定位精度的瓶颈可能在解码器设计,而非骨干表征。ECDet 使用 4 层解码器 + 300 queries,与 YOLO26 的密集预测方式不同,高 IoU 阈值下定位精度可能受限于查询数量和解码器深度。
