DisDop: Distillation with Domain Priors for Open-Vocabulary Aerial Object Detection
- 来源: https://arxiv.org/abs/2605.24639
- 本地Markdown:
../raw/2026-05-23-disdop.md - 本地LaTeX:
../raw/2026-05-23-disdop-latex/ - 本地PDF:
../raw/2026-05-23-disdop.pdf - 日期: 2026-05-23
- 标签:
open-vocabulary detection,knowledge distillation,remote sensing,aerial detection - 研究方向: 2D Object Detection → 开放词汇检测 → 遥感/航空目标检测
- 作者: Ruihao Xu, Yong Liu, Yansong Tang, Sule Bai, Xubing Ye, Bingyao Yu, Yutao Guo, Jiwen Lu, Jie Zhou (Tsinghua)
- 代码: https://github.com/Rio-Allen/DisDop
- arXiv日报: 2026-05-27
前置工作
RemoteCLIP (TGRS 2024) — 首个遥感 VL 基础模型,612 引用。B2C/M2B 将异构标注统一为图文对,数据扩展 12 倍。DisDop 用其 ViT-L/14 做视觉教师(跨模态对齐)和文本教师(类别语义关系)。
CastDet (ECCV 2024) — 首个航空 OVD 方法。用 RemoteCLIP 做伪标签分类器(浅层利用),Soft Teacher 半监督范式 + Dynamic Label Queue 迭代更新伪标签。VisDroneZSD HM 40.0。DisDop 指出其"仅将 CLIP 作为分类器生成伪标签,未系统蒸馏多级域先验"。
LAE-DINO (2024) — DisDop 的直接基座。构建 LAE-1M 数据集(100 万实例),提出 DVC(动态词汇构建)和 VisGT(视觉引导文本提示学习)。DisDop 保留其检测头架构,替换 backbone 为蒸馏后的 Swin-T,并附加三层域先验蒸馏。DIOR AP50 85.5(open-set)。
演进路径: RemoteCLIP(基础模型)→ CastDet(首次 OVD)→ LAE-DINO(大规模数据+检测器)→ DisDop(域先验蒸馏)
前置概念
"Aerial" vs "Drone" vs "Remote Sensing":
- Aerial(航空):泛指"从空中拍摄",包括卫星(几百公里)、有人机(几公里)、无人机(几十到几百米)
- Drone(无人机):英语中特指 UAV,不包括卫星或有人机
- Remote Sensing(遥感):通常指卫星遥感
DisDop 论文的用词问题:论文 3 次用 "drone" 描述 aerial object detection 的视角("from the perspective of drones"、"drone's viewpoint images"),把 aerial 和 drone 混用。从"检测挑战"角度看可以理解——卫星和无人机拍的都是俯视图,都面临小目标/朝向多样/背景杂乱。但从"图像视觉特征"角度看,低空无人机图(如 VisDrone,倾斜视角,几十米高度)和卫星图(近正射,几百公里高度)差异很大。
DisDop 实际评测的数据集是卫星/高空航拍:DIOR(Google Earth 卫星图)、DOTAv2.0(航空图)、LAE-80C(从以上+FAIR1M/Xview 组合)。和真正的低空无人机场景(VisDrone 等)还有距离。论文用 "drone's viewpoint" 更像是用热门词吸引眼球,实际解决的是遥感/航空域的 OVD 问题——这也解释了为什么用遥感基础模型(RemoteCLIP/DINOv3)做教师:训练域和评测域一致。
摘要
问题: 航空目标检测(aerial object detection,从空中拍摄地面目标)图像稀缺且与自然图像差异大(尺度变化大、朝向多样、外观特征不明显),直接套用自然场景 OVD 方法效果差。已有工作(CastDet 等)依赖自然图像预训练模型生成伪标签,忽略了遥感/航空域专属基础模型(RemoteCLIP、DINOv3)中蕴含的域先验。论文用 "drone's viewpoint" 描述目标场景,但实际评测数据集(DIOR/DOTAv2.0/LAE-80C)都是卫星/高空航拍图,和真正的低空无人机图(如 VisDrone)还有距离。遥感基础模型在这些数据上有天然优势,因为训练域和评测域一致。
方案: DisDop,从遥感基础模型中系统蒸馏多级域先验(视觉/文本/上下文)到轻量检测器。
- 视觉先验蒸馏: 用 DINOv3 的自相似矩阵校准 RemoteCLIP 特征,语义自适应异常检测过滤噪声
- 文本先验蒸馏: 建模类别间语义关系(Relational Distillation)
- 上下文先验蒸馏: 全局场景线索增强小目标特征
验证: DIOR AP50 87.2(open-set),DOTAv2.0 mAP 47.5,LAE-80C mAP 22.5,均 SOTA
1. Introduction
背景:
- 航空目标检测从无人机视角检测地表目标
- 传统方法只能检测预定义类别,无法处理未见类别
- 开放词汇航空检测(OVAOD)在真实场景中需求强烈
挑战:
- 无人机视角图像稀缺,与自然图像差异大(俯视、小目标、密集分布)
- 直接套用 GLIP/Grounding DINO 等自然场景 OVD 方法效果差
- 已有迁移工作仍基于自然图像模型,忽略了遥感专属基础模型的潜力
贡献:
- DisDop 框架:系统蒸馏多级域先验(视觉/文本/上下文)到轻量检测器
- 教师融合策略:RemoteCLIP(跨模态对齐)+ DINOv3(细粒度局部特征)互补,用自相似性校准 + 语义自适应异常检测
- 文本先验蒸馏:显式建模类别间语义关系 + 全局上下文先验增强小目标
- SOTA:DIOR/DOTAv2.0/LAE-80C 三个 benchmark 开集检测(所有方法都用 LAE-1M 训练,评测时不再 fine-tune,同等条件对比 DisDop 优于 LAE-DINO)
2. Related Work
2.1 开放词汇检测
OVD(Open Vocabulary Detection)目标:基于任意文本查询检测目标,突破预定义类别集合的限制。CLIP、ALIGN 等视觉-语言预训练模型的强泛化能力催生了 OVD 方向。
代表性方法:
- ViLD:从预训练 VLM 蒸馏知识到检测器,增强开集检测能力
- RegionCLIP:在 region-text 对数据集上训练,强化区域级理解
- LAVT:将语言感知融合引入 Vision Transformer,实现像素级跨模态对齐
- Detic:引入图像分类数据集扩大词汇覆盖范围
- Grounding DINO:将 DINO 检测器与 grounded pretraining + 细粒度多模态融合结合,在大规模数据集训练后实现开集检测
- YOLO-World:用 YOLO 框架做 grounded pretraining
这些方法在自然图像上效果好,但直接部署到航空图像效果差(domain gap)。
2.2 航空目标检测
航空目标检测随遥感数据增长和需求(环境监测、城市规划、灾害响应)推动快速发展。
- 传统方法:基于预定义类别的闭集监督学习,在开放世界场景中受限 → 催生 OVAOD(开放词汇航空目标检测),无需大量标注即可识别新类别
OVAOD 代表性工作:
- CastDet:在 student-teacher 框架中集成 CLIP 知识蒸馏,增强伪标签生成
- OVA-DETR:图像-文本对齐 + Transformer 架构,高效可扩展,在 DIOR 上开集评测(大规模数据训练后直接测,无 fine-tune)mAP 表现优异
- LAE-DINO:通过大规模 LAE-1M 数据集和跨模态对齐弥合域差距
DisDop 首次系统利用遥感基础模型(RemoteCLIP、DINOv3)做蒸馏,而非仅基于自然图像模型生成伪标签
3. Method
3.1 总览
- 基础检测器:LAE detector
- 学生骨干:Swin Transformer Tiny(随机初始化)
- 教师模型:RemoteCLIP-ViT-L/14 + DINOv3-ViT-L/16
3.2 视觉先验蒸馏
核心问题: RemoteCLIP(cross-modal alignment 强但局部弱)+ DINOv3(细粒度局部特征好但无文本对齐),两个能力不在同一个模型里。
教师融合(Self-Similarity Calibration):
动机:RemoteCLIP 跨模态对齐强但局部特征弱,DINOv3 局部结构好但无文本对齐——两个能力不在同一个模型里,需要融合。
核心思路:用 DINOv3 的空间自相似性来"校准" RemoteCLIP 的特征——让属于同一物体的 patch 在 RemoteCLIP 空间中也更一致。
关键区分:
- S 矩阵只用 DINOv3 特征算:S = cos(F_DINO_i, F_DINO_j),RemoteCLIP 特征不参与 S 的计算
- RemoteCLIP 特征是被校准的对象:F_teacher = A · F_CLIP,A 来自 S(经异常过滤后),F_CLIP 是被聚合的目标
- 论文没给具体特征层数和空间尺寸。两个模型 patch size 不同(RemoteCLIP /14,DINOv3 /16),需插值对齐空间维度(蒸馏部分原文:"through channel transformation and interpolation")
步骤(举例说明):
假设输入一张机场图,对齐后共 N 个 patch,其中 p1、p2 是跑道,p3、p4 是飞机,p5、p6 是草地
计算 DINOv3 自相似矩阵 S(N×N):S_ij = cos(F_DINO_i, F_DINO_j)
- DINOv3 对"哪些 patch 属于同一物体"判断很准
- S[p1,p2]≈1(两块跑道很像),S[p3,p4]≈1,S[p1,p5]≈0(跑道和草地不像)
语义自适应异常检测:对每个 patch i,用 S 找语义邻域 N_i = {j | S_ij > γ_lof=0.8},然后在 N_i 内用 LOF 检测 RemoteCLIP 特征中的异常
- 为什么 LOF 在 CLIP 特征上做而不是 DINO 特征上做? S 矩阵已经定义了"谁应该是一家人"(DINOv3 的判断),LOF 的目的是检查"一家人内部 CLIP 特征是否一致"。
- 比如 p3(飞机) 的语义邻域 N_3 = {p3, p4, p7, p8}(DINOv3 的 S 矩阵认为它们互相之间都很相似,S > 0.8,属于同一物体或语义相近区域)
- 在 N_3 内,对 CLIP 特征做 LOF:LOF 的原理是计算每个点的局部密度,然后和邻居的局部密度做比值。如果某个点 j 的局部密度远低于其邻居(即 j 在 CLIP 特征空间中是孤立点),LOF(j) >> 1,判为异常,标记 M[p3,j]=1。比如 p3/p7/p8 的 CLIP 特征互相距离近(密度高),p4 的 CLIP 特征远离它们(密度低)→ p4 是异常。LOF 不跟文本比较,纯粹看 CLIP 特征空间中的局部密度比值。论文没指定距离度量
- 过滤的是:在聚合 CLIP 特征时,不让异常 patch 的 CLIP 特征参与聚合。比如 p3 要聚合其他 patch 的 CLIP 特征时,p4 被排除
加权聚合:用 S 和 M 计算注意力权重 A,再对 CLIP 特征做加权平均
A_ij = exp(S_ij/τ) / Σ_k exp(S_ik/τ) 如果 S_ij > γ 且 M_ij=0,否则为 0 F_teacher = A · F_CLIP # 聚合的是 CLIP 特征,A 由 S(相关性)+ M(异常过滤)共同决定这就是 softmax,把相似度转成权重(加和为 1)。exp 是 softmax 的标准写法。举例(τ=1):
- 对 p1(跑道):p2(跑道) S=0.9 且 M=0 → 通过;p7(跑道) S=0.85 且 M=0 → 通过;p3(飞机) S=0.3 < γ → 第一关挂了;p4 M=1 → 第二关挂了
- 只有 p2、p7 参与:A[p1,p2] = exp(0.9)/(exp(0.9)+exp(0.85)) ≈ 0.51,A[p1,p7] ≈ 0.49
- F_teacher[p1] = 0.51 × F_CLIP[p2] + 0.49 × F_CLIP[p7] → p1 的融合特征是两个"家人"的 CLIP 特征加权平均
一句话总结:DINOv3 的 S 矩阵告诉模型"哪些 patch 是一家人",然后用这个结构让 RemoteCLIP 特征在"一家人"内部更一致(intra-object consistency),同时过滤掉语义不一致的噪声 patch
为什么最终聚合的是 CLIP 特征而不是 DINO 特征? 整个检测器的核心需求是跨模态对齐——检测时要用 visual feature 和 text embedding 匹配才能识别任意类别,这个能力只有 CLIP 有,DINO 没有。如果 F_teacher = A · F_DINO,得到的是空间结构一致但无文本对齐的特征,无法做开放词汇检测。F_teacher = A · F_CLIP 则保留 CLIP 的跨模态对齐("是什么"),同时用 DINO 的结构让同一物体内的 CLIP 特征更一致("一家人内部对齐")
蒸馏到学生骨干:
- 维度对齐:CLIP ViT-L hidden dim=1024,Swin-T 最后一层 hidden dim=768,空间尺寸也可能不同。论文原文:"align the student model features to the teacher model features through channel transformation and interpolation"——通道映射用线性层,空间对齐用插值,具体细节论文未给
- Cosine similarity loss: L_cosine = 1/N · Σ(1 - (f_teacher · f_student) / (||f_teacher||·||f_student||))
- Attention distillation loss: L_attn = KL(P_teacher || P_student)
- P_teacher = softmax(F_teacher·F_teacher^T / τ_t),τ_t=0.1;
- P_student = softmax(F_student·F_student^T / τ_s),τ_s=1.0
- F·F^T 是 N×N 自相似矩阵,每行做 softmax 就是"patch i 应该关注哪些 patch"的概率分布
- τ_t=0.1(教师)→ 分布很尖锐,只关注最相似的 patch;τ_s=1.0(学生)→ 分布更平滑,容易学习
- 举例:相似度 [0.9, 0.5, 0.1],τ=1.0 → softmax=[0.42, 0.33, 0.25];τ=0.1 → softmax=[0.98, 0.02, 0.00]
- 为什么加这个:教师特征存在 homogenization(不同位置特征太相似,cosine loss 区分不出来),但低温度 softmax 后的注意力分布能很好反映语义结构,KL 蒸馏比直接对齐特征更有效
- 总 loss: L_backbone = λ_cosine·L_cosine + λ_attn·L_attn
3.3 文本和上下文先验蒸馏
背景:要让模型识别未见类别,需要从 RemoteCLIP 文本编码器蒸馏类别间的语义关系。但简单的逐实例对齐(baseline L_KD)有两个问题:
Baseline(L_KD):
L_KD = 1/N · Σ ||f_c^i - f_v^i||²- f_c^i:模型输出的第 i 个 ROI(检测框)的类别特征(DINO 检测器中来自 decoder query,非 RoIAlign)
- f_v^i:把第 i 个框对应的图像区域 crop 出来,送进 RemoteCLIP 编码得到的 visual feature(不是在 feature map 上做 RoIAlign)。论文原文 "Cropped regions from extremely small bounding boxes (e.g., 2×2 pixels)" 印证了这一点
- 问题 1:小目标的 f_v 质量差——极小的 bbox(如 2×2 像素)crop 出来给 CLIP 编码,特征几乎没用
- 问题 2:丢失类别间语义拓扑——每个实例独立对齐,不考虑类别之间的关系。可能导致"桥"和"船"的特征距离比"桥"和"风车"还远,开集分类就废了
改进:Relational Distillation + Context Enhancement:
L_distill = 1/N² · Σ_i Σ_j (|f_c^i - f_eh^j|_cos - |t^i - t^j|_cos)²两个关键设计:
1. Context Enhancement(解决小目标问题):
f_eh^j = LN(μ · f_g^j + (1-μ) · f_v^j)- f_v^j:ROI crop 的局部 CLIP 特征(小目标质量差)
- f_g^j:整张图的 CLIP 全局特征(包含场景上下文,如道路、建筑、跑道)
- μ ∈ [0,1]:可学习参数,动态平衡局部和全局
- 举例:一个 2×2 像素的小车,f_v 质量很差,但 f_g 包含了周围的道路和房屋信息 → 融合后 f_eh 有了场景线索,更容易判断"这应该是车"
2. Relational Consistency(解决语义拓扑问题):
- t^i、t^j:RemoteCLIP 文本编码器对第 i、j 个实例类别名的文本嵌入
- |t^i - t^j|_cos:文本空间中两个类别的余弦距离(语义关系)
- |f_c^i - f_eh^j|_cos:视觉空间中两个实例特征的余弦距离(f_c^i 是检测器特征,f_eh^j 是 CLIP 的增强特征)
- loss 迫使视觉空间中的距离结构 = 文本空间中的距离结构
举例:一个 batch 中有 4 个实例——i1(桥)、i2(船)、i3(风车)、i4(桥)
- 文本空间:|t_桥 - t_船|_cos = 0.3(语义近),|t_桥 - t_风车|_cos = 0.8(语义远)
- loss 迫使:|f_c_桥 - f_eh_船|_cos ≈ 0.3,|f_c_桥 - f_eh_风车|_cos ≈ 0.8
- 效果:视觉特征空间保持了文本空间的语义拓扑——"桥"和"船"靠得近,"桥"和"风车"离得远
3. 跨 batch 蒸馏:不在单张图内做关系蒸馏(一张图类别太少,监督稀疏),而是在整个 mini-batch 上做。一张航拍图可能只有 2-3 种目标,但一个 batch 的多张图加起来可能有 10+ 种类别,提供更密集的语义关系监督
上下文先验蒸馏:
- 小目标仅靠局部特征难以识别(Figure 3 例子:车在路边 vs 运动场间的干扰物)
- 用 cross-attention 聚合全局场景线索增强局部特征
- 全局上下文编码场景信息(道路、建筑、跑道等)辅助判断
3.4 训练
两阶段:
- Stage I(backbone only): 在 LAE-1M(无标签)上蒸馏视觉先验到 Swin-Tiny backbone,teacher 冻结。需加载 RemoteCLIP + DINOv3。15k iterations,batch size 8,AdamW,8× A100。Swin-T 随机初始化(论文原文 "random initialized")。LAE-1M 约 201k 张图(LAE-FOD ~135k + LAE-COD ~65.8k),15k×8=120k 张 → 约 0.6 epoch,训练很轻量,只需做初始化级别的蒸馏
- Stage II(full detector): 在标注 LAE-1M 上训练完整检测器(检测 loss + 文本/上下文蒸馏 loss)。DINOv3 不再需要,但 RemoteCLIP 仍需要(文本/上下文蒸馏依赖其 visual feature 和 text embedding)。沿用 LAE 的训练配置
4. Experiments
4.1 实验设置
- 数据集: DIOR, DOTAv2.0, LAE-80C
- 评估: AP50 (DIOR), mAP (DOTAv2.0/LAE-80C)
- Teacher: DINOv3-ViT-L/16 + RemoteCLIP-ViT-L/14
- Student backbone: Swin-Tiny
- 8× A100 GPU
4.2 开放集检测结果
| 方法 | 训练数据 | DIOR AP50 | DOTAv2.0 mAP | LAE-80C mAP |
|---|---|---|---|---|
| GLIP + DVC | LAE-1M | 82.8 | 43.0 | 16.5 |
| GroundingDINO + DVC | LAE-1M | 83.6 | 46.0 | 17.7 |
| LAE-DINO | LAE-1M | 85.5 | 46.8 | 20.2 |
| DisDop | LAE-1M | 87.2 | 47.5 | 22.5 |
4.3 封闭集检测结果
| 方法 | Backbone | 预训练 | DIOR AP50 | DOTAv2.0 mAP |
|---|---|---|---|---|
| Scale-MAE | ViT-L | FMoW | 73.8 | — |
| SatLas | Swin-B | SatlasPretrain | — | 52.2 |
| GLIP-FT | Swin-T | LAE-1M | 88.9 | 51.5 |
| GroundingDINO-FT | Swin-T | LAE-1M | 91.1 | 55.1 |
| LAE-DINO-FT | Swin-T | LAE-1M | 92.2 | 57.9 |
| DisDop-FT | Swin-T | LAE-1M | 92.6 | 58.6 |
封闭集 = 在 benchmark 训练集上 fine-tune 后测(-FT 后缀)。DisDop-FT 比开集 DisDop 高 +5.4(DIOR)/ +11.1(DOTAv2.0)。用更小的 backbone(Swin-T vs ViT-L/Swin-B)达到可比或更优的封闭集性能。
4.4 消融实验
组件消融(2×2 设计,VPD = 视觉蒸馏,TCPD = 文本+上下文蒸馏): || VPD | TCPD | DIOR AP50 | DOTAv2.0 mAP | LAE-80C mAP | ||---|---|---|---|---| || | | 85.5 | 46.8 | 20.2 | || ✓ | | 86.6 | 47.2 | 21.5 | || | ✓ | 86.2 | 47.1 | 20.9 | || ✓ | ✓ | 87.2 | 47.5 | 22.5 |
- baseline:LAE-DINO,无蒸馏
- ✓ VPD:Stage I 蒸馏 backbone → Stage II 正常检测训练(backbone 参与微调,不是冻住的)
- ✓ TCPD:无 Stage I,直接从 baseline 出发,Stage II 加 L_distill loss(文本+上下文蒸馏)
- ✓ VPD + ✓ TCPD:完整 DisDop(两阶段 + 文本/上下文蒸馏)
分析:VPD 的 +1.1 AP50 主要来自更好的 backbone 初始化——Stage I 用蒸馏给随机初始化的 Swin-T 注入了 RemoteCLIP+DINOv3 的知识,Stage II 从更好的起点开始训练。TCPD(无 Stage I,只改训练 loss)也带来 +0.7 AP50,说明不换初始化、只加蒸馏 loss 也有用。两者叠加 (+1.7) 接近各自单独增益之和 (1.1+0.7=1.8),说明两个组件基本独立互补
教师融合策略消融:
| 策略 | DIOR AP50 | DOTAv2.0 mAP | LAE-80C mAP |
|---|---|---|---|
| w/o outlier filtering | 86.6 | 47.1 | 21.3 |
| Global LOF | 86.7 | 46.9 | 21.0 |
| Semantic-Adaptive LOF | 87.2 | 47.5 | 22.5 |
Relational Distillation 范围:
- Class-wise(逐类别蒸馏)< Category-wise(类别间关系蒸馏)< All-pair(全对关系蒸馏)
5. Conclusion
- DisDop 首次系统蒸馏遥感基础模型的域先验(视觉+文本+上下文)到轻量检测器
- 自相似性校准 + 语义自适应异常检测实现高效的教师特征融合
- Relational Distillation 比离散文本嵌入更有效
- SOTA 在 DIOR/DOTAv2.0/LAE-80C
个人评价
核心价值: OVAOD 方向的一个扎实工作,思路清晰——不是从零训大模型,而是从已有遥感基础模型蒸馏到小模型。语义自适应异常检测是方法亮点。
可借鉴点:
- DINOv3 自相似矩阵校准 RemoteCLIP 特征:用无监督的细粒度结构增强 VLM 的语义特征
- Semantic-Adaptive LOF:基于局部语义而非全局判断异常,适合遥感复杂场景
- 两阶段蒸馏:先蒸馏 backbone,再训完整检测器,减少计算开销
对比 FGD: FGD 是检测蒸馏的经典工作,但只做特征级蒸馏。DisDop 做了更系统化的多级蒸馏(视觉+文本+上下文),且面向 OVD 场景。
局限性: 依赖 LAE-1M 数据集(含标注),不是完全无需标注的方案。
疑问解答 (Q&A)
Q1: DisDop 和直接 finetune RemoteCLIP 或 DINOv3 的区别?
答: DisDop 不是 finetune 遥感基础模型,而是蒸馏它们到小模型。RemoteCLIP 和 DINOv3 都是 ViT-L(~300M 参数),推理太重;蒸馏到 Swin-Tiny(~28M)后可在边缘端部署。
Q2: 笔记中写的「基础检测器:LAE detector」到底是什么检测器?
答: LAE = Locate Anything on Earth(Liu et al., arXiv:2408.09110),航空 OVD 开创性工作。LAE 检测器(LAE-DINO)架构:
- Backbone: Swin Transformer Tiny
- 检测头: DINO(DETR 类,DAB-DETR + denoising training + contrastive denoising)
- 核心模块: Dynamic Vocabulary Construction (DVC) + Visual-Guided Text Prompt Learning (VisGT)
DisDop building upon LAE 的意思是:保留 LAE-DINO 的检测头架构,只替换 backbone 为蒸馏后的 Swin-T,并附加蒸馏 loss。本质 = LAE-DINO 检测头 + 蒸馏 backbone。
Q3: 为什么选 Swin-Tiny 做学生 backbone?
答: Swin-Tiny 在轻量级中对航空图像的多尺度特征表达能力好(层级式金字塔结构),且 LAE baseline 就是用 Swin-Tiny,保持对比一致性。
Q4: 语义自适应异常检测的实际作用?
答: 消融显示 Semantic-Adaptive LOF 比 Global LOF 在 DIOR 上高 +0.5 AP50,在 LAE-80C 上高 +1.5 mAP。遥感图像场景复杂,局部不同区域(城市 vs 农田)的"正常"特征不同,全局判断容易误判。
Q5: 为什么不直接用 DINOv3 特征蒸馏,而要先校准 CLIP 再蒸馏?
答: 直接用 DINOv3 特征蒸馏对闭集检测可能有效,但对开集检测没用。开集检测的核心机制是 visual feature 和 text embedding 做匹配——DINOv3 没有 text encoder,特征空间和文本空间没有对齐,无法算"DINOv3 特征"和"汽车"文本嵌入的相似度来做分类。所以必须用 CLIP 特征作为最终聚合目标(保留跨模态对齐),再用 DINO 的结构校准 CLIP 特征(增强同一物体内部一致性),两者缺一不可。
