DisDop: Distillation with Domain Priors for Open-Vocabulary Aerial Object Detection

来源: https://arxiv.org/abs/2605.24639
本地Markdown: ../raw/2026-05-23-disdop.md
本地LaTeX: ../raw/2026-05-23-disdop-latex/
本地PDF: ../raw/2026-05-23-disdop.pdf
日期: 2026-05-23
标签: open-vocabulary detection, knowledge distillation, remote sensing, aerial detection
研究方向: 2D Object Detection → 开放词汇检测 → 遥感/航空目标检测
作者: Ruihao Xu, Yong Liu, Yansong Tang, Sule Bai, Xubing Ye, Bingyao Yu, Yutao Guo, Jiwen Lu, Jie Zhou (Tsinghua)
代码: https://github.com/Rio-Allen/DisDop
arXiv日报: 2026-05-27

前置工作

RemoteCLIP (TGRS 2024) — 首个遥感 VL 基础模型，612 引用。B2C/M2B 将异构标注统一为图文对，数据扩展 12 倍。DisDop 用其 ViT-L/14 做视觉教师（跨模态对齐）和文本教师（类别语义关系）。
CastDet (ECCV 2024) — 首个航空 OVD 方法。用 RemoteCLIP 做伪标签分类器（浅层利用），Soft Teacher 半监督范式 + Dynamic Label Queue 迭代更新伪标签。VisDroneZSD HM 40.0。DisDop 指出其"仅将 CLIP 作为分类器生成伪标签，未系统蒸馏多级域先验"。
LAE-DINO (2024) — DisDop 的直接基座。构建 LAE-1M 数据集（100 万实例），提出 DVC（动态词汇构建）和 VisGT（视觉引导文本提示学习）。DisDop 保留其检测头架构，替换 backbone 为蒸馏后的 Swin-T，并附加三层域先验蒸馏。DIOR AP50 85.5（open-set）。

演进路径: RemoteCLIP（基础模型）→ CastDet（首次 OVD）→ LAE-DINO（大规模数据+检测器）→ DisDop（域先验蒸馏）

前置概念

"Aerial" vs "Drone" vs "Remote Sensing"：

Aerial（航空）：泛指"从空中拍摄"，包括卫星（几百公里）、有人机（几公里）、无人机（几十到几百米）
Drone（无人机）：英语中特指 UAV，不包括卫星或有人机
Remote Sensing（遥感）：通常指卫星遥感

DisDop 论文的用词问题：论文 3 次用 "drone" 描述 aerial object detection 的视角（"from the perspective of drones"、"drone's viewpoint images"），把 aerial 和 drone 混用。从"检测挑战"角度看可以理解——卫星和无人机拍的都是俯视图，都面临小目标/朝向多样/背景杂乱。但从"图像视觉特征"角度看，低空无人机图（如 VisDrone，倾斜视角，几十米高度）和卫星图（近正射，几百公里高度）差异很大。

DisDop 实际评测的数据集是卫星/高空航拍：DIOR（Google Earth 卫星图）、DOTAv2.0（航空图）、LAE-80C（从以上+FAIR1M/Xview 组合）。和真正的低空无人机场景（VisDrone 等）还有距离。论文用 "drone's viewpoint" 更像是用热门词吸引眼球，实际解决的是遥感/航空域的 OVD 问题——这也解释了为什么用遥感基础模型（RemoteCLIP/DINOv3）做教师：训练域和评测域一致。

摘要

问题: 航空目标检测（aerial object detection，从空中拍摄地面目标）图像稀缺且与自然图像差异大（尺度变化大、朝向多样、外观特征不明显），直接套用自然场景 OVD 方法效果差。已有工作（CastDet 等）依赖自然图像预训练模型生成伪标签，忽略了遥感/航空域专属基础模型（RemoteCLIP、DINOv3）中蕴含的域先验。论文用 "drone's viewpoint" 描述目标场景，但实际评测数据集（DIOR/DOTAv2.0/LAE-80C）都是卫星/高空航拍图，和真正的低空无人机图（如 VisDrone）还有距离。遥感基础模型在这些数据上有天然优势，因为训练域和评测域一致。

方案: DisDop，从遥感基础模型中系统蒸馏多级域先验（视觉/文本/上下文）到轻量检测器。

视觉先验蒸馏: 用 DINOv3 的自相似矩阵校准 RemoteCLIP 特征，语义自适应异常检测过滤噪声
文本先验蒸馏: 建模类别间语义关系（Relational Distillation）
上下文先验蒸馏: 全局场景线索增强小目标特征

验证: DIOR AP50 87.2（open-set），DOTAv2.0 mAP 47.5，LAE-80C mAP 22.5，均 SOTA

1. Introduction

背景:

航空目标检测从无人机视角检测地表目标
传统方法只能检测预定义类别，无法处理未见类别
开放词汇航空检测（OVAOD）在真实场景中需求强烈

挑战:

无人机视角图像稀缺，与自然图像差异大（俯视、小目标、密集分布）
直接套用 GLIP/Grounding DINO 等自然场景 OVD 方法效果差
已有迁移工作仍基于自然图像模型，忽略了遥感专属基础模型的潜力

贡献:

DisDop 框架：系统蒸馏多级域先验（视觉/文本/上下文）到轻量检测器
教师融合策略：RemoteCLIP（跨模态对齐）+ DINOv3（细粒度局部特征）互补，用自相似性校准 + 语义自适应异常检测
文本先验蒸馏：显式建模类别间语义关系 + 全局上下文先验增强小目标
SOTA：DIOR/DOTAv2.0/LAE-80C 三个 benchmark 开集检测（所有方法都用 LAE-1M 训练，评测时不再 fine-tune，同等条件对比 DisDop 优于 LAE-DINO）

2.1 开放词汇检测

OVD（Open Vocabulary Detection）目标：基于任意文本查询检测目标，突破预定义类别集合的限制。CLIP、ALIGN 等视觉-语言预训练模型的强泛化能力催生了 OVD 方向。

代表性方法：

ViLD：从预训练 VLM 蒸馏知识到检测器，增强开集检测能力
RegionCLIP：在 region-text 对数据集上训练，强化区域级理解
LAVT：将语言感知融合引入 Vision Transformer，实现像素级跨模态对齐
Detic：引入图像分类数据集扩大词汇覆盖范围
Grounding DINO：将 DINO 检测器与 grounded pretraining + 细粒度多模态融合结合，在大规模数据集训练后实现开集检测
YOLO-World：用 YOLO 框架做 grounded pretraining

这些方法在自然图像上效果好，但直接部署到航空图像效果差（domain gap）。

2.2 航空目标检测

航空目标检测随遥感数据增长和需求（环境监测、城市规划、灾害响应）推动快速发展。

传统方法：基于预定义类别的闭集监督学习，在开放世界场景中受限 → 催生 OVAOD（开放词汇航空目标检测），无需大量标注即可识别新类别

OVAOD 代表性工作：

CastDet：在 student-teacher 框架中集成 CLIP 知识蒸馏，增强伪标签生成
OVA-DETR：图像-文本对齐 + Transformer 架构，高效可扩展，在 DIOR 上开集评测（大规模数据训练后直接测，无 fine-tune）mAP 表现优异
LAE-DINO：通过大规模 LAE-1M 数据集和跨模态对齐弥合域差距

DisDop 首次系统利用遥感基础模型（RemoteCLIP、DINOv3）做蒸馏，而非仅基于自然图像模型生成伪标签

3. Method

3.1 总览

基础检测器：LAE detector
学生骨干：Swin Transformer Tiny（随机初始化）
教师模型：RemoteCLIP-ViT-L/14 + DINOv3-ViT-L/16

3.2 视觉先验蒸馏

核心问题: RemoteCLIP（cross-modal alignment 强但局部弱）+ DINOv3（细粒度局部特征好但无文本对齐），两个能力不在同一个模型里。

教师融合（Self-Similarity Calibration）:

动机：RemoteCLIP 跨模态对齐强但局部特征弱，DINOv3 局部结构好但无文本对齐——两个能力不在同一个模型里，需要融合。

核心思路：用 DINOv3 的空间自相似性来"校准" RemoteCLIP 的特征——让属于同一物体的 patch 在 RemoteCLIP 空间中也更一致。

关键区分：

S 矩阵只用 DINOv3 特征算：S = cos(F_DINO_i, F_DINO_j)，RemoteCLIP 特征不参与 S 的计算
RemoteCLIP 特征是被校准的对象：F_teacher = A · F_CLIP，A 来自 S（经异常过滤后），F_CLIP 是被聚合的目标
论文没给具体特征层数和空间尺寸。两个模型 patch size 不同（RemoteCLIP /14，DINOv3 /16），需插值对齐空间维度（蒸馏部分原文："through channel transformation and interpolation"）

步骤（举例说明）：

假设输入一张机场图，对齐后共 N 个 patch，其中 p1、p2 是跑道，p3、p4 是飞机，p5、p6 是草地

计算 DINOv3 自相似矩阵 S（N×N）：S_ij = cos(F_DINO_i, F_DINO_j)
- DINOv3 对"哪些 patch 属于同一物体"判断很准
- S[p1,p2]≈1（两块跑道很像），S[p3,p4]≈1，S[p1,p5]≈0（跑道和草地不像）
语义自适应异常检测：对每个 patch i，用 S 找语义邻域 N_i = {j | S_ij > γ_lof=0.8}，然后在 N_i 内用 LOF 检测 RemoteCLIP 特征中的异常
- 为什么 LOF 在 CLIP 特征上做而不是 DINO 特征上做？ S 矩阵已经定义了"谁应该是一家人"（DINOv3 的判断），LOF 的目的是检查"一家人内部 CLIP 特征是否一致"。
- 比如 p3(飞机) 的语义邻域 N_3 = {p3, p4, p7, p8}（DINOv3 的 S 矩阵认为它们互相之间都很相似，S > 0.8，属于同一物体或语义相近区域）
- 在 N_3 内，对 CLIP 特征做 LOF：LOF 的原理是计算每个点的局部密度，然后和邻居的局部密度做比值。如果某个点 j 的局部密度远低于其邻居（即 j 在 CLIP 特征空间中是孤立点），LOF(j) >> 1，判为异常，标记 M[p3,j]=1。比如 p3/p7/p8 的 CLIP 特征互相距离近（密度高），p4 的 CLIP 特征远离它们（密度低）→ p4 是异常。LOF 不跟文本比较，纯粹看 CLIP 特征空间中的局部密度比值。论文没指定距离度量
- 过滤的是：在聚合 CLIP 特征时，不让异常 patch 的 CLIP 特征参与聚合。比如 p3 要聚合其他 patch 的 CLIP 特征时，p4 被排除
加权聚合：用 S 和 M 计算注意力权重 A，再对 CLIP 特征做加权平均
```
A_ij = exp(S_ij/τ) / Σ_k exp(S_ik/τ)  如果 S_ij > γ 且 M_ij=0，否则为 0
F_teacher = A · F_CLIP    # 聚合的是 CLIP 特征，A 由 S（相关性）+ M（异常过滤）共同决定
```
1
2
这就是 softmax，把相似度转成权重（加和为 1）。exp 是 softmax 的标准写法。举例（τ=1）：
- 对 p1(跑道)：p2(跑道) S=0.9 且 M=0 → 通过；p7(跑道) S=0.85 且 M=0 → 通过；p3(飞机) S=0.3 < γ → 第一关挂了；p4 M=1 → 第二关挂了
- 只有 p2、p7 参与：A[p1,p2] = exp(0.9)/(exp(0.9)+exp(0.85)) ≈ 0.51，A[p1,p7] ≈ 0.49
- F_teacher[p1] = 0.51 × F_CLIP[p2] + 0.49 × F_CLIP[p7] → p1 的融合特征是两个"家人"的 CLIP 特征加权平均

一句话总结：DINOv3 的 S 矩阵告诉模型"哪些 patch 是一家人"，然后用这个结构让 RemoteCLIP 特征在"一家人"内部更一致（intra-object consistency），同时过滤掉语义不一致的噪声 patch

为什么最终聚合的是 CLIP 特征而不是 DINO 特征？ 整个检测器的核心需求是跨模态对齐——检测时要用 visual feature 和 text embedding 匹配才能识别任意类别，这个能力只有 CLIP 有，DINO 没有。如果 F_teacher = A · F_DINO，得到的是空间结构一致但无文本对齐的特征，无法做开放词汇检测。F_teacher = A · F_CLIP 则保留 CLIP 的跨模态对齐（"是什么"），同时用 DINO 的结构让同一物体内的 CLIP 特征更一致（"一家人内部对齐"）

蒸馏到学生骨干:

维度对齐：CLIP ViT-L hidden dim=1024，Swin-T 最后一层 hidden dim=768，空间尺寸也可能不同。论文原文："align the student model features to the teacher model features through channel transformation and interpolation"——通道映射用线性层，空间对齐用插值，具体细节论文未给
Cosine similarity loss: L_cosine = 1/N · Σ(1 - (f_teacher · f_student) / (||f_teacher||·||f_student||))
Attention distillation loss: L_attn = KL(P_teacher || P_student)
- P_teacher = softmax(F_teacher·F_teacher^T / τ_t)，τ_t=0.1；
- P_student = softmax(F_student·F_student^T / τ_s)，τ_s=1.0
- F·F^T 是 N×N 自相似矩阵，每行做 softmax 就是"patch i 应该关注哪些 patch"的概率分布
- τ_t=0.1（教师）→ 分布很尖锐，只关注最相似的 patch；τ_s=1.0（学生）→ 分布更平滑，容易学习
- 举例：相似度 [0.9, 0.5, 0.1]，τ=1.0 → softmax=[0.42, 0.33, 0.25]；τ=0.1 → softmax=[0.98, 0.02, 0.00]
- 为什么加这个：教师特征存在 homogenization（不同位置特征太相似，cosine loss 区分不出来），但低温度 softmax 后的注意力分布能很好反映语义结构，KL 蒸馏比直接对齐特征更有效
总 loss: L_backbone = λ_cosine·L_cosine + λ_attn·L_attn

3.3 文本和上下文先验蒸馏

背景：要让模型识别未见类别，需要从 RemoteCLIP 文本编码器蒸馏类别间的语义关系。但简单的逐实例对齐（baseline L_KD）有两个问题：

Baseline（L_KD）：

L_KD = 1/N · Σ ||f_c^i - f_v^i||²

f_c^i：模型输出的第 i 个 ROI（检测框）的类别特征（DINO 检测器中来自 decoder query，非 RoIAlign）
f_v^i：把第 i 个框对应的图像区域 crop 出来，送进 RemoteCLIP 编码得到的 visual feature（不是在 feature map 上做 RoIAlign）。论文原文 "Cropped regions from extremely small bounding boxes (e.g., 2×2 pixels)" 印证了这一点
问题 1：小目标的 f_v 质量差——极小的 bbox（如 2×2 像素）crop 出来给 CLIP 编码，特征几乎没用
问题 2：丢失类别间语义拓扑——每个实例独立对齐，不考虑类别之间的关系。可能导致"桥"和"船"的特征距离比"桥"和"风车"还远，开集分类就废了

改进：Relational Distillation + Context Enhancement：

L_distill = 1/N² · Σ_i Σ_j (|f_c^i - f_eh^j|_cos - |t^i - t^j|_cos)²

两个关键设计：

1. Context Enhancement（解决小目标问题）：

f_eh^j = LN(μ · f_g^j + (1-μ) · f_v^j)

f_v^j：ROI crop 的局部 CLIP 特征（小目标质量差）
f_g^j：整张图的 CLIP 全局特征（包含场景上下文，如道路、建筑、跑道）
μ ∈ [0,1]：可学习参数，动态平衡局部和全局
举例：一个 2×2 像素的小车，f_v 质量很差，但 f_g 包含了周围的道路和房屋信息 → 融合后 f_eh 有了场景线索，更容易判断"这应该是车"

2. Relational Consistency（解决语义拓扑问题）：

t^i、t^j：RemoteCLIP 文本编码器对第 i、j 个实例类别名的文本嵌入
|t^i - t^j|_cos：文本空间中两个类别的余弦距离（语义关系）
|f_c^i - f_eh^j|_cos：视觉空间中两个实例特征的余弦距离（f_c^i 是检测器特征，f_eh^j 是 CLIP 的增强特征）
loss 迫使视觉空间中的距离结构 = 文本空间中的距离结构

举例：一个 batch 中有 4 个实例——i1(桥)、i2(船)、i3(风车)、i4(桥)

文本空间：|t_桥 - t_船|_cos = 0.3（语义近），|t_桥 - t_风车|_cos = 0.8（语义远）
loss 迫使：|f_c_桥 - f_eh_船|_cos ≈ 0.3，|f_c_桥 - f_eh_风车|_cos ≈ 0.8
效果：视觉特征空间保持了文本空间的语义拓扑——"桥"和"船"靠得近，"桥"和"风车"离得远

3. 跨 batch 蒸馏：不在单张图内做关系蒸馏（一张图类别太少，监督稀疏），而是在整个 mini-batch 上做。一张航拍图可能只有 2-3 种目标，但一个 batch 的多张图加起来可能有 10+ 种类别，提供更密集的语义关系监督

上下文先验蒸馏:

小目标仅靠局部特征难以识别（Figure 3 例子：车在路边 vs 运动场间的干扰物）
用 cross-attention 聚合全局场景线索增强局部特征
全局上下文编码场景信息（道路、建筑、跑道等）辅助判断

3.4 训练

两阶段:

Stage I（backbone only）: 在 LAE-1M（无标签）上蒸馏视觉先验到 Swin-Tiny backbone，teacher 冻结。需加载 RemoteCLIP + DINOv3。15k iterations，batch size 8，AdamW，8× A100。Swin-T 随机初始化（论文原文 "random initialized"）。LAE-1M 约 201k 张图（LAE-FOD ~135k + LAE-COD ~65.8k），15k×8=120k 张 → 约 0.6 epoch，训练很轻量，只需做初始化级别的蒸馏
Stage II（full detector）: 在标注 LAE-1M 上训练完整检测器（检测 loss + 文本/上下文蒸馏 loss）。DINOv3 不再需要，但 RemoteCLIP 仍需要（文本/上下文蒸馏依赖其 visual feature 和 text embedding）。沿用 LAE 的训练配置

4. Experiments

4.1 实验设置

数据集: DIOR, DOTAv2.0, LAE-80C
评估: AP50 (DIOR), mAP (DOTAv2.0/LAE-80C)
Teacher: DINOv3-ViT-L/16 + RemoteCLIP-ViT-L/14
Student backbone: Swin-Tiny
8× A100 GPU

4.2 开放集检测结果

方法	训练数据	DIOR AP50	DOTAv2.0 mAP	LAE-80C mAP
GLIP + DVC	LAE-1M	82.8	43.0	16.5
GroundingDINO + DVC	LAE-1M	83.6	46.0	17.7
LAE-DINO	LAE-1M	85.5	46.8	20.2
DisDop	LAE-1M	87.2	47.5	22.5

4.3 封闭集检测结果

方法	Backbone	预训练	DIOR AP50	DOTAv2.0 mAP
Scale-MAE	ViT-L	FMoW	73.8	—
SatLas	Swin-B	SatlasPretrain	—	52.2
GLIP-FT	Swin-T	LAE-1M	88.9	51.5
GroundingDINO-FT	Swin-T	LAE-1M	91.1	55.1
LAE-DINO-FT	Swin-T	LAE-1M	92.2	57.9
DisDop-FT	Swin-T	LAE-1M	92.6	58.6

封闭集 = 在 benchmark 训练集上 fine-tune 后测（-FT 后缀）。DisDop-FT 比开集 DisDop 高 +5.4（DIOR）/ +11.1（DOTAv2.0）。用更小的 backbone（Swin-T vs ViT-L/Swin-B）达到可比或更优的封闭集性能。

4.4 消融实验

组件消融（2×2 设计，VPD = 视觉蒸馏，TCPD = 文本+上下文蒸馏）： || VPD | TCPD | DIOR AP50 | DOTAv2.0 mAP | LAE-80C mAP | ||---|---|---|---|---| || | | 85.5 | 46.8 | 20.2 | || ✓ | | 86.6 | 47.2 | 21.5 | || | ✓ | 86.2 | 47.1 | 20.9 | || ✓ | ✓ | 87.2 | 47.5 | 22.5 |

baseline：LAE-DINO，无蒸馏
✓ VPD：Stage I 蒸馏 backbone → Stage II 正常检测训练（backbone 参与微调，不是冻住的）
✓ TCPD：无 Stage I，直接从 baseline 出发，Stage II 加 L_distill loss（文本+上下文蒸馏）
✓ VPD + ✓ TCPD：完整 DisDop（两阶段 + 文本/上下文蒸馏）

分析：VPD 的 +1.1 AP50 主要来自更好的 backbone 初始化——Stage I 用蒸馏给随机初始化的 Swin-T 注入了 RemoteCLIP+DINOv3 的知识，Stage II 从更好的起点开始训练。TCPD（无 Stage I，只改训练 loss）也带来 +0.7 AP50，说明不换初始化、只加蒸馏 loss 也有用。两者叠加 (+1.7) 接近各自单独增益之和 (1.1+0.7=1.8)，说明两个组件基本独立互补

教师融合策略消融:

策略	DIOR AP50	DOTAv2.0 mAP	LAE-80C mAP
w/o outlier filtering	86.6	47.1	21.3
Global LOF	86.7	46.9	21.0
Semantic-Adaptive LOF	87.2	47.5	22.5

Relational Distillation 范围:

Class-wise（逐类别蒸馏）< Category-wise（类别间关系蒸馏）< All-pair（全对关系蒸馏）

5. Conclusion

DisDop 首次系统蒸馏遥感基础模型的域先验（视觉+文本+上下文）到轻量检测器
自相似性校准 + 语义自适应异常检测实现高效的教师特征融合
Relational Distillation 比离散文本嵌入更有效
SOTA 在 DIOR/DOTAv2.0/LAE-80C

个人评价

核心价值: OVAOD 方向的一个扎实工作，思路清晰——不是从零训大模型，而是从已有遥感基础模型蒸馏到小模型。语义自适应异常检测是方法亮点。

可借鉴点:

DINOv3 自相似矩阵校准 RemoteCLIP 特征：用无监督的细粒度结构增强 VLM 的语义特征
Semantic-Adaptive LOF：基于局部语义而非全局判断异常，适合遥感复杂场景
两阶段蒸馏：先蒸馏 backbone，再训完整检测器，减少计算开销

对比 FGD: FGD 是检测蒸馏的经典工作，但只做特征级蒸馏。DisDop 做了更系统化的多级蒸馏（视觉+文本+上下文），且面向 OVD 场景。

局限性: 依赖 LAE-1M 数据集（含标注），不是完全无需标注的方案。

疑问解答 (Q&A)

Q1: DisDop 和直接 finetune RemoteCLIP 或 DINOv3 的区别？

答: DisDop 不是 finetune 遥感基础模型，而是蒸馏它们到小模型。RemoteCLIP 和 DINOv3 都是 ViT-L（~300M 参数），推理太重；蒸馏到 Swin-Tiny（~28M）后可在边缘端部署。

Q2: 笔记中写的「基础检测器：LAE detector」到底是什么检测器？

答: LAE = Locate Anything on Earth（Liu et al., arXiv:2408.09110），航空 OVD 开创性工作。LAE 检测器（LAE-DINO）架构：

Backbone: Swin Transformer Tiny
检测头: DINO（DETR 类，DAB-DETR + denoising training + contrastive denoising）
核心模块: Dynamic Vocabulary Construction (DVC) + Visual-Guided Text Prompt Learning (VisGT)

DisDop building upon LAE 的意思是：保留 LAE-DINO 的检测头架构，只替换 backbone 为蒸馏后的 Swin-T，并附加蒸馏 loss。本质 = LAE-DINO 检测头 + 蒸馏 backbone。

Q3: 为什么选 Swin-Tiny 做学生 backbone？

答: Swin-Tiny 在轻量级中对航空图像的多尺度特征表达能力好（层级式金字塔结构），且 LAE baseline 就是用 Swin-Tiny，保持对比一致性。

Q4: 语义自适应异常检测的实际作用？

答: 消融显示 Semantic-Adaptive LOF 比 Global LOF 在 DIOR 上高 +0.5 AP50，在 LAE-80C 上高 +1.5 mAP。遥感图像场景复杂，局部不同区域（城市 vs 农田）的"正常"特征不同，全局判断容易误判。

Q5: 为什么不直接用 DINOv3 特征蒸馏，而要先校准 CLIP 再蒸馏？

答: 直接用 DINOv3 特征蒸馏对闭集检测可能有效，但对开集检测没用。开集检测的核心机制是 visual feature 和 text embedding 做匹配——DINOv3 没有 text encoder，特征空间和文本空间没有对齐，无法算"DINOv3 特征"和"汽车"文本嵌入的相似度来做分类。所以必须用 CLIP 特征作为最终聚合目标（保留跨模态对齐），再用 DINO 的结构校准 CLIP 特征（增强同一物体内部一致性），两者缺一不可。

DisDop: Distillation with Domain Priors for Open-Vocabulary Aerial Object Detection ​

前置工作 ​

前置概念 ​

摘要 ​

1. Introduction ​

2. Related Work ​

2.1 开放词汇检测 ​

2.2 航空目标检测 ​

3. Method ​

3.1 总览 ​

3.2 视觉先验蒸馏 ​

3.3 文本和上下文先验蒸馏 ​

3.4 训练 ​

4. Experiments ​

4.1 实验设置 ​

4.2 开放集检测结果 ​

4.3 封闭集检测结果 ​

4.4 消融实验 ​

5. Conclusion ​

个人评价 ​

疑问解答 (Q&A) ​

Q1: DisDop 和直接 finetune RemoteCLIP 或 DINOv3 的区别？ ​

Q2: 笔记中写的「基础检测器：LAE detector」到底是什么检测器？ ​

Q3: 为什么选 Swin-Tiny 做学生 backbone？ ​

Q4: 语义自适应异常检测的实际作用？ ​

Q5: 为什么不直接用 DINOv3 特征蒸馏，而要先校准 CLIP 再蒸馏？ ​