低空遥感视觉-语言基础模型:研究思路
专题调研:2026-06-04 | 研究方向梳理
1. 问题定位
1.1 现状:低空遥感 VL 基础模型是空白
| 维度 | 卫星遥感 | 低空无人机遥感 |
|---|---|---|
| CLIP 范式 VL 模型 | RemoteCLIP(2023,612 引用) | 无 |
| MLLM | GeoChat、SkyEyeGPT 等 | UAVIT-1M(2026,instruction tuning) |
| 大规模数据 | RemoteCLIP 165k 图文对 | UAVIT-1M 789k 图(但无 CLIP 格式预训练数据) |
| OVD 数据 | LAE-1M(~1600 类) | 无专门数据 |
核心缺口:目前仍没有专门的低空遥感 CLIP 范式视觉-语言基础模型。
1.2 为什么需要单独做(而非复用卫星遥感模型)
RemoteCLIP 的卫星图与无人机图混合训练已暴露问题(RemoteCLIP 笔记):
- 同名目标视觉特征冲突:卫星图中 car 是小白点,无人机图中有清晰形状;B2C caption 都写"有 car",但图像信号矛盾
- 观测角度根本不同:卫星近正射(90°),无人机倾斜/低角度(30°-70°),几何变形导致视觉特征分布不同
- RemoteCLIP 评估全在卫星图上,无法判断无人机数据对无人机下游任务是否有帮助
- 小目标问题更严重:无人机图目标更小更密(10-30px),CLIP 224×224 输入下信息严重丢失
结论:专门针对低空域训练可消解同名目标视觉特征冲突,且低空遥感是独立大场景(巡检、配送、安防、农业),不是卫星遥感的附属。
1.3 与 UAVIT-1M 的区别
UAVIT-1M 走 MLLM instruction tuning 路线,与本文目标不同:
| 维度 | UAVIT-1M(MLLM 路线) | 本文(CLIP/GLIP 路线) |
|---|---|---|
| 目标 | 多模态推理/对话 | 视觉-语言表征对齐 |
| 训练方式 | Instruction tuning(对齐层+LoRA) | 对比预训练(更新视觉/文本编码器) |
| 视觉编码器 | CLIP ViT 冻结 | 训练,适应低空视角 |
| 输出 | 自然语言回答 | 图像/文本 embedding |
| 下游应用 | VQA/captioning | zero-shot 分类/检索/OVD 文本编码器 |
| 关键差异 | 不改变视觉编码器表征能力 | 直接优化视觉-语言对齐 |
互补性:本文模型训练后可替换 UAVIT-1M 中冻结的 CLIP 视觉编码器,提升 MLLM 的低空感知能力。
2. 数据:构建策略
2.1 数据来源
UAVIT-1M 已整合 21 个无人机数据集共 789k 图像,数据量远超 RemoteCLIP 的 165k,不再是瓶颈。按标注类型分类:
| 标注类型 | 数量 | 数据集举例 | 可用性 |
|---|---|---|---|
| 检测框(OD,15 个) | 最多 | VisDrone、AU-AIR、DroneVehicle、UAVDT、HazyDet | 直接用于 region-text 配对或 B2C |
| 分割掩码(SS,10 个) | 较多 | UAVid、AeroScapes | M2B 转框 → region-text 或 B2C |
| 跟踪框(OT 10 个 + MOT 2 个) | 较多 | UAV123、WebUAV-3M | 可用框 → region-text 或 B2C |
| 无框标注(ER/VC/AR/NLG/REC/ITR) | 少量 | — | 仅 image-level caption,需另行处理 |
关键数据集规模参考(UAV 数据集对比):
- VisDrone:10,209 图,10 类,~2.5M 框(最核心)
- DroneVehicle:17,990 图,5 类车辆(密集)
- UAVDT:~80k 帧,3 类车辆
- AU-AIR:32,627 图,8 类
数据集磁盘空间估算:
| 项目 | 估算大小 | 说明 |
|---|---|---|
| 21 个源数据集原始下载 | ~150-250 GB | 含视频帧、多模态数据等冗余 |
| 去重后仅保留 train/val 图像+标注 | ~80-120 GB | 去掉 test 集、视频冗余帧 |
核心大数据集(已确认下载大小):
| 数据集 | 图像数 | 下载大小 | 备注 |
|---|---|---|---|
| VisDrone(DET+VID+SOT+MOT) | ~270k | ~50-60 GB | VID/MOT/SOT 为视频帧,体积最大 |
| UAVDT | ~78k | ~13 GB | |
| DroneVehicle(RGB+IR) | ~28k 对 | ~8 GB | 双模态,若只用 RGB 可减半 |
| AU-AIR | ~33k | ~5 GB | |
| 其余 17 个数据集 | ~380k | ~70-120 GB | 大部分为跟踪/分割数据集 |
渐进式下载建议:先下载 VisDrone-DET(1.5 GB)+ UAVDT(13 GB)+ DroneVehicle(8 GB)+ AU-AIR(~5 GB),约 30 GB 即可跑通流程验证,再逐步扩展
2.2 数据统一策略
方案 A:B2C 路线(RemoteCLIP 式)
沿用 RemoteCLIP 的 B2C(Box-to-Caption)+ M2B(Mask-to-Box)策略:
检测框 → B2C → 图文对(image-level caption)
分割掩码 → M2B → 检测框 → B2C → 图文对
跟踪框 → B2C → 图文对
无框数据 → 原始 caption / LLM 生成 caption优点:直接复用 RemoteCLIP 成熟方案,工程风险低 缺点:
- Image-level 对齐,小目标信息在 caption 中被"稀释"
- 模板化 caption 质量有限
- CLIP 224×224 输入硬限制,小目标缩放后不可辨识
方案 B:Region-Text 路线(GLIP 式)
检测框 → (region, 类别名) 配对 → region-text 对齐
分割掩码 → M2B → (region, 类别名) 配对
跟踪框 → (region, 类别名) 配对
无框数据 → 单独处理(image-caption 或忽略)优点:
- 直接解决小目标对齐问题——每个框独立与类别文本对齐,不受全局 caption "稀释"
- 同时解决"数据统一"和"小目标对齐"两个问题
- 不需要 B2C 模板生成,直接用检测框+类别名 缺点:
- 工程复杂度更高,需修改 CLIP 架构
- 需要 X-VLM/GLIP 式的区域-文本对齐训练框架
方案 C:混合路线
同时训练 image-level 和 region-level 对齐:
有框数据 → region-text 对齐(主损失)
全部数据 → image-caption 对齐(辅助损失)优点:兼顾全局语义和局部定位,数据利用率最高 缺点:训练复杂度最大,需平衡两个损失
2.3 防数据泄漏
- 训练/测试划分参考 UAVBench 的做法:只用各源数据集的 train/val set,test set 留给评测
- p-Hash 去重(RemoteCLIP 的做法):检测训练集与评测集之间的近似重复图像
3. 技术路线:两步走策略
整体思路:兵分两路,先完全对标 RemoteCLIP 做一个低空版本(工作一),再升级到 GLIP 路线做 region-level 对齐(工作二)。两步递进,工作一为工作二提供数据验证和 baseline。
工作一:DroneCLIP(对标 RemoteCLIP,image-level 对齐)
└→ 工作二:DroneGLIP(超越 RemoteCLIP,region-level 对齐)3.1 工作一:DroneCLIP(对标 RemoteCLIP)
定位:首个低空遥感 CLIP 范式 VL 基础模型,完全对标 RemoteCLIP 的方法论,但限定在纯低空域。
核心方法:
- 架构:与 RemoteCLIP 完全一致——CLIP ViT 图像编码器 + Transformer 文本编码器 + InfoNCE 损失
- 数据统一:B2C(Box-to-Caption)+ M2B(Mask-to-Box),沿用 RemoteCLIP 的标注统一策略
- 训练:从 OpenAI CLIP 预训练权重初始化,在纯低空数据上继续预训练
- 输入策略:分层实验(见下),架构不变仍是 224×224 CLIP
输入分辨率策略:
RemoteCLIP 的 224×224 整图 resize 是已知硬伤——无人机图目标缩放后仅 1-3px,视觉编码器看不到。DroneCLIP 分三层递进实验:
| 方案 | 做法 | 目的 | 代价 |
|---|---|---|---|
| A. 整图 224×224(基线) | 原图 resize 到 224(与 RemoteCLIP 一致) | 公平对比 | 小目标丢失 |
| B. 切图 224×224(改进) | 以标注框为中心裁 224×224 patch,B2C 描述 patch 内目标 | 保留目标原始分辨率,架构不变 | 数据量膨胀 2-4M patch;B2C 需改为描述 patch 而非整图 |
| C. 高分辨率微调(探索) | 先 224 训练,再 336/448 微调(ViT 位置编码插值) | 进一步提升 | 计算量增加;破坏与 RemoteCLIP 的公平对比 |
切图策略(方案 B)细节:
- 对每个标注框,以其为中心裁 224×224 patch(框较大时扩大裁剪范围)
- 落在 patch 内的其他框也保留,B2C 只描述 patch 内可见目标
- 每张原图生成多个 patch-caption 对,训练数据从 789k 图 → ~2-4M patch
- 架构完全不变,仍是标准 CLIP 224 输入,是数据策略创新而非架构改动
- 预期消融梯度:整图 224 < 切图 224 < 高分辨率
与 RemoteCLIP 的关键差异:
| 维度 | RemoteCLIP | DroneCLIP(本工作) |
|---|---|---|
| 训练数据 | 卫星+无人机混合(165k) | 纯低空无人机(789k) |
| 数据规模 | ~165k 图文对 | ~789k 图(B2C 后预计 ~800k+ 图文对) |
| 域冲突 | 卫星图与无人机图视觉特征矛盾 | 无域冲突 |
| 评测重点 | 卫星图分类/检索 | 低空图分类/检索/计数 |
| 创新点 | B2C/M2B 数据工程 | 纯低空域训练消解视觉特征冲突 |
故事线:
RemoteCLIP 混合卫星与无人机数据训练,存在同名目标视觉特征冲突,且评估全在卫星图上,无法证明对低空任务的价值。本工作用纯低空数据训练 CLIP,证明:(1) 纯低空域训练优于混合训练 (2) 低空遥感需要独立基础模型 (3) 为后续 region-level 升级提供 image-level baseline。
架构设计:
| 组件 | 选择 | 说明 |
|---|---|---|
| 图像编码器 | CLIP ViT-B/32 (87M) / ViT-L/14 (304M) | 与 RemoteCLIP 对齐,支持公平对比 |
| 文本编码器 | 12 层 Transformer | 与 OpenAI CLIP 文本编码器结构一致 |
| 损失函数 | InfoNCE | 标准 CLIP 对比损失 |
| 图像预处理 | 整图 224 / 切图 224 / 高分辨率微调(分层实验) | RemoteCLIP 仅整图 224;切图策略是本工作创新 |
| 初始化 | OpenAI CLIP 预训练权重 | 与 RemoteCLIP 一致 |
创新点:
- 首个纯低空遥感 CLIP 范式 VL 基础模型
- 纯低空域训练消解视觉特征冲突:核心消融——纯低空 vs 卫星+低空混合
- 数据规模优势:789k 图 vs RemoteCLIP 的 165k,且全部为低空数据
- 切图训练策略:以标注框为中心裁 patch 训练,保留小目标原始分辨率,架构不变
风险:
- 创新性偏弱——方法论与 RemoteCLIP 高度相似,主要是数据域切换
- image-level 对齐的小目标问题部分缓解(切图策略),但根本上仍不如 region-level 对齐(工作二)
- 论文定位需强调"纯低空域训练"的必要性和验证价值
评测设计:
| 评测维度 | 数据集 | 指标 | 说明 |
|---|---|---|---|
| Zero-shot 分类 | UAVBench-cls / 自建 | Acc | 低空场景分类能力 |
| 图文检索 | 自建(参考 UAVBench caption 子集) | Recall@K / Mean Recall | 低空图文对齐质量 |
| 目标计数 | 自建 DroneCount(参考 RemoteCount) | Acc | 数量理解能力 |
| Few-shot 分类 | VisDrone / UAVBench | Acc | 少样本泛化 |
核心消融:
- 纯低空 vs 卫星+低空混合:最关键的实验——用 RemoteCLIP 相同架构,对比纯低空数据和混合数据
- 输入策略:整图 224 / 切图 224 / 高分辨率 336/448(预期梯度:整图 < 切图 < 高分辨率)
- 数据构成:OD only / OD+SS / OD+SS+OT / 全部数据
- 数据规模:10% / 30% / 50% / 100% 数据量曲线
- 初始化:CLIP 预训练 vs 随机初始化
- 图像增强:旋转 / 超分辨率 / 无增强
3.2 工作二:DroneGLIP(超越 RemoteCLIP)
定位:从 image-level 升级到 region-level 对齐,解决低空遥感小目标检测的根本问题。
核心方法:
- 架构:GLIP/Grounding DINO 式深度融合架构
- 数据统一:检测框直接用于 region-text 配对,无需 B2C
- 训练:region-text 对齐损失(主)+ image-caption 对齐损失(辅)
- 输入:高分辨率(512×512 / 640×640 / 切图 1024×1024)
相对工作一的升级:
| 维度 | 工作一 DroneCLIP | 工作二 DroneGLIP |
|---|---|---|
| 对齐粒度 | Image-level | Region-level |
| 小目标处理 | 224×224 下小目标信息丢失 | 高分辨率 + region 对齐 |
| 数据利用 | B2C 生成 caption(间接) | 检测框直接配对(直接) |
| 下游任务 | 分类/检索强,检测弱 | 检测/grounding 显著提升 |
| 架构 | CLIP(双编码器) | 深度融合检测器 |
| 创新性 | 域切换(中等) | 范式升级(强) |
架构设计:
基础架构选择:
| 选项 | 架构 | 优点 | 缺点 |
|---|---|---|---|
| GLIP 式 | Swin Transformer + BERT 深融合 | 区域对齐成熟,精度高 | 推理慢,部署难 |
| Grounding DINO 式 | DINO 检测器 + 三阶段融合 | 当前 OVD 主流,精度最高 | 同上 |
| YOLO-World 式 | YOLO + RepVL-PAN | 推理快(52 FPS),部署友好 | 区域对齐不如深度耦合方案 |
| VLDet 式 | CLIP 骨干 + 多层级对比 | 架构简洁,无需伪标签 | CLIP 单尺度骨干限制 |
推荐:以 GLIP/Grounding DINO 深度融合架构为主,探索 YOLO-World 轻量变体。
高分辨率输入策略:
| 策略 | 说明 | 代价 |
|---|---|---|
| 直接增大输入 | 如 512×512 或 1024×1024 | 计算量 4-16×,显存暴增 |
| 切图训练 | 大图切 patch 分别编码,特征拼接 | 需处理跨 patch 目标;推理需滑窗 |
| 高分辨率微调 | 先 224 预训练,再高分辨率微调 | 推理仍需高分辨率,速度慢 |
| 级联架构 | 低分辨率全局 + 高分辨率局部 | 架构复杂 |
| FlashAttention + 梯度检查点 | 显存优化,允许更大输入 | 训练速度下降 |
推荐:切图训练(切图大小 1024×1024,步长 512)+ 高分辨率微调(如 640×640),配合 FlashAttention 降低显存。
视觉编码器选择:
| 编码器 | 参数量 | 优势 | 备注 |
|---|---|---|---|
| CLIP ViT-L/14 | 304M | 语义对齐强,CLIP 预训练 | 局部特征弱(DisDop 已验证) |
| DINOv3 ViT-L | 300M | 局部/密集特征极强,RoPE 支持可变分辨率 | 需 dino.txt 额外对齐文本;746 引用 |
| EVA-CLIP ViT-L | 304M | 语义+局部兼顾 | MLLM 常用 |
| Swin-L | 88M | 多尺度特征,天然适配检测 | 非 CLIP 预训练 |
CLIP ViT-L vs DINOv3 ViT-L 详细对比(DINOv3 论文:arXiv 2508.10104,2025-08):
| 维度 | CLIP ViT-L/14 | DINOv3 ViT-L |
|---|---|---|
| 训练方式 | 弱监督(图文对比,需图文对) | 自监督(DINO+iBOT,无需文本) |
| 训练数据 | 400M 图文对(WIT) | ~1B 图像(LVD-1B+IN,自动策展) |
| 位置编码 | 学习式绝对位置编码 | Axial RoPE(旋转位置编码,原生支持可变分辨率) |
| 特色模块 | 无 | Register tokens + Gram anchoring(密集特征正则化) |
| 全局特征 | 强(原生语义对齐) | 可比肩(dino.txt 对齐后 IN1k 82.3 vs CLIP 76.6) |
| 局部/密集特征 | 弱(ADE20k seg 6.0 mIoU) | 极强(ADE20k seg 24.7 mIoU,COCO det 66.1 mAP) |
| 文本对齐 | 原生支持 | 需额外训练 dino.txt(dense 对齐远超 CLIP) |
| 分辨率支持 | 固定 224(插值到 336/448 非原生) | 原生多分辨率(RoPE 天然外推,对无人机高分辨率友好) |
| 模型家族 | ViT-B/L | ViT-S/S+/B/L/H+/7B + ConvNeXt-T/S/B/L |
推荐:DINOv3 ViT-L + dino.txt 文本对齐(单编码器方案)
理由:
- DINOv3 兼具强语义(dino.txt 对齐后 IN1k 82.3)和极强密集特征(ADE20k 24.7 vs CLIP 6.0),无需双编码器
- RoPE 原生支持可变分辨率,天然适配无人机高分辨率输入
- 架构简洁,训练/推理效率高,避免双编码器融合的工程复杂度
预训练策略:
阶段 1:低空域适应预训练
- 目标:将通用 CLIP 适配到低空无人机视角
- 数据:全部 789k 图
- 方法:
- Region-text 对齐损失(主损失):每个检测框与类别文本对齐
- Image-caption 对齐损失(辅助损失):B2C 生成 caption 或原始 caption
- 从 CLIP 预训练权重初始化,继续预训练
- 关键改进:相比工作一的 image-level InfoNCE,本阶段的核心升级是 region-level 对齐
阶段 2:下游任务微调(可选)
- Zero-shot 评测不需微调
- 若需适配特定数据集(如 VisDrone),可做检测微调
创新点:
- Region-text 对齐解决小目标问题:从 image-level(工作一/RemoteCLIP)升级到 region-level
- DINOv3 单编码器替代 CLIP:DINOv3 兼具强语义和极强密集特征 + RoPE 原生高分辨率,无需双编码器
- 高分辨率切图训练:适配无人机大分辨率图像,保留小目标信息
- 统一标注框架:OD 框 + SS 掩码(M2B)+ OT 框 → 统一 region-text 格式
故事线:
工作一证明了纯低空域训练的必要性,但 image-level 对齐无法解决小目标问题。本工作从 CLIP 升级到 GLIP 范式,通过 region-text 对齐直接优化区域级视觉-语言对齐,同时引入 DINOv3 替代 CLIP 作为视觉编码器(密集特征更强 + RoPE 原生高分辨率),实现低空遥感 VL 基础模型从"有没有"到"好不好"的升级。
风险:
- GLIP 架构在低空域效果不确定——但工作一已验证数据价值
- 高分辨率训练显存不足——FlashAttention、梯度检查点、DeepSpeed ZeRO
- 检测框标注质量不均——质量过滤、置信度加权
评测设计:
| 评测维度 | 数据集 | 指标 | 说明 |
|---|---|---|---|
| Zero-shot 检测 | VisDrone-det(novel 类) | AP@0.5 | 开放集检测能力 |
| Region-level 对齐 | UAVBench-grounding | Acc/IoU | 局部对齐质量 |
| 图文检索 | 同工作一 | Recall@K | 与工作一对比 |
| Zero-shot 分类 | 同工作一 | Acc | 验证 region-level 对 image-level 任务的保持/提升 |
核心消融:
- 对齐方式:image-level only(工作一) / region-level only / 混合
- 输入分辨率:224 / 384 / 512 / 640
- 视觉编码器:CLIP / DINOv3 / EVA-CLIP
- 切图 vs 整图:训练策略对比
- 从工作一初始化 vs 从 CLIP 初始化:验证工作一的预训练价值
对比基线(工作一 + 工作二共用):
| 方法 | 类型 | 工作一对比 | 工作二对比 |
|---|---|---|---|
| CLIP ViT-L/14 | 通用基础模型 | ✅ | ✅ |
| RemoteCLIP ViT-L/14 | 卫星遥感基础模型 | ✅ 核心对比 | ✅ |
| Grounding DINO | 通用 OVD | — | ✅ |
| YOLO-World | 轻量 OVD | — | ✅ |
| LAE-DINO | 遥感 OVD | — | ✅ |
| DisDop | 域先验蒸馏 | — | ✅ |
| DroneCLIP(工作一) | 低空 CLIP | — | ✅ 工作一作为 baseline |
4. 创新点凝练
4.1 工作一创新
- 首个纯低空遥感 CLIP 范式 VL 基础模型:填补空白
- 纯低空域训练消解视觉特征冲突:证明独立训练优于混合训练,低空遥感不是卫星遥感的附属
- 数据规模优势:789k 低空图 vs RemoteCLIP 的 165k 混合图
4.2 工作二创新
- Region-text 对齐解决小目标问题:从 image-level(工作一/RemoteCLIP)升级到 region-level,直接适配低空遥感小目标密集的特点
- DINOv3 单编码器替代 CLIP:密集特征极强 + RoPE 原生高分辨率 + dino.txt 文本对齐,无需双编码器融合
- 高分辨率切图训练:适配无人机大分辨率图像,保留小目标信息
- 统一标注框架:OD 框 + SS 掩码(M2B)+ OT 框 → 统一 region-text 格式,最大化数据利用
4.3 整体故事线
工作一证明低空遥感需要独立基础模型(纯低空 > 混合训练),工作二证明低空遥感需要 region-level 对齐(GLIP > CLIP)。两步递进:RemoteCLIP 解决遥感 VL "有没有" → 工作一解决低空遥感 VL "该不该独立" → 工作二解决低空遥感 VL "好不好"。
5. 风险与挑战
5.1 工作一风险
| 风险 | 说明 | 应对 |
|---|---|---|
| image-level 固有局限 | 小目标问题未解决,检测任务不强 | 明确定位为分类/检索基础模型,检测留给工作二 |
| 评测基准缺乏 | 低空遥感无统一 zero-shot 分类/检索 benchmark | 自建 DroneCount + 复用 UAVBench 子集 |
5.2 工作二风险
| 风险 | 说明 | 应对 |
|---|---|---|
| GLIP 架构在低空域效果不确定 | GLIP 在自然图像上有效,但低空域差距大 | 工作一已验证数据价值,降低试错风险 |
| 检测框标注质量不均 | 21 个数据集标注标准和质量参差 | 质量过滤、置信度加权、p-Hash 去重 |
| 切图训练跨 patch 目标丢失 | 大目标被切图截断 | 边界重叠 + 跨 patch NMS/合并策略 |
5.3 工程挑战
- 数据整合工作量:21 个数据集格式统一、去重、划分——UAVIT-1M 已做了部分工作,可参考
- 训练成本:
- 工作一(DroneCLIP):4-8×A100,整图模式约半天,切图模式约 1-2 天
- 工作二(DroneGLIP):8×A100,高分辨率 + 复杂架构,约 3-7 天
6. 工作计划
Phase 1:数据准备(2-3 周,两工作共用)
- [ ] 整合 21 个无人机数据集,统一格式
- [ ] B2C 生成 caption(工作一用)+ 检测框提取(工作二用)
- [ ] p-Hash 去重,训练/测试划分
- [ ] 建立评测基准(zero-shot 分类/检索/计数/检测)
Phase 2:工作一 DroneCLIP(3-4 周)
- [ ] B2C 生成 caption,RemoteCLIP 式训练
- [ ] 在低空评测集上评估,与 RemoteCLIP/CLIP 对比
- [ ] 核心消融:纯低空 vs 卫星+低空混合
- [ ] 数据构成/规模/增强消融
- [ ] 工作一论文撰写与投稿
Phase 3:工作二 DroneGLIP(4-6 周)
- [ ] 实现 region-text 对齐训练框架
- [ ] 高分辨率/切图训练适配
- [ ] 视觉编码器对比实验(CLIP / DINOv3 / EVA-CLIP)
- [ ] 消融实验(含从工作一初始化 vs 从 CLIP 初始化)
- [ ] 工作二论文撰写与投稿
总计:约 3-4 个月(工作一可提前投稿)
7. 相关工作索引
| 论文 | 年份 | 笔记 | 与本文关系 |
|---|---|---|---|
| RemoteCLIP | 2023 | 笔记 | 直接前驱,image-level 对齐基线 |
| GLIP | 2022 | — | Region-text 对齐范式来源 |
| Grounding DINO | 2023 | 笔记 | 深度融合架构参考 |
| YOLO-World | 2024 | 笔记 | 轻量 OVD + region-text 对比预训练参考 |
| VLDet | 2026 | 笔记 | CLIP 多层级对比损失参考 |
| CastDet | 2023 | 笔记 | 首个航空 OVD |
| LAE-DINO | 2024 | 笔记 | 大规模遥感检测数据+DVC |
| DisDop | 2026 | 笔记 | 当前低空 OVD SOTA,双编码器蒸馏思路 |
| UAVBench | 2026 | 笔记 | 低空 VL benchmark + UAVIT-1M 数据源 |
| Falcon Perception | 2026 | 笔记 | Early-fusion dense transformer 参考 |
| DINOv3 | 2025 | arXiv 2508.10104 | 视觉编码器候选,密集特征极强+RoPE 原生高分辨率 |
