Skip to content

低空遥感视觉-语言基础模型:研究思路

专题调研:2026-06-04 | 研究方向梳理


1. 问题定位

1.1 现状:低空遥感 VL 基础模型是空白

维度卫星遥感低空无人机遥感
CLIP 范式 VL 模型RemoteCLIP(2023,612 引用)
MLLMGeoChat、SkyEyeGPT 等UAVIT-1M(2026,instruction tuning)
大规模数据RemoteCLIP 165k 图文对UAVIT-1M 789k 图(但无 CLIP 格式预训练数据)
OVD 数据LAE-1M(~1600 类)无专门数据

核心缺口:目前仍没有专门的低空遥感 CLIP 范式视觉-语言基础模型。

1.2 为什么需要单独做(而非复用卫星遥感模型)

RemoteCLIP 的卫星图与无人机图混合训练已暴露问题(RemoteCLIP 笔记):

  1. 同名目标视觉特征冲突:卫星图中 car 是小白点,无人机图中有清晰形状;B2C caption 都写"有 car",但图像信号矛盾
  2. 观测角度根本不同:卫星近正射(90°),无人机倾斜/低角度(30°-70°),几何变形导致视觉特征分布不同
  3. RemoteCLIP 评估全在卫星图上,无法判断无人机数据对无人机下游任务是否有帮助
  4. 小目标问题更严重:无人机图目标更小更密(10-30px),CLIP 224×224 输入下信息严重丢失

结论:专门针对低空域训练可消解同名目标视觉特征冲突,且低空遥感是独立大场景(巡检、配送、安防、农业),不是卫星遥感的附属。

1.3 与 UAVIT-1M 的区别

UAVIT-1M 走 MLLM instruction tuning 路线,与本文目标不同:

维度UAVIT-1M(MLLM 路线)本文(CLIP/GLIP 路线)
目标多模态推理/对话视觉-语言表征对齐
训练方式Instruction tuning(对齐层+LoRA)对比预训练(更新视觉/文本编码器)
视觉编码器CLIP ViT 冻结训练,适应低空视角
输出自然语言回答图像/文本 embedding
下游应用VQA/captioningzero-shot 分类/检索/OVD 文本编码器
关键差异不改变视觉编码器表征能力直接优化视觉-语言对齐

互补性:本文模型训练后可替换 UAVIT-1M 中冻结的 CLIP 视觉编码器,提升 MLLM 的低空感知能力。


2. 数据:构建策略

2.1 数据来源

UAVIT-1M 已整合 21 个无人机数据集共 789k 图像,数据量远超 RemoteCLIP 的 165k,不再是瓶颈。按标注类型分类:

标注类型数量数据集举例可用性
检测框(OD,15 个)最多VisDrone、AU-AIR、DroneVehicle、UAVDT、HazyDet直接用于 region-text 配对或 B2C
分割掩码(SS,10 个)较多UAVid、AeroScapesM2B 转框 → region-text 或 B2C
跟踪框(OT 10 个 + MOT 2 个)较多UAV123、WebUAV-3M可用框 → region-text 或 B2C
无框标注(ER/VC/AR/NLG/REC/ITR)少量仅 image-level caption,需另行处理

关键数据集规模参考UAV 数据集对比):

  • VisDrone:10,209 图,10 类,~2.5M 框(最核心)
  • DroneVehicle:17,990 图,5 类车辆(密集)
  • UAVDT:~80k 帧,3 类车辆
  • AU-AIR:32,627 图,8 类

数据集磁盘空间估算

项目估算大小说明
21 个源数据集原始下载~150-250 GB含视频帧、多模态数据等冗余
去重后仅保留 train/val 图像+标注~80-120 GB去掉 test 集、视频冗余帧

核心大数据集(已确认下载大小):

数据集图像数下载大小备注
VisDrone(DET+VID+SOT+MOT)~270k~50-60 GBVID/MOT/SOT 为视频帧,体积最大
UAVDT~78k~13 GB
DroneVehicle(RGB+IR)~28k 对~8 GB双模态,若只用 RGB 可减半
AU-AIR~33k~5 GB
其余 17 个数据集~380k~70-120 GB大部分为跟踪/分割数据集

渐进式下载建议:先下载 VisDrone-DET(1.5 GB)+ UAVDT(13 GB)+ DroneVehicle(8 GB)+ AU-AIR(~5 GB),约 30 GB 即可跑通流程验证,再逐步扩展

2.2 数据统一策略

方案 A:B2C 路线(RemoteCLIP 式)

沿用 RemoteCLIP 的 B2C(Box-to-Caption)+ M2B(Mask-to-Box)策略:

检测框 → B2C → 图文对(image-level caption)
分割掩码 → M2B → 检测框 → B2C → 图文对
跟踪框 → B2C → 图文对
无框数据 → 原始 caption / LLM 生成 caption

优点:直接复用 RemoteCLIP 成熟方案,工程风险低 缺点

  • Image-level 对齐,小目标信息在 caption 中被"稀释"
  • 模板化 caption 质量有限
  • CLIP 224×224 输入硬限制,小目标缩放后不可辨识

方案 B:Region-Text 路线(GLIP 式)

检测框 → (region, 类别名) 配对 → region-text 对齐
分割掩码 → M2B → (region, 类别名) 配对
跟踪框 → (region, 类别名) 配对
无框数据 → 单独处理(image-caption 或忽略)

优点

  • 直接解决小目标对齐问题——每个框独立与类别文本对齐,不受全局 caption "稀释"
  • 同时解决"数据统一"和"小目标对齐"两个问题
  • 不需要 B2C 模板生成,直接用检测框+类别名 缺点
  • 工程复杂度更高,需修改 CLIP 架构
  • 需要 X-VLM/GLIP 式的区域-文本对齐训练框架

方案 C:混合路线

同时训练 image-level 和 region-level 对齐:

有框数据 → region-text 对齐(主损失)
全部数据 → image-caption 对齐(辅助损失)

优点:兼顾全局语义和局部定位,数据利用率最高 缺点:训练复杂度最大,需平衡两个损失

2.3 防数据泄漏

  • 训练/测试划分参考 UAVBench 的做法:只用各源数据集的 train/val set,test set 留给评测
  • p-Hash 去重(RemoteCLIP 的做法):检测训练集与评测集之间的近似重复图像

3. 技术路线:两步走策略

整体思路:兵分两路,先完全对标 RemoteCLIP 做一个低空版本(工作一),再升级到 GLIP 路线做 region-level 对齐(工作二)。两步递进,工作一为工作二提供数据验证和 baseline。

工作一:DroneCLIP(对标 RemoteCLIP,image-level 对齐)
  └→ 工作二:DroneGLIP(超越 RemoteCLIP,region-level 对齐)

3.1 工作一:DroneCLIP(对标 RemoteCLIP)

定位:首个低空遥感 CLIP 范式 VL 基础模型,完全对标 RemoteCLIP 的方法论,但限定在纯低空域。

核心方法

  • 架构:与 RemoteCLIP 完全一致——CLIP ViT 图像编码器 + Transformer 文本编码器 + InfoNCE 损失
  • 数据统一:B2C(Box-to-Caption)+ M2B(Mask-to-Box),沿用 RemoteCLIP 的标注统一策略
  • 训练:从 OpenAI CLIP 预训练权重初始化,在纯低空数据上继续预训练
  • 输入策略:分层实验(见下),架构不变仍是 224×224 CLIP

输入分辨率策略

RemoteCLIP 的 224×224 整图 resize 是已知硬伤——无人机图目标缩放后仅 1-3px,视觉编码器看不到。DroneCLIP 分三层递进实验:

方案做法目的代价
A. 整图 224×224(基线)原图 resize 到 224(与 RemoteCLIP 一致)公平对比小目标丢失
B. 切图 224×224(改进)以标注框为中心裁 224×224 patch,B2C 描述 patch 内目标保留目标原始分辨率,架构不变数据量膨胀 2-4M patch;B2C 需改为描述 patch 而非整图
C. 高分辨率微调(探索)先 224 训练,再 336/448 微调(ViT 位置编码插值)进一步提升计算量增加;破坏与 RemoteCLIP 的公平对比

切图策略(方案 B)细节

  • 对每个标注框,以其为中心裁 224×224 patch(框较大时扩大裁剪范围)
  • 落在 patch 内的其他框也保留,B2C 只描述 patch 内可见目标
  • 每张原图生成多个 patch-caption 对,训练数据从 789k 图 → ~2-4M patch
  • 架构完全不变,仍是标准 CLIP 224 输入,是数据策略创新而非架构改动
  • 预期消融梯度:整图 224 < 切图 224 < 高分辨率

与 RemoteCLIP 的关键差异

维度RemoteCLIPDroneCLIP(本工作)
训练数据卫星+无人机混合(165k)纯低空无人机(789k)
数据规模~165k 图文对~789k 图(B2C 后预计 ~800k+ 图文对)
域冲突卫星图与无人机图视觉特征矛盾无域冲突
评测重点卫星图分类/检索低空图分类/检索/计数
创新点B2C/M2B 数据工程纯低空域训练消解视觉特征冲突

故事线

RemoteCLIP 混合卫星与无人机数据训练,存在同名目标视觉特征冲突,且评估全在卫星图上,无法证明对低空任务的价值。本工作用纯低空数据训练 CLIP,证明:(1) 纯低空域训练优于混合训练 (2) 低空遥感需要独立基础模型 (3) 为后续 region-level 升级提供 image-level baseline。

架构设计

组件选择说明
图像编码器CLIP ViT-B/32 (87M) / ViT-L/14 (304M)与 RemoteCLIP 对齐,支持公平对比
文本编码器12 层 Transformer与 OpenAI CLIP 文本编码器结构一致
损失函数InfoNCE标准 CLIP 对比损失
图像预处理整图 224 / 切图 224 / 高分辨率微调(分层实验)RemoteCLIP 仅整图 224;切图策略是本工作创新
初始化OpenAI CLIP 预训练权重与 RemoteCLIP 一致

创新点

  1. 首个纯低空遥感 CLIP 范式 VL 基础模型
  2. 纯低空域训练消解视觉特征冲突:核心消融——纯低空 vs 卫星+低空混合
  3. 数据规模优势:789k 图 vs RemoteCLIP 的 165k,且全部为低空数据
  4. 切图训练策略:以标注框为中心裁 patch 训练,保留小目标原始分辨率,架构不变

风险

  • 创新性偏弱——方法论与 RemoteCLIP 高度相似,主要是数据域切换
  • image-level 对齐的小目标问题部分缓解(切图策略),但根本上仍不如 region-level 对齐(工作二)
  • 论文定位需强调"纯低空域训练"的必要性和验证价值

评测设计

评测维度数据集指标说明
Zero-shot 分类UAVBench-cls / 自建Acc低空场景分类能力
图文检索自建(参考 UAVBench caption 子集)Recall@K / Mean Recall低空图文对齐质量
目标计数自建 DroneCount(参考 RemoteCount)Acc数量理解能力
Few-shot 分类VisDrone / UAVBenchAcc少样本泛化

核心消融

  1. 纯低空 vs 卫星+低空混合:最关键的实验——用 RemoteCLIP 相同架构,对比纯低空数据和混合数据
  2. 输入策略:整图 224 / 切图 224 / 高分辨率 336/448(预期梯度:整图 < 切图 < 高分辨率)
  3. 数据构成:OD only / OD+SS / OD+SS+OT / 全部数据
  4. 数据规模:10% / 30% / 50% / 100% 数据量曲线
  5. 初始化:CLIP 预训练 vs 随机初始化
  6. 图像增强:旋转 / 超分辨率 / 无增强

3.2 工作二:DroneGLIP(超越 RemoteCLIP)

定位:从 image-level 升级到 region-level 对齐,解决低空遥感小目标检测的根本问题。

核心方法

  • 架构:GLIP/Grounding DINO 式深度融合架构
  • 数据统一:检测框直接用于 region-text 配对,无需 B2C
  • 训练:region-text 对齐损失(主)+ image-caption 对齐损失(辅)
  • 输入:高分辨率(512×512 / 640×640 / 切图 1024×1024)

相对工作一的升级

维度工作一 DroneCLIP工作二 DroneGLIP
对齐粒度Image-levelRegion-level
小目标处理224×224 下小目标信息丢失高分辨率 + region 对齐
数据利用B2C 生成 caption(间接)检测框直接配对(直接)
下游任务分类/检索强,检测弱检测/grounding 显著提升
架构CLIP(双编码器)深度融合检测器
创新性域切换(中等)范式升级(强)

架构设计

基础架构选择:

选项架构优点缺点
GLIP 式Swin Transformer + BERT 深融合区域对齐成熟,精度高推理慢,部署难
Grounding DINO 式DINO 检测器 + 三阶段融合当前 OVD 主流,精度最高同上
YOLO-World 式YOLO + RepVL-PAN推理快(52 FPS),部署友好区域对齐不如深度耦合方案
VLDet 式CLIP 骨干 + 多层级对比架构简洁,无需伪标签CLIP 单尺度骨干限制

推荐:以 GLIP/Grounding DINO 深度融合架构为主,探索 YOLO-World 轻量变体。

高分辨率输入策略:

策略说明代价
直接增大输入如 512×512 或 1024×1024计算量 4-16×,显存暴增
切图训练大图切 patch 分别编码,特征拼接需处理跨 patch 目标;推理需滑窗
高分辨率微调先 224 预训练,再高分辨率微调推理仍需高分辨率,速度慢
级联架构低分辨率全局 + 高分辨率局部架构复杂
FlashAttention + 梯度检查点显存优化,允许更大输入训练速度下降

推荐:切图训练(切图大小 1024×1024,步长 512)+ 高分辨率微调(如 640×640),配合 FlashAttention 降低显存。

视觉编码器选择:

编码器参数量优势备注
CLIP ViT-L/14304M语义对齐强,CLIP 预训练局部特征弱(DisDop 已验证)
DINOv3 ViT-L300M局部/密集特征极强,RoPE 支持可变分辨率需 dino.txt 额外对齐文本;746 引用
EVA-CLIP ViT-L304M语义+局部兼顾MLLM 常用
Swin-L88M多尺度特征,天然适配检测非 CLIP 预训练

CLIP ViT-L vs DINOv3 ViT-L 详细对比(DINOv3 论文:arXiv 2508.10104,2025-08):

维度CLIP ViT-L/14DINOv3 ViT-L
训练方式弱监督(图文对比,需图文对)自监督(DINO+iBOT,无需文本)
训练数据400M 图文对(WIT)~1B 图像(LVD-1B+IN,自动策展)
位置编码学习式绝对位置编码Axial RoPE(旋转位置编码,原生支持可变分辨率)
特色模块Register tokens + Gram anchoring(密集特征正则化)
全局特征强(原生语义对齐)可比肩(dino.txt 对齐后 IN1k 82.3 vs CLIP 76.6)
局部/密集特征弱(ADE20k seg 6.0 mIoU)极强(ADE20k seg 24.7 mIoU,COCO det 66.1 mAP)
文本对齐原生支持需额外训练 dino.txt(dense 对齐远超 CLIP)
分辨率支持固定 224(插值到 336/448 非原生)原生多分辨率(RoPE 天然外推,对无人机高分辨率友好)
模型家族ViT-B/LViT-S/S+/B/L/H+/7B + ConvNeXt-T/S/B/L

推荐:DINOv3 ViT-L + dino.txt 文本对齐(单编码器方案)

理由:

  • DINOv3 兼具强语义(dino.txt 对齐后 IN1k 82.3)和极强密集特征(ADE20k 24.7 vs CLIP 6.0),无需双编码器
  • RoPE 原生支持可变分辨率,天然适配无人机高分辨率输入
  • 架构简洁,训练/推理效率高,避免双编码器融合的工程复杂度

预训练策略

  • 阶段 1:低空域适应预训练

    • 目标:将通用 CLIP 适配到低空无人机视角
    • 数据:全部 789k 图
    • 方法
      • Region-text 对齐损失(主损失):每个检测框与类别文本对齐
      • Image-caption 对齐损失(辅助损失):B2C 生成 caption 或原始 caption
      • 从 CLIP 预训练权重初始化,继续预训练
    • 关键改进:相比工作一的 image-level InfoNCE,本阶段的核心升级是 region-level 对齐
  • 阶段 2:下游任务微调(可选)

    • Zero-shot 评测不需微调
    • 若需适配特定数据集(如 VisDrone),可做检测微调

创新点

  1. Region-text 对齐解决小目标问题:从 image-level(工作一/RemoteCLIP)升级到 region-level
  2. DINOv3 单编码器替代 CLIP:DINOv3 兼具强语义和极强密集特征 + RoPE 原生高分辨率,无需双编码器
  3. 高分辨率切图训练:适配无人机大分辨率图像,保留小目标信息
  4. 统一标注框架:OD 框 + SS 掩码(M2B)+ OT 框 → 统一 region-text 格式

故事线

工作一证明了纯低空域训练的必要性,但 image-level 对齐无法解决小目标问题。本工作从 CLIP 升级到 GLIP 范式,通过 region-text 对齐直接优化区域级视觉-语言对齐,同时引入 DINOv3 替代 CLIP 作为视觉编码器(密集特征更强 + RoPE 原生高分辨率),实现低空遥感 VL 基础模型从"有没有"到"好不好"的升级。

风险

  • GLIP 架构在低空域效果不确定——但工作一已验证数据价值
  • 高分辨率训练显存不足——FlashAttention、梯度检查点、DeepSpeed ZeRO
  • 检测框标注质量不均——质量过滤、置信度加权

评测设计

评测维度数据集指标说明
Zero-shot 检测VisDrone-det(novel 类)AP@0.5开放集检测能力
Region-level 对齐UAVBench-groundingAcc/IoU局部对齐质量
图文检索同工作一Recall@K与工作一对比
Zero-shot 分类同工作一Acc验证 region-level 对 image-level 任务的保持/提升

核心消融

  1. 对齐方式:image-level only(工作一) / region-level only / 混合
  2. 输入分辨率:224 / 384 / 512 / 640
  3. 视觉编码器:CLIP / DINOv3 / EVA-CLIP
  4. 切图 vs 整图:训练策略对比
  5. 从工作一初始化 vs 从 CLIP 初始化:验证工作一的预训练价值

对比基线(工作一 + 工作二共用):

方法类型工作一对比工作二对比
CLIP ViT-L/14通用基础模型
RemoteCLIP ViT-L/14卫星遥感基础模型✅ 核心对比
Grounding DINO通用 OVD
YOLO-World轻量 OVD
LAE-DINO遥感 OVD
DisDop域先验蒸馏
DroneCLIP(工作一)低空 CLIP✅ 工作一作为 baseline

4. 创新点凝练

4.1 工作一创新

  1. 首个纯低空遥感 CLIP 范式 VL 基础模型:填补空白
  2. 纯低空域训练消解视觉特征冲突:证明独立训练优于混合训练,低空遥感不是卫星遥感的附属
  3. 数据规模优势:789k 低空图 vs RemoteCLIP 的 165k 混合图

4.2 工作二创新

  1. Region-text 对齐解决小目标问题:从 image-level(工作一/RemoteCLIP)升级到 region-level,直接适配低空遥感小目标密集的特点
  2. DINOv3 单编码器替代 CLIP:密集特征极强 + RoPE 原生高分辨率 + dino.txt 文本对齐,无需双编码器融合
  3. 高分辨率切图训练:适配无人机大分辨率图像,保留小目标信息
  4. 统一标注框架:OD 框 + SS 掩码(M2B)+ OT 框 → 统一 region-text 格式,最大化数据利用

4.3 整体故事线

工作一证明低空遥感需要独立基础模型(纯低空 > 混合训练),工作二证明低空遥感需要 region-level 对齐(GLIP > CLIP)。两步递进:RemoteCLIP 解决遥感 VL "有没有" → 工作一解决低空遥感 VL "该不该独立" → 工作二解决低空遥感 VL "好不好"。


5. 风险与挑战

5.1 工作一风险

风险说明应对
image-level 固有局限小目标问题未解决,检测任务不强明确定位为分类/检索基础模型,检测留给工作二
评测基准缺乏低空遥感无统一 zero-shot 分类/检索 benchmark自建 DroneCount + 复用 UAVBench 子集

5.2 工作二风险

风险说明应对
GLIP 架构在低空域效果不确定GLIP 在自然图像上有效,但低空域差距大工作一已验证数据价值,降低试错风险
检测框标注质量不均21 个数据集标注标准和质量参差质量过滤、置信度加权、p-Hash 去重
切图训练跨 patch 目标丢失大目标被切图截断边界重叠 + 跨 patch NMS/合并策略

5.3 工程挑战

  • 数据整合工作量:21 个数据集格式统一、去重、划分——UAVIT-1M 已做了部分工作,可参考
  • 训练成本
    • 工作一(DroneCLIP):4-8×A100,整图模式约半天,切图模式约 1-2 天
    • 工作二(DroneGLIP):8×A100,高分辨率 + 复杂架构,约 3-7 天

6. 工作计划

Phase 1:数据准备(2-3 周,两工作共用)

  • [ ] 整合 21 个无人机数据集,统一格式
  • [ ] B2C 生成 caption(工作一用)+ 检测框提取(工作二用)
  • [ ] p-Hash 去重,训练/测试划分
  • [ ] 建立评测基准(zero-shot 分类/检索/计数/检测)

Phase 2:工作一 DroneCLIP(3-4 周)

  • [ ] B2C 生成 caption,RemoteCLIP 式训练
  • [ ] 在低空评测集上评估,与 RemoteCLIP/CLIP 对比
  • [ ] 核心消融:纯低空 vs 卫星+低空混合
  • [ ] 数据构成/规模/增强消融
  • [ ] 工作一论文撰写与投稿

Phase 3:工作二 DroneGLIP(4-6 周)

  • [ ] 实现 region-text 对齐训练框架
  • [ ] 高分辨率/切图训练适配
  • [ ] 视觉编码器对比实验(CLIP / DINOv3 / EVA-CLIP)
  • [ ] 消融实验(含从工作一初始化 vs 从 CLIP 初始化)
  • [ ] 工作二论文撰写与投稿

总计:约 3-4 个月(工作一可提前投稿)


7. 相关工作索引

论文年份笔记与本文关系
RemoteCLIP2023笔记直接前驱,image-level 对齐基线
GLIP2022Region-text 对齐范式来源
Grounding DINO2023笔记深度融合架构参考
YOLO-World2024笔记轻量 OVD + region-text 对比预训练参考
VLDet2026笔记CLIP 多层级对比损失参考
CastDet2023笔记首个航空 OVD
LAE-DINO2024笔记大规模遥感检测数据+DVC
DisDop2026笔记当前低空 OVD SOTA,双编码器蒸馏思路
UAVBench2026笔记低空 VL benchmark + UAVIT-1M 数据源
Falcon Perception2026笔记Early-fusion dense transformer 参考
DINOv32025arXiv 2508.10104视觉编码器候选,密集特征极强+RoPE 原生高分辨率