低空遥感视觉-语言基础模型：研究思路

专题调研：2026-06-04 | 研究方向梳理

1. 问题定位

1.1 现状：低空遥感 VL 基础模型是空白

维度	卫星遥感	低空无人机遥感
CLIP 范式 VL 模型	RemoteCLIP（2023，612 引用）	无
MLLM	GeoChat、SkyEyeGPT 等	UAVIT-1M（2026，instruction tuning）
大规模数据	RemoteCLIP 165k 图文对	UAVIT-1M 789k 图（但无 CLIP 格式预训练数据）
OVD 数据	LAE-1M（~1600 类）	无专门数据

核心缺口：目前仍没有专门的低空遥感 CLIP 范式视觉-语言基础模型。

1.2 为什么需要单独做（而非复用卫星遥感模型）

RemoteCLIP 的卫星图与无人机图混合训练已暴露问题（RemoteCLIP 笔记）：

同名目标视觉特征冲突：卫星图中 car 是小白点，无人机图中有清晰形状；B2C caption 都写"有 car"，但图像信号矛盾
观测角度根本不同：卫星近正射（90°），无人机倾斜/低角度（30°-70°），几何变形导致视觉特征分布不同
RemoteCLIP 评估全在卫星图上，无法判断无人机数据对无人机下游任务是否有帮助
小目标问题更严重：无人机图目标更小更密（10-30px），CLIP 224×224 输入下信息严重丢失

结论：专门针对低空域训练可消解同名目标视觉特征冲突，且低空遥感是独立大场景（巡检、配送、安防、农业），不是卫星遥感的附属。

1.3 与 UAVIT-1M 的区别

UAVIT-1M 走 MLLM instruction tuning 路线，与本文目标不同：

维度	UAVIT-1M（MLLM 路线）	本文（CLIP/GLIP 路线）
目标	多模态推理/对话	视觉-语言表征对齐
训练方式	Instruction tuning（对齐层+LoRA）	对比预训练（更新视觉/文本编码器）
视觉编码器	CLIP ViT 冻结	训练，适应低空视角
输出	自然语言回答	图像/文本 embedding
下游应用	VQA/captioning	zero-shot 分类/检索/OVD 文本编码器
关键差异	不改变视觉编码器表征能力	直接优化视觉-语言对齐

互补性：本文模型训练后可替换 UAVIT-1M 中冻结的 CLIP 视觉编码器，提升 MLLM 的低空感知能力。

2. 数据：构建策略

2.1 数据来源

UAVIT-1M 已整合 21 个无人机数据集共 789k 图像，数据量远超 RemoteCLIP 的 165k，不再是瓶颈。按标注类型分类：

标注类型	数量	数据集举例	可用性
检测框（OD，15 个）	最多	VisDrone、AU-AIR、DroneVehicle、UAVDT、HazyDet	直接用于 region-text 配对或 B2C
分割掩码（SS，10 个）	较多	UAVid、AeroScapes	M2B 转框 → region-text 或 B2C
跟踪框（OT 10 个 + MOT 2 个）	较多	UAV123、WebUAV-3M	可用框 → region-text 或 B2C
无框标注（ER/VC/AR/NLG/REC/ITR）	少量	—	仅 image-level caption，需另行处理

关键数据集规模参考（UAV 数据集对比）：

VisDrone：10,209 图，10 类，~2.5M 框（最核心）
DroneVehicle：17,990 图，5 类车辆（密集）
UAVDT：~80k 帧，3 类车辆
AU-AIR：32,627 图，8 类

数据集磁盘空间估算：

项目	估算大小	说明
21 个源数据集原始下载	~150-250 GB	含视频帧、多模态数据等冗余
去重后仅保留 train/val 图像+标注	~80-120 GB	去掉 test 集、视频冗余帧

核心大数据集（已确认下载大小）：

数据集	图像数	下载大小	备注
VisDrone（DET+VID+SOT+MOT）	~270k	~50-60 GB	VID/MOT/SOT 为视频帧，体积最大
UAVDT	~78k	~13 GB
DroneVehicle（RGB+IR）	~28k 对	~8 GB	双模态，若只用 RGB 可减半
AU-AIR	~33k	~5 GB
其余 17 个数据集	~380k	~70-120 GB	大部分为跟踪/分割数据集

渐进式下载建议：先下载 VisDrone-DET（1.5 GB）+ UAVDT（13 GB）+ DroneVehicle（8 GB）+ AU-AIR（~5 GB），约 30 GB 即可跑通流程验证，再逐步扩展

2.2 数据统一策略

方案 A：B2C 路线（RemoteCLIP 式）

沿用 RemoteCLIP 的 B2C（Box-to-Caption）+ M2B（Mask-to-Box）策略：

检测框 → B2C → 图文对（image-level caption）
分割掩码 → M2B → 检测框 → B2C → 图文对
跟踪框 → B2C → 图文对
无框数据 → 原始 caption / LLM 生成 caption

优点：直接复用 RemoteCLIP 成熟方案，工程风险低缺点：

Image-level 对齐，小目标信息在 caption 中被"稀释"
模板化 caption 质量有限
CLIP 224×224 输入硬限制，小目标缩放后不可辨识

方案 B：Region-Text 路线（GLIP 式）

检测框 → (region, 类别名) 配对 → region-text 对齐
分割掩码 → M2B → (region, 类别名) 配对
跟踪框 → (region, 类别名) 配对
无框数据 → 单独处理（image-caption 或忽略）

优点：

直接解决小目标对齐问题——每个框独立与类别文本对齐，不受全局 caption "稀释"
同时解决"数据统一"和"小目标对齐"两个问题
不需要 B2C 模板生成，直接用检测框+类别名缺点：
工程复杂度更高，需修改 CLIP 架构
需要 X-VLM/GLIP 式的区域-文本对齐训练框架

方案 C：混合路线

同时训练 image-level 和 region-level 对齐：

有框数据 → region-text 对齐（主损失）
全部数据 → image-caption 对齐（辅助损失）

优点：兼顾全局语义和局部定位，数据利用率最高缺点：训练复杂度最大，需平衡两个损失

2.3 防数据泄漏

训练/测试划分参考 UAVBench 的做法：只用各源数据集的 train/val set，test set 留给评测
p-Hash 去重（RemoteCLIP 的做法）：检测训练集与评测集之间的近似重复图像

3. 技术路线：两步走策略

整体思路：兵分两路，先完全对标 RemoteCLIP 做一个低空版本（工作一），再升级到 GLIP 路线做 region-level 对齐（工作二）。两步递进，工作一为工作二提供数据验证和 baseline。

工作一：DroneCLIP（对标 RemoteCLIP，image-level 对齐）
  └→ 工作二：DroneGLIP（超越 RemoteCLIP，region-level 对齐）

3.1 工作一：DroneCLIP（对标 RemoteCLIP）

定位：首个低空遥感 CLIP 范式 VL 基础模型，完全对标 RemoteCLIP 的方法论，但限定在纯低空域。

核心方法：

架构：与 RemoteCLIP 完全一致——CLIP ViT 图像编码器 + Transformer 文本编码器 + InfoNCE 损失
数据统一：B2C（Box-to-Caption）+ M2B（Mask-to-Box），沿用 RemoteCLIP 的标注统一策略
训练：从 OpenAI CLIP 预训练权重初始化，在纯低空数据上继续预训练
输入策略：分层实验（见下），架构不变仍是 224×224 CLIP

输入分辨率策略：

RemoteCLIP 的 224×224 整图 resize 是已知硬伤——无人机图目标缩放后仅 1-3px，视觉编码器看不到。DroneCLIP 分三层递进实验：

方案	做法	目的	代价
A. 整图 224×224（基线）	原图 resize 到 224（与 RemoteCLIP 一致）	公平对比	小目标丢失
B. 切图 224×224（改进）	以标注框为中心裁 224×224 patch，B2C 描述 patch 内目标	保留目标原始分辨率，架构不变	数据量膨胀 2-4M patch；B2C 需改为描述 patch 而非整图
C. 高分辨率微调（探索）	先 224 训练，再 336/448 微调（ViT 位置编码插值）	进一步提升	计算量增加；破坏与 RemoteCLIP 的公平对比

切图策略（方案 B）细节：

对每个标注框，以其为中心裁 224×224 patch（框较大时扩大裁剪范围）
落在 patch 内的其他框也保留，B2C 只描述 patch 内可见目标
每张原图生成多个 patch-caption 对，训练数据从 789k 图 → ~2-4M patch
架构完全不变，仍是标准 CLIP 224 输入，是数据策略创新而非架构改动
预期消融梯度：整图 224 < 切图 224 < 高分辨率

与 RemoteCLIP 的关键差异：

维度	RemoteCLIP	DroneCLIP（本工作）
训练数据	卫星+无人机混合（165k）	纯低空无人机（789k）
数据规模	~165k 图文对	~789k 图（B2C 后预计 ~800k+ 图文对）
域冲突	卫星图与无人机图视觉特征矛盾	无域冲突
评测重点	卫星图分类/检索	低空图分类/检索/计数
创新点	B2C/M2B 数据工程	纯低空域训练消解视觉特征冲突

故事线：

RemoteCLIP 混合卫星与无人机数据训练，存在同名目标视觉特征冲突，且评估全在卫星图上，无法证明对低空任务的价值。本工作用纯低空数据训练 CLIP，证明：(1) 纯低空域训练优于混合训练 (2) 低空遥感需要独立基础模型 (3) 为后续 region-level 升级提供 image-level baseline。

架构设计：

组件	选择	说明
图像编码器	CLIP ViT-B/32 (87M) / ViT-L/14 (304M)	与 RemoteCLIP 对齐，支持公平对比
文本编码器	12 层 Transformer	与 OpenAI CLIP 文本编码器结构一致
损失函数	InfoNCE	标准 CLIP 对比损失
图像预处理	整图 224 / 切图 224 / 高分辨率微调（分层实验）	RemoteCLIP 仅整图 224；切图策略是本工作创新
初始化	OpenAI CLIP 预训练权重	与 RemoteCLIP 一致

创新点：

首个纯低空遥感 CLIP 范式 VL 基础模型
纯低空域训练消解视觉特征冲突：核心消融——纯低空 vs 卫星+低空混合
数据规模优势：789k 图 vs RemoteCLIP 的 165k，且全部为低空数据
切图训练策略：以标注框为中心裁 patch 训练，保留小目标原始分辨率，架构不变

风险：

创新性偏弱——方法论与 RemoteCLIP 高度相似，主要是数据域切换
image-level 对齐的小目标问题部分缓解（切图策略），但根本上仍不如 region-level 对齐（工作二）
论文定位需强调"纯低空域训练"的必要性和验证价值

评测设计：

评测维度	数据集	指标	说明
Zero-shot 分类	UAVBench-cls / 自建	Acc	低空场景分类能力
图文检索	自建（参考 UAVBench caption 子集）	Recall@K / Mean Recall	低空图文对齐质量
目标计数	自建 DroneCount（参考 RemoteCount）	Acc	数量理解能力
Few-shot 分类	VisDrone / UAVBench	Acc	少样本泛化

核心消融：

纯低空 vs 卫星+低空混合：最关键的实验——用 RemoteCLIP 相同架构，对比纯低空数据和混合数据
输入策略：整图 224 / 切图 224 / 高分辨率 336/448（预期梯度：整图 < 切图 < 高分辨率）
数据构成：OD only / OD+SS / OD+SS+OT / 全部数据
数据规模：10% / 30% / 50% / 100% 数据量曲线
初始化：CLIP 预训练 vs 随机初始化
图像增强：旋转 / 超分辨率 / 无增强

3.2 工作二：DroneGLIP（超越 RemoteCLIP）

定位：从 image-level 升级到 region-level 对齐，解决低空遥感小目标检测的根本问题。

核心方法：

架构：GLIP/Grounding DINO 式深度融合架构
数据统一：检测框直接用于 region-text 配对，无需 B2C
训练：region-text 对齐损失（主）+ image-caption 对齐损失（辅）
输入：高分辨率（512×512 / 640×640 / 切图 1024×1024）

相对工作一的升级：

维度	工作一 DroneCLIP	工作二 DroneGLIP
对齐粒度	Image-level	Region-level
小目标处理	224×224 下小目标信息丢失	高分辨率 + region 对齐
数据利用	B2C 生成 caption（间接）	检测框直接配对（直接）
下游任务	分类/检索强，检测弱	检测/grounding 显著提升
架构	CLIP（双编码器）	深度融合检测器
创新性	域切换（中等）	范式升级（强）

架构设计：

基础架构选择：

选项	架构	优点	缺点
GLIP 式	Swin Transformer + BERT 深融合	区域对齐成熟，精度高	推理慢，部署难
Grounding DINO 式	DINO 检测器 + 三阶段融合	当前 OVD 主流，精度最高	同上
YOLO-World 式	YOLO + RepVL-PAN	推理快（52 FPS），部署友好	区域对齐不如深度耦合方案
VLDet 式	CLIP 骨干 + 多层级对比	架构简洁，无需伪标签	CLIP 单尺度骨干限制

推荐：以 GLIP/Grounding DINO 深度融合架构为主，探索 YOLO-World 轻量变体。

高分辨率输入策略：

策略	说明	代价
直接增大输入	如 512×512 或 1024×1024	计算量 4-16×，显存暴增
切图训练	大图切 patch 分别编码，特征拼接	需处理跨 patch 目标；推理需滑窗
高分辨率微调	先 224 预训练，再高分辨率微调	推理仍需高分辨率，速度慢
级联架构	低分辨率全局 + 高分辨率局部	架构复杂
FlashAttention + 梯度检查点	显存优化，允许更大输入	训练速度下降

推荐：切图训练（切图大小 1024×1024，步长 512）+ 高分辨率微调（如 640×640），配合 FlashAttention 降低显存。

视觉编码器选择：

编码器	参数量	优势	备注
CLIP ViT-L/14	304M	语义对齐强，CLIP 预训练	局部特征弱（DisDop 已验证）
DINOv3 ViT-L	300M	局部/密集特征极强，RoPE 支持可变分辨率	需 dino.txt 额外对齐文本；746 引用
EVA-CLIP ViT-L	304M	语义+局部兼顾	MLLM 常用
Swin-L	88M	多尺度特征，天然适配检测	非 CLIP 预训练

CLIP ViT-L vs DINOv3 ViT-L 详细对比（DINOv3 论文：arXiv 2508.10104，2025-08）：

维度	CLIP ViT-L/14	DINOv3 ViT-L
训练方式	弱监督（图文对比，需图文对）	自监督（DINO+iBOT，无需文本）
训练数据	400M 图文对（WIT）	~1B 图像（LVD-1B+IN，自动策展）
位置编码	学习式绝对位置编码	Axial RoPE（旋转位置编码，原生支持可变分辨率）
特色模块	无	Register tokens + Gram anchoring（密集特征正则化）
全局特征	强（原生语义对齐）	可比肩（dino.txt 对齐后 IN1k 82.3 vs CLIP 76.6）
局部/密集特征	弱（ADE20k seg 6.0 mIoU）	极强（ADE20k seg 24.7 mIoU，COCO det 66.1 mAP）
文本对齐	原生支持	需额外训练 dino.txt（dense 对齐远超 CLIP）
分辨率支持	固定 224（插值到 336/448 非原生）	原生多分辨率（RoPE 天然外推，对无人机高分辨率友好）
模型家族	ViT-B/L	ViT-S/S+/B/L/H+/7B + ConvNeXt-T/S/B/L

推荐：DINOv3 ViT-L + dino.txt 文本对齐（单编码器方案）

理由：

DINOv3 兼具强语义（dino.txt 对齐后 IN1k 82.3）和极强密集特征（ADE20k 24.7 vs CLIP 6.0），无需双编码器
RoPE 原生支持可变分辨率，天然适配无人机高分辨率输入
架构简洁，训练/推理效率高，避免双编码器融合的工程复杂度

预训练策略：

阶段 1：低空域适应预训练
- 目标：将通用 CLIP 适配到低空无人机视角
- 数据：全部 789k 图
- 方法：
  - Region-text 对齐损失（主损失）：每个检测框与类别文本对齐
  - Image-caption 对齐损失（辅助损失）：B2C 生成 caption 或原始 caption
  - 从 CLIP 预训练权重初始化，继续预训练
- 关键改进：相比工作一的 image-level InfoNCE，本阶段的核心升级是 region-level 对齐
阶段 2：下游任务微调（可选）
- Zero-shot 评测不需微调
- 若需适配特定数据集（如 VisDrone），可做检测微调

创新点：

Region-text 对齐解决小目标问题：从 image-level（工作一/RemoteCLIP）升级到 region-level
DINOv3 单编码器替代 CLIP：DINOv3 兼具强语义和极强密集特征 + RoPE 原生高分辨率，无需双编码器
高分辨率切图训练：适配无人机大分辨率图像，保留小目标信息
统一标注框架：OD 框 + SS 掩码（M2B）+ OT 框 → 统一 region-text 格式

故事线：

工作一证明了纯低空域训练的必要性，但 image-level 对齐无法解决小目标问题。本工作从 CLIP 升级到 GLIP 范式，通过 region-text 对齐直接优化区域级视觉-语言对齐，同时引入 DINOv3 替代 CLIP 作为视觉编码器（密集特征更强 + RoPE 原生高分辨率），实现低空遥感 VL 基础模型从"有没有"到"好不好"的升级。

风险：

GLIP 架构在低空域效果不确定——但工作一已验证数据价值
高分辨率训练显存不足——FlashAttention、梯度检查点、DeepSpeed ZeRO
检测框标注质量不均——质量过滤、置信度加权

评测设计：

评测维度	数据集	指标	说明
Zero-shot 检测	VisDrone-det（novel 类）	AP@0.5	开放集检测能力
Region-level 对齐	UAVBench-grounding	Acc/IoU	局部对齐质量
图文检索	同工作一	Recall@K	与工作一对比
Zero-shot 分类	同工作一	Acc	验证 region-level 对 image-level 任务的保持/提升

核心消融：

对齐方式：image-level only（工作一） / region-level only / 混合
输入分辨率：224 / 384 / 512 / 640
视觉编码器：CLIP / DINOv3 / EVA-CLIP
切图 vs 整图：训练策略对比
从工作一初始化 vs 从 CLIP 初始化：验证工作一的预训练价值

对比基线（工作一 + 工作二共用）：

方法	类型	工作一对比	工作二对比
CLIP ViT-L/14	通用基础模型	✅	✅
RemoteCLIP ViT-L/14	卫星遥感基础模型	✅ 核心对比	✅
Grounding DINO	通用 OVD	—	✅
YOLO-World	轻量 OVD	—	✅
LAE-DINO	遥感 OVD	—	✅
DisDop	域先验蒸馏	—	✅
DroneCLIP（工作一）	低空 CLIP	—	✅ 工作一作为 baseline

4. 创新点凝练

4.1 工作一创新

首个纯低空遥感 CLIP 范式 VL 基础模型：填补空白
纯低空域训练消解视觉特征冲突：证明独立训练优于混合训练，低空遥感不是卫星遥感的附属
数据规模优势：789k 低空图 vs RemoteCLIP 的 165k 混合图

4.2 工作二创新

Region-text 对齐解决小目标问题：从 image-level（工作一/RemoteCLIP）升级到 region-level，直接适配低空遥感小目标密集的特点
DINOv3 单编码器替代 CLIP：密集特征极强 + RoPE 原生高分辨率 + dino.txt 文本对齐，无需双编码器融合
高分辨率切图训练：适配无人机大分辨率图像，保留小目标信息
统一标注框架：OD 框 + SS 掩码（M2B）+ OT 框 → 统一 region-text 格式，最大化数据利用

4.3 整体故事线

工作一证明低空遥感需要独立基础模型（纯低空 > 混合训练），工作二证明低空遥感需要 region-level 对齐（GLIP > CLIP）。两步递进：RemoteCLIP 解决遥感 VL "有没有" → 工作一解决低空遥感 VL "该不该独立" → 工作二解决低空遥感 VL "好不好"。

5. 风险与挑战

5.1 工作一风险

风险	说明	应对
image-level 固有局限	小目标问题未解决，检测任务不强	明确定位为分类/检索基础模型，检测留给工作二
评测基准缺乏	低空遥感无统一 zero-shot 分类/检索 benchmark	自建 DroneCount + 复用 UAVBench 子集

5.2 工作二风险

风险	说明	应对
GLIP 架构在低空域效果不确定	GLIP 在自然图像上有效，但低空域差距大	工作一已验证数据价值，降低试错风险
检测框标注质量不均	21 个数据集标注标准和质量参差	质量过滤、置信度加权、p-Hash 去重
切图训练跨 patch 目标丢失	大目标被切图截断	边界重叠 + 跨 patch NMS/合并策略

5.3 工程挑战

数据整合工作量：21 个数据集格式统一、去重、划分——UAVIT-1M 已做了部分工作，可参考
训练成本：
- 工作一（DroneCLIP）：4-8×A100，整图模式约半天，切图模式约 1-2 天
- 工作二（DroneGLIP）：8×A100，高分辨率 + 复杂架构，约 3-7 天

6. 工作计划

Phase 1：数据准备（2-3 周，两工作共用）

[ ] 整合 21 个无人机数据集，统一格式
[ ] B2C 生成 caption（工作一用）+ 检测框提取（工作二用）
[ ] p-Hash 去重，训练/测试划分
[ ] 建立评测基准（zero-shot 分类/检索/计数/检测）

Phase 2：工作一 DroneCLIP（3-4 周）

[ ] B2C 生成 caption，RemoteCLIP 式训练
[ ] 在低空评测集上评估，与 RemoteCLIP/CLIP 对比
[ ] 核心消融：纯低空 vs 卫星+低空混合
[ ] 数据构成/规模/增强消融
[ ] 工作一论文撰写与投稿

Phase 3：工作二 DroneGLIP（4-6 周）

[ ] 实现 region-text 对齐训练框架
[ ] 高分辨率/切图训练适配
[ ] 视觉编码器对比实验（CLIP / DINOv3 / EVA-CLIP）
[ ] 消融实验（含从工作一初始化 vs 从 CLIP 初始化）
[ ] 工作二论文撰写与投稿

总计：约 3-4 个月（工作一可提前投稿）

7. 相关工作索引

论文	年份	笔记	与本文关系
RemoteCLIP	2023	笔记	直接前驱，image-level 对齐基线
GLIP	2022	—	Region-text 对齐范式来源
Grounding DINO	2023	笔记	深度融合架构参考
YOLO-World	2024	笔记	轻量 OVD + region-text 对比预训练参考
VLDet	2026	笔记	CLIP 多层级对比损失参考
CastDet	2023	笔记	首个航空 OVD
LAE-DINO	2024	笔记	大规模遥感检测数据+DVC
DisDop	2026	笔记	当前低空 OVD SOTA，双编码器蒸馏思路
UAVBench	2026	笔记	低空 VL benchmark + UAVIT-1M 数据源
Falcon Perception	2026	笔记	Early-fusion dense transformer 参考
DINOv3	2025	arXiv 2508.10104	视觉编码器候选，密集特征极强+RoPE 原生高分辨率

低空遥感视觉-语言基础模型：研究思路 ​

1. 问题定位 ​

1.1 现状：低空遥感 VL 基础模型是空白 ​

1.2 为什么需要单独做（而非复用卫星遥感模型） ​

1.3 与 UAVIT-1M 的区别 ​

2. 数据：构建策略 ​

2.1 数据来源 ​

2.2 数据统一策略 ​

方案 A：B2C 路线（RemoteCLIP 式） ​

方案 B：Region-Text 路线（GLIP 式） ​

方案 C：混合路线 ​

2.3 防数据泄漏 ​

3. 技术路线：两步走策略 ​

3.1 工作一：DroneCLIP（对标 RemoteCLIP） ​

3.2 工作二：DroneGLIP（超越 RemoteCLIP） ​

4. 创新点凝练 ​

4.1 工作一创新 ​

4.2 工作二创新 ​

4.3 整体故事线 ​

5. 风险与挑战 ​

5.1 工作一风险 ​

5.2 工作二风险 ​

5.3 工程挑战 ​

6. 工作计划 ​

Phase 1：数据准备（2-3 周，两工作共用） ​

Phase 2：工作一 DroneCLIP（3-4 周） ​

Phase 3：工作二 DroneGLIP（4-6 周） ​

7. 相关工作索引 ​