UAVBench and UAVIT-1M: Benchmarking and Enhancing MLLMs for Low-Altitude UAV Vision-Language Understanding
- 来源: https://arxiv.org/abs/2603.14336
- 日期: 2026-03-15
- 标签:
MLLM,low-altitude UAV,benchmark,instruction tuning,vision-language - 研究方向: 低空遥感 → 多模态大语言模型 → 评估与微调
- 作者: Zhan Yang et al. (NWPU 西北工业大学)
- 数据集: UAVBench, UAVIT-1M
- 模型: LLaVA1.5-UAV, MiniGPTv2-UAV, GeoChat-UAV
摘要
问题: 现有 MLLM 在自然图像和卫星遥感上表现好,但在低空无人机场景下能力严重退化——俯视/斜视视角变化、小目标、天气影响等问题导致视觉-语言对齐失败
方案:
- UAVBench:首个低空无人机视觉-语言 benchmark,966k 测试样本,43 个测试单元,10 个任务(image-level + region-level)
- UAVIT-1M:1.24M 指令微调数据集,789k 无人机图像,~2000 种空间分辨率,11 个任务
验证: 11 个 MLLM 在 UAVBench 上表现差;用 UAVIT-1M 微调后显著提升,但 region-level 困难任务(检测、grounding)仍弱
1. Introduction
背景:
- MLLM 在自然图像和卫星遥感上已有进展,但低空无人机场景是空白
- 低空图像的特殊挑战:(1) 多视角(前视/侧视/俯视)(2) 目标随高度变小(有时仅 10px)(3) 天气影响(雾/低光照)(4) 空间推理复杂
- 已有无人机 VL 数据集规模小、任务单一(仅 VQA/captioning/REC),不能反映真实需求
核心发现:
- 开源 MLLM 在低空任务上表现极差,连目标检测和飞行高度估计都做不到
- 根本原因:MLLM 训练数据来自互联网,与低空无人机数据分布差异大
- 视觉编码器(CLIP)在正面视角预训练,对俯视/斜视视角的目标无法正确对齐语义
2. UAVBench Benchmark(评测数据集)
2.1 数据构建
- 整合 21 个已有低空视觉/VL 数据集(VisDrone、AU-AIR、DroneVehicle、UAVDT、ERA 等),没有从零采集新数据——与 RemoteCLIP 整合 17 个已有遥感数据集的思路一致。只是统一的目标格式不同:RemoteCLIP 是 image-caption pair,UAVBench 是 instruction-response pair。
- 三步流程:(1) 数据收集与格式统一 (2) 人工标注+LLM 辅助生成指令 (3) 质量验证
- 261k 多空间分辨率、多场景无人机图像
- 966k 高质量测试样本,43 个测试单元(966k > 261k:一张图可跨多个任务测试,如分类+计数+VQA+grounding,贡献多条测试样本,平均每图 ~3.7 条)
- 用途:仅用于评测,不参与训练
- 防数据泄漏:UAVBench 只用各源数据集的 test set,UAVIT-1M 只用各源数据集的 train/val set,两者无图像重叠
2.2 任务设计(10 个)
Image-level(6 个):
| 任务 | 说明 |
|---|---|
| Image Classification | 场景分类 |
| Detailed Classification | 细粒度分类 |
| Target Counting | 目标计数(1-8 easy, 9-20 moderate, >20 hard) |
| Image Captioning | 图像描述 |
| Detailed Image Captioning | 详细图像描述 |
| Image VQA | 图像问答(存在/比较/天气/飞行高度识别/高度估计) |
Region-level(4 个):
| 任务 | 说明 |
|---|---|
| Region Classification | 区域分类(颜色/目标/活动/形状) |
| Region Captioning | 区域描述 |
| Region VQA | 区域问答 |
| Region Detection | 目标检测 |
| Visual Grounding | 指代表达理解 |
2.3 关键观察
- 计数任务偏难:moderate + hard 占比高
- 飞行高度估计是最难任务之一
- Region-level 任务比 Image-level 更具挑战
3. UAVIT-1M 指令微调数据集(训练数据集)
3.1 数据构成
- 1.24M 指令对话,789k 无人机图像,~2000 种空间分辨率(平均每图 ~1.6 条指令对话)
- 与 UAVBench 相同的 21 个源数据集和数据处理流程,然后通过模板+LLM 组织为指令格式
- 用途:用于 instruction tuning 微调 MLLM,与 UAVBench(评测)是训练/测试关系
- 11 个任务(比 UAVBench 多一个 Region Classification)
- 任务分布不均衡:R.Cls 占 21.9%,D.Cls 仅 0.4%(源数据集规模差异导致)
3.2 构建流程
- 收集 21 个数据集,统一格式
- 人工标注 + LLM 生成指令-回答对
- 质量验证(人工检查)
4. 方法:多模态对齐
- 标准 MLLM 架构:视觉编码器 + 对齐层 + LLM
- 视觉编码器提取特征 → 对齐层(MLP/Linear/Q-Former)映射到 LLM 文本空间 → LLM 自回归生成
- 训练策略(标准 MLLM instruction tuning 做法):
| 组件 | 参数量 | 是否训练 | 原因 |
|---|---|---|---|
| 视觉编码器(CLIP ViT) | ~304M | ❌ 冻结 | 保持预训练语义对齐,防灾难性遗忘 |
| 对齐层(MLP/Linear) | ~几十M | ✅ 全量训练 | 核心:学会将低空视觉 token 映射到 LLM 语义空间 |
| LLM 主干 | ~7B | ⚠️ LoRA 微调 | 低秩适配,保留语言能力同时适应新域 |
- 冻结视觉编码器是通用做法(LLaVA/MiniGPT/GeoChat 都这样做),好处:省显存、收敛快、保持 CLIP 知识;代价:视觉表征无法适应低空视角——这正是 perspective gap 无法根治的原因
- 自回归训练目标:给定多模态输入预测下一个 token
三个微调模型:
| 模型 | 视觉编码器 | 对齐层 | LLM |
|---|---|---|---|
| MiniGPTv2-UAV | Eva-CLIP ViT@448 | Linear | LLaMA-2-Chat-7B |
| LLaVA1.5-UAV | CLIP ViT-L/14@336 | MLP | Vicuna-v1.5-7B |
| GeoChat-UAV | CLIP ViT-L/14@336 | MLP | Vicuna-v1.5-7B |
@448/@336 指视觉编码器输入分辨率,原图需缩放至此。无人机原图 480×360~6000×6000,缩放到 336/448 后小目标仍然严重丢失——与 RemoteCLIP 224×224 同一问题,只是略好
5. Experiments
5.1 MLLM 评估(UAVBench)
- 评估 11 个 MLLM:开源(LLaVA-1.5, Qwen2.5-VL, InternVL2.5, MiniCPM-V-2.6, DeepSeek-VL2 等)+ 闭源(Gemini 2.5 Flash)+ 遥感专用(GeoChat, SkyEyeGPT)
- 核心发现:所有模型在低空任务上表现差,尤其是 region-level 任务
- 最好的闭源模型 Gemini 2.5 Flash 平均分也仅 ~20%
- 遥感专用 MLLM(GeoChat)反而更差——GeoChat 在卫星遥感数据上训练(LRBEN、NWPU-RESISC-45、SAMRS),完全没用无人机图,卫星视角学到的语义无法迁移到低空视角
5.2 UAVIT-1M 微调效果
- 三个模型微调后均有显著提升
- GeoChat-UAV 提升最大(从遥感专用到低空专用)
- 但仍有限:region-level 困难任务(detection、grounding)提升有限
- 通用 MLLM(LLaVA1.5-UAV)在部分 region 任务上反超遥感专用(GeoChat-UAV)
5.3 关键分析
- 高度相关:飞行高度越高→目标越小→性能越差(与 RemoteCLIP 的小目标困境一致)
- 空间-语义对齐失败(perspective gap):CLIP 在互联网正面视角图上预训练,低空无人机图包含多样俯仰角(斜视/俯视),几何变形导致视觉特征分布偏移——对齐层无法将"陌生"的视觉 token 映射到正确语义空间,论文举例:从正上方看人认不出"person"。UAVIT-1M instruction tuning 只部分缓解:对齐层能学到补偿映射(image-level 任务提升显著),但 CLIP 视觉编码器冻结、视觉表征本身未变,region-level 任务(检测/grounding)提升有限——根本问题未解
- 天气诱导的模态失衡:雾/低光照下视觉特征弱,attention 要么过度依赖视觉(信息不足)要么过度依赖文本(产生幻觉)
- 尺度变化:ViT 的固定 patch(14×14)在高空图中,目标可能不到一个 patch 大小,特征在编码阶段就丢失了
6. Future Directions
- 新架构:融合多个预训练视觉编码器(CLIP ViT + EVA ViT + DINOv2 ViT + ConvNeXt),挖掘多尺度多层特征;频域分解(Fourier/Wavelet)分离高低频信息。
- 注意:DINOv2/EVA ViT 输入也是 224/336/448 量级,小目标分辨率问题并未解决——DINOv2 的价值是补充局部视觉特征(自监督训练,不依赖图文对齐),与 DisDop 的思路一致
- 强化微调:引入 GRPO/CoT 推理,定义奖励函数(定位精度、分类/计数准确率)
- Region-level 感知:当前 region-level 性能受限,需专门设计
- 性能稳定性:不同任务表现差异大,需平衡
- 通专互补:MLLM 通用性强但精度远不如专业模型(YOLO/DETR 在 VisDrone 上 AP@0.5 达 40-50%)
- 多模态扩展:红外、SAR、多/高光谱、时序数据
与 RemoteCLIP 的关系
| 维度 | RemoteCLIP | UAVBench/UAVIT-1M |
|---|---|---|
| 范式 | CLIP 对比预训练 | MLLM 指令微调 |
| 目标 | 视觉-语言表征对齐 | 多模态推理/对话 |
| 数据 | 卫星+无人机混合 165k | 纯无人机 789k 图 |
| 输出 | 图像/文本 embedding | 自然语言回答 |
| 下游应用 | zero-shot 分类/检索/OVD 文本编码器 | VQA/captioning/detection/grounding |
| 小目标 | image-level 对齐,小目标噪声 | 同样受限于 CLIP 视觉编码器 |
| 互补性 | 提供文本编码器(OVD 分类头) | 提供 MLLM 推理能力 |
关键共同问题:两者都依赖 CLIP 视觉编码器,都受限于 image-level 预训练在低空视角的语义对齐失败。UAVIT-1M 的 instruction tuning 只是对齐层+LLM 微调,没有改变视觉编码器本身的表征能力。
个人评价
核心价值:
- 首个系统性低空无人机 VL benchmark,填补空白
- UAVIT-1M 是目前最大低空指令微调数据集(1.24M),且已开源
- 揭示了 MLLM 在低空场景的根本瓶颈:视觉编码器的视角偏置
局限性:
- 没动视觉编码器:instruction tuning 只训练对齐层+LoRA,CLIP ViT 的低空表征能力没有改善,这是性能上限的瓶颈
- Region-level 仍然弱:检测/grounding 提升有限,说明 instruction tuning 不足以解决精细定位
- 本质是数据工程+评测,方法创新有限(标准 MLLM 微调流程)
- 没有与 CLIP 范式基础模型对比(如 RemoteCLIP 在低空场景的效果)
对"低空遥感 VL 基础模型"的启示:
- 这篇工作走的是 MLLM 路线,不是 CLIP 范式——目前仍没有低空遥感 CLIP 范式基础模型(详见 RemoteCLIP 笔记-未来工作)
- 论文自己也指出:需要融合多视觉编码器(DINOv2 等)解决局部特征问题,与 DisDop 的思路一致
- Region-level 感知是核心瓶颈——单纯 instruction tuning 不够,需要架构层面的 region-text 对齐
