UAVBench and UAVIT-1M: Benchmarking and Enhancing MLLMs for Low-Altitude UAV Vision-Language Understanding

来源: https://arxiv.org/abs/2603.14336
日期: 2026-03-15
标签: MLLM, low-altitude UAV, benchmark, instruction tuning, vision-language
研究方向: 低空遥感 → 多模态大语言模型 → 评估与微调
作者: Zhan Yang et al. (NWPU 西北工业大学)
数据集: UAVBench, UAVIT-1M
模型: LLaVA1.5-UAV, MiniGPTv2-UAV, GeoChat-UAV

摘要

问题: 现有 MLLM 在自然图像和卫星遥感上表现好，但在低空无人机场景下能力严重退化——俯视/斜视视角变化、小目标、天气影响等问题导致视觉-语言对齐失败

方案:

UAVBench：首个低空无人机视觉-语言 benchmark，966k 测试样本，43 个测试单元，10 个任务（image-level + region-level）
UAVIT-1M：1.24M 指令微调数据集，789k 无人机图像，~2000 种空间分辨率，11 个任务

验证: 11 个 MLLM 在 UAVBench 上表现差；用 UAVIT-1M 微调后显著提升，但 region-level 困难任务（检测、grounding）仍弱

1. Introduction

背景:

MLLM 在自然图像和卫星遥感上已有进展，但低空无人机场景是空白
低空图像的特殊挑战：(1) 多视角（前视/侧视/俯视）(2) 目标随高度变小（有时仅 10px）(3) 天气影响（雾/低光照）(4) 空间推理复杂
已有无人机 VL 数据集规模小、任务单一（仅 VQA/captioning/REC），不能反映真实需求

核心发现:

开源 MLLM 在低空任务上表现极差，连目标检测和飞行高度估计都做不到
根本原因：MLLM 训练数据来自互联网，与低空无人机数据分布差异大
视觉编码器（CLIP）在正面视角预训练，对俯视/斜视视角的目标无法正确对齐语义

2. UAVBench Benchmark（评测数据集）

2.1 数据构建

整合 21 个已有低空视觉/VL 数据集（VisDrone、AU-AIR、DroneVehicle、UAVDT、ERA 等），没有从零采集新数据——与 RemoteCLIP 整合 17 个已有遥感数据集的思路一致。只是统一的目标格式不同：RemoteCLIP 是 image-caption pair，UAVBench 是 instruction-response pair。
三步流程：(1) 数据收集与格式统一 (2) 人工标注+LLM 辅助生成指令 (3) 质量验证
261k 多空间分辨率、多场景无人机图像
966k 高质量测试样本，43 个测试单元（966k > 261k：一张图可跨多个任务测试，如分类+计数+VQA+grounding，贡献多条测试样本，平均每图 ~3.7 条）
用途：仅用于评测，不参与训练
防数据泄漏：UAVBench 只用各源数据集的 test set，UAVIT-1M 只用各源数据集的 train/val set，两者无图像重叠

2.2 任务设计（10 个）

Image-level（6 个）:

任务	说明
Image Classification	场景分类
Detailed Classification	细粒度分类
Target Counting	目标计数（1-8 easy, 9-20 moderate, >20 hard）
Image Captioning	图像描述
Detailed Image Captioning	详细图像描述
Image VQA	图像问答（存在/比较/天气/飞行高度识别/高度估计）

Region-level（4 个）:

任务	说明
Region Classification	区域分类（颜色/目标/活动/形状）
Region Captioning	区域描述
Region VQA	区域问答
Region Detection	目标检测
Visual Grounding	指代表达理解

2.3 关键观察

计数任务偏难：moderate + hard 占比高
飞行高度估计是最难任务之一
Region-level 任务比 Image-level 更具挑战

3. UAVIT-1M 指令微调数据集（训练数据集）

3.1 数据构成

1.24M 指令对话，789k 无人机图像，~2000 种空间分辨率（平均每图 ~1.6 条指令对话）
与 UAVBench 相同的 21 个源数据集和数据处理流程，然后通过模板+LLM 组织为指令格式
用途：用于 instruction tuning 微调 MLLM，与 UAVBench（评测）是训练/测试关系
11 个任务（比 UAVBench 多一个 Region Classification）
任务分布不均衡：R.Cls 占 21.9%，D.Cls 仅 0.4%（源数据集规模差异导致）

3.2 构建流程

收集 21 个数据集，统一格式
人工标注 + LLM 生成指令-回答对
质量验证（人工检查）

4. 方法：多模态对齐

标准 MLLM 架构：视觉编码器 + 对齐层 + LLM
视觉编码器提取特征 → 对齐层（MLP/Linear/Q-Former）映射到 LLM 文本空间 → LLM 自回归生成
训练策略（标准 MLLM instruction tuning 做法）：

组件	参数量	是否训练	原因
视觉编码器（CLIP ViT）	~304M	❌ 冻结	保持预训练语义对齐，防灾难性遗忘
对齐层（MLP/Linear）	~几十M	✅ 全量训练	核心：学会将低空视觉 token 映射到 LLM 语义空间
LLM 主干	~7B	⚠️ LoRA 微调	低秩适配，保留语言能力同时适应新域

冻结视觉编码器是通用做法（LLaVA/MiniGPT/GeoChat 都这样做），好处：省显存、收敛快、保持 CLIP 知识；代价：视觉表征无法适应低空视角——这正是 perspective gap 无法根治的原因
自回归训练目标：给定多模态输入预测下一个 token

三个微调模型：

模型	视觉编码器	对齐层	LLM
MiniGPTv2-UAV	Eva-CLIP ViT@448	Linear	LLaMA-2-Chat-7B
LLaVA1.5-UAV	CLIP ViT-L/14@336	MLP	Vicuna-v1.5-7B
GeoChat-UAV	CLIP ViT-L/14@336	MLP	Vicuna-v1.5-7B

@448/@336 指视觉编码器输入分辨率，原图需缩放至此。无人机原图 480×360~6000×6000，缩放到 336/448 后小目标仍然严重丢失——与 RemoteCLIP 224×224 同一问题，只是略好

5. Experiments

5.1 MLLM 评估（UAVBench）

评估 11 个 MLLM：开源（LLaVA-1.5, Qwen2.5-VL, InternVL2.5, MiniCPM-V-2.6, DeepSeek-VL2 等）+ 闭源（Gemini 2.5 Flash）+ 遥感专用（GeoChat, SkyEyeGPT）
核心发现：所有模型在低空任务上表现差，尤其是 region-level 任务
最好的闭源模型 Gemini 2.5 Flash 平均分也仅 ~20%
遥感专用 MLLM（GeoChat）反而更差——GeoChat 在卫星遥感数据上训练（LRBEN、NWPU-RESISC-45、SAMRS），完全没用无人机图，卫星视角学到的语义无法迁移到低空视角

5.2 UAVIT-1M 微调效果

三个模型微调后均有显著提升
GeoChat-UAV 提升最大（从遥感专用到低空专用）
但仍有限：region-level 困难任务（detection、grounding）提升有限
通用 MLLM（LLaVA1.5-UAV）在部分 region 任务上反超遥感专用（GeoChat-UAV）

5.3 关键分析

高度相关：飞行高度越高→目标越小→性能越差（与 RemoteCLIP 的小目标困境一致）
空间-语义对齐失败（perspective gap）：CLIP 在互联网正面视角图上预训练，低空无人机图包含多样俯仰角（斜视/俯视），几何变形导致视觉特征分布偏移——对齐层无法将"陌生"的视觉 token 映射到正确语义空间，论文举例：从正上方看人认不出"person"。UAVIT-1M instruction tuning 只部分缓解：对齐层能学到补偿映射（image-level 任务提升显著），但 CLIP 视觉编码器冻结、视觉表征本身未变，region-level 任务（检测/grounding）提升有限——根本问题未解
天气诱导的模态失衡：雾/低光照下视觉特征弱，attention 要么过度依赖视觉（信息不足）要么过度依赖文本（产生幻觉）
尺度变化：ViT 的固定 patch（14×14）在高空图中，目标可能不到一个 patch 大小，特征在编码阶段就丢失了

6. Future Directions

新架构：融合多个预训练视觉编码器（CLIP ViT + EVA ViT + DINOv2 ViT + ConvNeXt），挖掘多尺度多层特征；频域分解（Fourier/Wavelet）分离高低频信息。

注意：DINOv2/EVA ViT 输入也是 224/336/448 量级，小目标分辨率问题并未解决——DINOv2 的价值是补充局部视觉特征（自监督训练，不依赖图文对齐），与 DisDop 的思路一致

强化微调：引入 GRPO/CoT 推理，定义奖励函数（定位精度、分类/计数准确率）
Region-level 感知：当前 region-level 性能受限，需专门设计
性能稳定性：不同任务表现差异大，需平衡
通专互补：MLLM 通用性强但精度远不如专业模型（YOLO/DETR 在 VisDrone 上 AP@0.5 达 40-50%）
多模态扩展：红外、SAR、多/高光谱、时序数据

与 RemoteCLIP 的关系

维度	RemoteCLIP	UAVBench/UAVIT-1M
范式	CLIP 对比预训练	MLLM 指令微调
目标	视觉-语言表征对齐	多模态推理/对话
数据	卫星+无人机混合 165k	纯无人机 789k 图
输出	图像/文本 embedding	自然语言回答
下游应用	zero-shot 分类/检索/OVD 文本编码器	VQA/captioning/detection/grounding
小目标	image-level 对齐，小目标噪声	同样受限于 CLIP 视觉编码器
互补性	提供文本编码器（OVD 分类头）	提供 MLLM 推理能力

关键共同问题：两者都依赖 CLIP 视觉编码器，都受限于 image-level 预训练在低空视角的语义对齐失败。UAVIT-1M 的 instruction tuning 只是对齐层+LLM 微调，没有改变视觉编码器本身的表征能力。

个人评价

核心价值:

首个系统性低空无人机 VL benchmark，填补空白
UAVIT-1M 是目前最大低空指令微调数据集（1.24M），且已开源
揭示了 MLLM 在低空场景的根本瓶颈：视觉编码器的视角偏置

局限性:

没动视觉编码器：instruction tuning 只训练对齐层+LoRA，CLIP ViT 的低空表征能力没有改善，这是性能上限的瓶颈
Region-level 仍然弱：检测/grounding 提升有限，说明 instruction tuning 不足以解决精细定位
本质是数据工程+评测，方法创新有限（标准 MLLM 微调流程）
没有与 CLIP 范式基础模型对比（如 RemoteCLIP 在低空场景的效果）

对"低空遥感 VL 基础模型"的启示:

这篇工作走的是 MLLM 路线，不是 CLIP 范式——目前仍没有低空遥感 CLIP 范式基础模型（详见 RemoteCLIP 笔记-未来工作）
论文自己也指出：需要融合多视觉编码器（DINOv2 等）解决局部特征问题，与 DisDop 的思路一致
Region-level 感知是核心瓶颈——单纯 instruction tuning 不够，需要架构层面的 region-text 对齐

UAVBench and UAVIT-1M: Benchmarking and Enhancing MLLMs for Low-Altitude UAV Vision-Language Understanding ​

摘要 ​

1. Introduction ​

2. UAVBench Benchmark（评测数据集） ​

2.1 数据构建 ​

2.2 任务设计（10 个） ​

2.3 关键观察 ​

3. UAVIT-1M 指令微调数据集（训练数据集） ​

3.1 数据构成 ​

3.2 构建流程 ​

4. 方法：多模态对齐 ​

5. Experiments ​

5.1 MLLM 评估（UAVBench） ​

5.2 UAVIT-1M 微调效果 ​

5.3 关键分析 ​

6. Future Directions ​

与 RemoteCLIP 的关系 ​

个人评价 ​