CANSURF: An ASV-View Can Dataset and Benchmark for Detection and Tracking of Surface-Level Debris
- 来源: https://arxiv.org/abs/2605.16774
- 本地PDF:
../raw/2026-05-16-cansurf.pdf - 日期: 2026-05-16
- 标签:
yolo,object detection,marine debris,dataset - 研究方向: 2D Object Detection → 特定域/具身检测 → 水面垃圾检测
- 作者: Zaid Aljundi, Zahra F. Rahmatullah, Mostafa Elemam, Abdullah Moosa (Heriot-Watt University Dubai)
- 代码: https://github.com/ZaidAljundiHW2/CANSURF
- 数据集: https://doi.org/10.5281/zenodo.20100657
- 会议: ICSPIS 2025
摘要
问题: 水面漂浮的小尺寸、高反光目标(如易拉罐)在强光、水面波纹、半淹没等条件下难以检测,阻碍自主清洁无人艇实际部署。
方案: 提出 CANSURF 数据集(~7.3k 原始图像 + 10 种数据增强 → ~57k 训练/验证图像)和基于 YOLO 的检测跟踪 pipeline。
关键创新/贡献:
- 数据集: 首个面向 ASV 无人艇视角的表面级易拉罐检测数据集
- 增强策略: 10 种数据增强覆盖不同光照和波浪条件
- Benchmark: 多种 YOLO 变体 + SAHI + DeepSORT/ByteTrack 的检测+跟踪 baseline
验证: YOLOv11s 在 CANSURF 上训练比通用数据提升 ~12x(F1: 0.07 → 0.90),ByteTrack 跟踪全面优于 DeepSORT。
1. Introduction
背景 & 动机:
- 水面垃圾污染严重,自主清洁无人艇(ASV)需求迫切
- 铝罐在 NOAA、Ocean Conservancy 等组织的海岸清理项目中位列最常见垃圾
- 核心难点:小尺寸(可远小于画面 1%)、强反光(sunglint)、波浪泡沫、半淹没、距摄像机远
- 现有工作集中在卫星遥感(MARIDA)或水下(Trash-ICRA19, TrashCan),缺乏 ASV 视角的表面级专用数据集
本文贡献:
- CANSURF 数据集:ASV 视角的易拉罐检测/跟踪 benchmark
- 检测+跟踪 pipeline:YOLO + SAHI(切片推理提升小目标召回)+ ByteTrack(外观特征减少 ID switch)
- 多种模型的检测+跟踪 baseline 评估
关键定量结果:
- 训练 YOLOv11s 在 CANSURF 上比通用数据集性能提升 12x
- YOLOv11+ByteTrack 跟踪最稳定(ID switch 最少)
- YOLOv11+SAHI 远场召回率更高(0.93)但精度下降(0.67)
2. Literature Review
回顾了四类相关工作:
| 工作 | 方法 | 亮点 | 局限 |
|---|---|---|---|
| VarifocalNet + ResNet50 | FPN + DCN | 78.9% AP | 小目标差 |
| PoTATO(塑料瓶检测) | 偏振光通道 + YOLOv5/FRCNN/RetinaNet | 不同光照条件 ASV 视角 | 小目标仍是挑战 |
| 漂浮塑料流检测 | YOLOv8n + DeepSORT | 静态水面 mAP@0.5=0.99 | 跟踪极差(32 个只跟踪到 6 个),动态水面失效 |
| ByteTrack | 高低置信度联合关联 | SOTA 跟踪 |
作者认为 PoTATO + CANSURF 可组合成更通用的水面垃圾检测数据集。
3. Methodology
A. 数据集
数据组成:
- 总数 57,012 张(增强后),原始 7,072 张
- 57% 来自 Roboflow 现有含铝罐数据集,43% 作者自采
- 原始拆分 75% train / 25% val → 增强只在训练集上做
- 96% train / 4% val(增强后比例)
自采数据:
- 30 FPS 视频 → 每 15 帧取 1 帧(防过拟合)
- 拍摄场景:泳池(不同水体)
- 分辨率 1280×720 / 1080×1920
- 距离 0-13m,每帧 1-10 个易拉罐
数据集特征:
| 特征 | 值 |
|---|---|
| 光照 | 自然日光,~20k lum |
| 原始帧数 | 7,072 |
| FPS | 30 |
| 分辨率 | 1280×720, 1080×1920 |
| 摄像头 | OV5693 80° FF |
| 地点 | 游泳池 |
| 距离范围 | 0-13m |
标注: 手工 tight bounding box,无明显遮挡标完整框,部分遮挡标可见部分。无交叉验证。
10 种数据增强: 亮度增减、噪声增加、饱和度调整、高斯模糊、天气遮挡(云/雾)、压缩、马赛克、水平/垂直翻转
B. 目标检测
在 900 张小目标(目标 < 5% 画面占比)子集上 benchmark。
模型:
- YOLOv8s: anchor-free,小目标基线
- YOLOv11s: C2PSA 注意力机制,抑制水面反光导致的 FP
- YOLO-World: 实时开词汇检测,评估零样本能力
- Grounding DINO: Transformer + 文本条件检测,评估零样本能力
- SAHI: 切图推理提升小目标召回,不修改模型结构
训练设置: 150 epoch + early stopping,vast.ai GPU(RTX 4070 等),评估统一在 AMD RX 7600S(8GB VRAM)
C. 多目标跟踪
- DeepSORT: SORT + 外观描述符,Kalman + Hungarian
- ByteTrack: 高低置信度联合关联,低置信度检测也能保持轨迹
评估指标: MOTA(跟踪准确率)、MOTP(跟踪精度)
4. Experiments
检测结果
| Model | Precision | Recall | F1-score | FPS | Params |
|---|---|---|---|---|---|
| YOLOv11s (Baseline, 通用数据) | 0.31 | 0.04 | 0.07 | 133.5 | 9.4M |
| YOLOv8s (CANSURF) | 0.89 | 0.89 | 0.89 | 155.3 | 11.2M |
| YOLOv11s (CANSURF) | 0.90 | 0.90 | 0.90 | 133.5 | 9.4M |
| SAHI + YOLOv11s (CANSURF) | 0.67 | 0.93 | 0.78 | 5.8 | 9.4M |
| YOLO-World | 0.46 | 0.20 | 0.28 | 75.9 | 179M |
| Grounding DINO | 0.09 | 0.20 | 0.12 | 1.9 | 172M |
关键发现:
- 通用数据训练 F1=0.07 → CANSURF 上 F1=0.90,提升 ~12x,凸显 domain gap 严重
- YOLOv11s 比 v8s 略优(F1 0.90 vs 0.89),参数更少(9.4M vs 11.2M)
- SAHI 召回飙到 0.93 但精度降到 0.67,FPS 降到 5.8(不可实时)
- YOLO-World 和 Grounding DINO 零样本方案完全不实用
跟踪结果
| Detector | Tracker | MOTA↑ | MOTP↑ | FP↓ | FN↓ | IDs↓ | FPS↑ |
|---|---|---|---|---|---|---|---|
| YOLOv11 | DeepSORT | 0.32 | 0.58 | 6 | 20 | 82 | 51.6 |
| YOLOv11 | ByteTrack | 0.535 | 0.70 | 4 | 35 | 36 | 50.0 |
| YOLOv11+SAHI | DeepSORT | 0.39 | 0.57 | 963 | 22 | 139 | 50.0 |
| YOLOv11+SAHI | ByteTrack | 0.437 | 0.61 | 335 | 11 | 58 | 45.0 |
- 测试: 单段 2 分钟视频,3600 帧,30 FPS
结论:
- ByteTrack 全面优于 DeepSORT:MOTA、MOTP 更高,ID switch 减半
- SAHI + ByteTrack FN 最少但 FP 暴增(335),实用价值有限
- YOLOv11 + ByteTrack 是最均衡方案
5. Conclusion
实际部署选型:
- 追求最大数量捡拾 → YOLOv11 + SAHI(Recall 0.93,宁可 FP 不可漏)
- 一般检测 → YOLOv11s(Precision 0.90,低延迟)
局限性:
- 数据全部在泳池采集,缺乏恶劣天气(雨、大风浪)场景
- YOLOv11+SAHI 在全景画面中切图产生局部罐体视图,导致精度下降
- 视频序列较短,缺乏长时间持续性评估
未来工作:
- 扩展到恶劣天气和多样地点
- 增加长视频序列做时序 benchmark
- 在多种边缘设备上重新评估检测-跟踪 trade-off
数据集: 已开源(Zenodo + GitHub)
个人评价
核心价值: 填补了 ASV 视角水面易拉罐检测数据集的空白。工作量不大(7k 原始图,泳池拍摄),但工程实体用价值明确。
可借鉴点:
- SAHI + YOLO 对水面小目标的提升效果(Recall 0.90 → 0.93)和代价(Precision 0.90 → 0.67, FPS 133 → 5.8)的量化对比
- ByteTrack 在静态水面场景优于 DeepSORT 的证据
局限性: 论文方法层面无本质创新(YOLO + SAHI + ByteTrack 都是现成组件),学术价值有限,偏工程报告。
疑问解答 (Q&A)
Q1: SAHI 为什么 Recall 提升但 Precision 大幅下降?
答: SAHI 将图像切片后独立推理,在全景画面(wide-FOV)中会产生大量局部罐体视图(如罐体被切掉一半),模型无法识别这些部分视图,导致大量 FP。且 SAHI 耗时高(133→5.8 FPS),不适合实时部署。
Q2: 为什么只测试了静态水面(泳池)?
答: 作者承认这是数据集的局限性,后续计划扩展到恶劣天气、大风浪场景。目前泳池环境可控,适合建立 baseline,但代表性与真实海域差距较大。
