Skip to content

CANSURF: An ASV-View Can Dataset and Benchmark for Detection and Tracking of Surface-Level Debris


摘要

问题: 水面漂浮的小尺寸、高反光目标(如易拉罐)在强光、水面波纹、半淹没等条件下难以检测,阻碍自主清洁无人艇实际部署。

方案: 提出 CANSURF 数据集(~7.3k 原始图像 + 10 种数据增强 → ~57k 训练/验证图像)和基于 YOLO 的检测跟踪 pipeline。

关键创新/贡献

  • 数据集: 首个面向 ASV 无人艇视角的表面级易拉罐检测数据集
  • 增强策略: 10 种数据增强覆盖不同光照和波浪条件
  • Benchmark: 多种 YOLO 变体 + SAHI + DeepSORT/ByteTrack 的检测+跟踪 baseline

验证: YOLOv11s 在 CANSURF 上训练比通用数据提升 ~12x(F1: 0.07 → 0.90),ByteTrack 跟踪全面优于 DeepSORT。


1. Introduction

背景 & 动机:

  • 水面垃圾污染严重,自主清洁无人艇(ASV)需求迫切
  • 铝罐在 NOAA、Ocean Conservancy 等组织的海岸清理项目中位列最常见垃圾
  • 核心难点:小尺寸(可远小于画面 1%)、强反光(sunglint)、波浪泡沫、半淹没、距摄像机远
  • 现有工作集中在卫星遥感(MARIDA)或水下(Trash-ICRA19, TrashCan),缺乏 ASV 视角的表面级专用数据集

本文贡献:

  1. CANSURF 数据集:ASV 视角的易拉罐检测/跟踪 benchmark
  2. 检测+跟踪 pipeline:YOLO + SAHI(切片推理提升小目标召回)+ ByteTrack(外观特征减少 ID switch)
  3. 多种模型的检测+跟踪 baseline 评估

关键定量结果

  • 训练 YOLOv11s 在 CANSURF 上比通用数据集性能提升 12x
  • YOLOv11+ByteTrack 跟踪最稳定(ID switch 最少)
  • YOLOv11+SAHI 远场召回率更高(0.93)但精度下降(0.67)

2. Literature Review

回顾了四类相关工作:

工作方法亮点局限
VarifocalNet + ResNet50FPN + DCN78.9% AP小目标差
PoTATO(塑料瓶检测)偏振光通道 + YOLOv5/FRCNN/RetinaNet不同光照条件 ASV 视角小目标仍是挑战
漂浮塑料流检测YOLOv8n + DeepSORT静态水面 mAP@0.5=0.99跟踪极差(32 个只跟踪到 6 个),动态水面失效
ByteTrack高低置信度联合关联SOTA 跟踪

作者认为 PoTATO + CANSURF 可组合成更通用的水面垃圾检测数据集。


3. Methodology

A. 数据集

数据组成:

  • 总数 57,012 张(增强后),原始 7,072 张
  • 57% 来自 Roboflow 现有含铝罐数据集,43% 作者自采
  • 原始拆分 75% train / 25% val → 增强只在训练集上做
  • 96% train / 4% val(增强后比例)

自采数据:

  • 30 FPS 视频 → 每 15 帧取 1 帧(防过拟合)
  • 拍摄场景:泳池(不同水体)
  • 分辨率 1280×720 / 1080×1920
  • 距离 0-13m,每帧 1-10 个易拉罐

数据集特征:

特征
光照自然日光,~20k lum
原始帧数7,072
FPS30
分辨率1280×720, 1080×1920
摄像头OV5693 80° FF
地点游泳池
距离范围0-13m

标注: 手工 tight bounding box,无明显遮挡标完整框,部分遮挡标可见部分。无交叉验证。

10 种数据增强: 亮度增减、噪声增加、饱和度调整、高斯模糊、天气遮挡(云/雾)、压缩、马赛克、水平/垂直翻转

B. 目标检测

在 900 张小目标(目标 < 5% 画面占比)子集上 benchmark。

模型:

  • YOLOv8s: anchor-free,小目标基线
  • YOLOv11s: C2PSA 注意力机制,抑制水面反光导致的 FP
  • YOLO-World: 实时开词汇检测,评估零样本能力
  • Grounding DINO: Transformer + 文本条件检测,评估零样本能力
  • SAHI: 切图推理提升小目标召回,不修改模型结构

训练设置: 150 epoch + early stopping,vast.ai GPU(RTX 4070 等),评估统一在 AMD RX 7600S(8GB VRAM)

C. 多目标跟踪

  • DeepSORT: SORT + 外观描述符,Kalman + Hungarian
  • ByteTrack: 高低置信度联合关联,低置信度检测也能保持轨迹

评估指标: MOTA(跟踪准确率)、MOTP(跟踪精度)


4. Experiments

检测结果

ModelPrecisionRecallF1-scoreFPSParams
YOLOv11s (Baseline, 通用数据)0.310.040.07133.59.4M
YOLOv8s (CANSURF)0.890.890.89155.311.2M
YOLOv11s (CANSURF)0.900.900.90133.59.4M
SAHI + YOLOv11s (CANSURF)0.670.930.785.89.4M
YOLO-World0.460.200.2875.9179M
Grounding DINO0.090.200.121.9172M

关键发现

  • 通用数据训练 F1=0.07 → CANSURF 上 F1=0.90,提升 ~12x,凸显 domain gap 严重
  • YOLOv11s 比 v8s 略优(F1 0.90 vs 0.89),参数更少(9.4M vs 11.2M)
  • SAHI 召回飙到 0.93 但精度降到 0.67,FPS 降到 5.8(不可实时)
  • YOLO-World 和 Grounding DINO 零样本方案完全不实用

跟踪结果

DetectorTrackerMOTA↑MOTP↑FP↓FN↓IDs↓FPS↑
YOLOv11DeepSORT0.320.586208251.6
YOLOv11ByteTrack0.5350.704353650.0
YOLOv11+SAHIDeepSORT0.390.579632213950.0
YOLOv11+SAHIByteTrack0.4370.61335115845.0
  • 测试: 单段 2 分钟视频,3600 帧,30 FPS

结论:

  • ByteTrack 全面优于 DeepSORT:MOTA、MOTP 更高,ID switch 减半
  • SAHI + ByteTrack FN 最少但 FP 暴增(335),实用价值有限
  • YOLOv11 + ByteTrack 是最均衡方案

5. Conclusion

实际部署选型:

  • 追求最大数量捡拾 → YOLOv11 + SAHI(Recall 0.93,宁可 FP 不可漏)
  • 一般检测 → YOLOv11s(Precision 0.90,低延迟)

局限性:

  • 数据全部在泳池采集,缺乏恶劣天气(雨、大风浪)场景
  • YOLOv11+SAHI 在全景画面中切图产生局部罐体视图,导致精度下降
  • 视频序列较短,缺乏长时间持续性评估

未来工作:

  • 扩展到恶劣天气和多样地点
  • 增加长视频序列做时序 benchmark
  • 在多种边缘设备上重新评估检测-跟踪 trade-off

数据集: 已开源(Zenodo + GitHub)


个人评价

核心价值: 填补了 ASV 视角水面易拉罐检测数据集的空白。工作量不大(7k 原始图,泳池拍摄),但工程实体用价值明确。

可借鉴点:

  • SAHI + YOLO 对水面小目标的提升效果(Recall 0.90 → 0.93)和代价(Precision 0.90 → 0.67, FPS 133 → 5.8)的量化对比
  • ByteTrack 在静态水面场景优于 DeepSORT 的证据

局限性: 论文方法层面无本质创新(YOLO + SAHI + ByteTrack 都是现成组件),学术价值有限,偏工程报告。


疑问解答 (Q&A)

Q1: SAHI 为什么 Recall 提升但 Precision 大幅下降?

: SAHI 将图像切片后独立推理,在全景画面(wide-FOV)中会产生大量局部罐体视图(如罐体被切掉一半),模型无法识别这些部分视图,导致大量 FP。且 SAHI 耗时高(133→5.8 FPS),不适合实时部署。

Q2: 为什么只测试了静态水面(泳池)?

: 作者承认这是数据集的局限性,后续计划扩展到恶劣天气、大风浪场景。目前泳池环境可控,适合建立 baseline,但代表性与真实海域差距较大。