CANSURF: An ASV-View Can Dataset and Benchmark for Detection and Tracking of Surface-Level Debris

来源: https://arxiv.org/abs/2605.16774
本地PDF: ../raw/2026-05-16-cansurf.pdf
日期: 2026-05-16
标签: yolo, object detection, marine debris, dataset
研究方向: 2D Object Detection → 特定域/具身检测 → 水面垃圾检测
作者: Zaid Aljundi, Zahra F. Rahmatullah, Mostafa Elemam, Abdullah Moosa (Heriot-Watt University Dubai)
代码: https://github.com/ZaidAljundiHW2/CANSURF
数据集: https://doi.org/10.5281/zenodo.20100657
会议: ICSPIS 2025

摘要

问题: 水面漂浮的小尺寸、高反光目标（如易拉罐）在强光、水面波纹、半淹没等条件下难以检测，阻碍自主清洁无人艇实际部署。

方案: 提出 CANSURF 数据集（~7.3k 原始图像 + 10 种数据增强 → ~57k 训练/验证图像）和基于 YOLO 的检测跟踪 pipeline。

关键创新/贡献：

数据集: 首个面向 ASV 无人艇视角的表面级易拉罐检测数据集
增强策略: 10 种数据增强覆盖不同光照和波浪条件
Benchmark: 多种 YOLO 变体 + SAHI + DeepSORT/ByteTrack 的检测+跟踪 baseline

验证: YOLOv11s 在 CANSURF 上训练比通用数据提升 ~12x（F1: 0.07 → 0.90），ByteTrack 跟踪全面优于 DeepSORT。

1. Introduction

背景 & 动机:

水面垃圾污染严重，自主清洁无人艇（ASV）需求迫切
铝罐在 NOAA、Ocean Conservancy 等组织的海岸清理项目中位列最常见垃圾
核心难点：小尺寸（可远小于画面 1%）、强反光（sunglint）、波浪泡沫、半淹没、距摄像机远
现有工作集中在卫星遥感（MARIDA）或水下（Trash-ICRA19, TrashCan），缺乏 ASV 视角的表面级专用数据集

本文贡献:

CANSURF 数据集：ASV 视角的易拉罐检测/跟踪 benchmark
检测+跟踪 pipeline：YOLO + SAHI（切片推理提升小目标召回）+ ByteTrack（外观特征减少 ID switch）
多种模型的检测+跟踪 baseline 评估

关键定量结果：

训练 YOLOv11s 在 CANSURF 上比通用数据集性能提升 12x
YOLOv11+ByteTrack 跟踪最稳定（ID switch 最少）
YOLOv11+SAHI 远场召回率更高（0.93）但精度下降（0.67）

2. Literature Review

回顾了四类相关工作：

工作	方法	亮点	局限
VarifocalNet + ResNet50	FPN + DCN	78.9% AP	小目标差
PoTATO（塑料瓶检测）	偏振光通道 + YOLOv5/FRCNN/RetinaNet	不同光照条件 ASV 视角	小目标仍是挑战
漂浮塑料流检测	YOLOv8n + DeepSORT	静态水面 mAP@0.5=0.99	跟踪极差（32 个只跟踪到 6 个），动态水面失效
ByteTrack	高低置信度联合关联	SOTA 跟踪

作者认为 PoTATO + CANSURF 可组合成更通用的水面垃圾检测数据集。

3. Methodology

A. 数据集

数据组成:

总数 57,012 张（增强后），原始 7,072 张
57% 来自 Roboflow 现有含铝罐数据集，43% 作者自采
原始拆分 75% train / 25% val → 增强只在训练集上做
96% train / 4% val（增强后比例）

自采数据:

30 FPS 视频 → 每 15 帧取 1 帧（防过拟合）
拍摄场景：泳池（不同水体）
分辨率 1280×720 / 1080×1920
距离 0-13m，每帧 1-10 个易拉罐

数据集特征:

特征	值
光照	自然日光，~20k lum
原始帧数	7,072
FPS	30
分辨率	1280×720, 1080×1920
摄像头	OV5693 80° FF
地点	游泳池
距离范围	0-13m

标注: 手工 tight bounding box，无明显遮挡标完整框，部分遮挡标可见部分。无交叉验证。

10 种数据增强: 亮度增减、噪声增加、饱和度调整、高斯模糊、天气遮挡（云/雾）、压缩、马赛克、水平/垂直翻转

B. 目标检测

在 900 张小目标（目标 < 5% 画面占比）子集上 benchmark。

模型:

YOLOv8s: anchor-free，小目标基线
YOLOv11s: C2PSA 注意力机制，抑制水面反光导致的 FP
YOLO-World: 实时开词汇检测，评估零样本能力
Grounding DINO: Transformer + 文本条件检测，评估零样本能力
SAHI: 切图推理提升小目标召回，不修改模型结构

训练设置: 150 epoch + early stopping，vast.ai GPU（RTX 4070 等），评估统一在 AMD RX 7600S（8GB VRAM）

C. 多目标跟踪

DeepSORT: SORT + 外观描述符，Kalman + Hungarian
ByteTrack: 高低置信度联合关联，低置信度检测也能保持轨迹

评估指标: MOTA（跟踪准确率）、MOTP（跟踪精度）

4. Experiments

检测结果

Model	Precision	Recall	F1-score	FPS	Params
YOLOv11s (Baseline, 通用数据)	0.31	0.04	0.07	133.5	9.4M
YOLOv8s (CANSURF)	0.89	0.89	0.89	155.3	11.2M
YOLOv11s (CANSURF)	0.90	0.90	0.90	133.5	9.4M
SAHI + YOLOv11s (CANSURF)	0.67	0.93	0.78	5.8	9.4M
YOLO-World	0.46	0.20	0.28	75.9	179M
Grounding DINO	0.09	0.20	0.12	1.9	172M

关键发现：

通用数据训练 F1=0.07 → CANSURF 上 F1=0.90，提升 ~12x，凸显 domain gap 严重
YOLOv11s 比 v8s 略优（F1 0.90 vs 0.89），参数更少（9.4M vs 11.2M）
SAHI 召回飙到 0.93 但精度降到 0.67，FPS 降到 5.8（不可实时）
YOLO-World 和 Grounding DINO 零样本方案完全不实用

跟踪结果

Detector	Tracker	MOTA↑	MOTP↑	FP↓	FN↓	IDs↓	FPS↑
YOLOv11	DeepSORT	0.32	0.58	6	20	82	51.6
YOLOv11	ByteTrack	0.535	0.70	4	35	36	50.0
YOLOv11+SAHI	DeepSORT	0.39	0.57	963	22	139	50.0
YOLOv11+SAHI	ByteTrack	0.437	0.61	335	11	58	45.0

测试: 单段 2 分钟视频，3600 帧，30 FPS

结论:

ByteTrack 全面优于 DeepSORT：MOTA、MOTP 更高，ID switch 减半
SAHI + ByteTrack FN 最少但 FP 暴增（335），实用价值有限
YOLOv11 + ByteTrack 是最均衡方案

5. Conclusion

实际部署选型:

追求最大数量捡拾 → YOLOv11 + SAHI（Recall 0.93，宁可 FP 不可漏）
一般检测 → YOLOv11s（Precision 0.90，低延迟）

局限性:

数据全部在泳池采集，缺乏恶劣天气（雨、大风浪）场景
YOLOv11+SAHI 在全景画面中切图产生局部罐体视图，导致精度下降
视频序列较短，缺乏长时间持续性评估

未来工作:

扩展到恶劣天气和多样地点
增加长视频序列做时序 benchmark
在多种边缘设备上重新评估检测-跟踪 trade-off

数据集: 已开源（Zenodo + GitHub）

个人评价

核心价值: 填补了 ASV 视角水面易拉罐检测数据集的空白。工作量不大（7k 原始图，泳池拍摄），但工程实体用价值明确。

可借鉴点:

SAHI + YOLO 对水面小目标的提升效果（Recall 0.90 → 0.93）和代价（Precision 0.90 → 0.67, FPS 133 → 5.8）的量化对比
ByteTrack 在静态水面场景优于 DeepSORT 的证据

局限性: 论文方法层面无本质创新（YOLO + SAHI + ByteTrack 都是现成组件），学术价值有限，偏工程报告。

疑问解答 (Q&A)

Q1: SAHI 为什么 Recall 提升但 Precision 大幅下降？

答: SAHI 将图像切片后独立推理，在全景画面（wide-FOV）中会产生大量局部罐体视图（如罐体被切掉一半），模型无法识别这些部分视图，导致大量 FP。且 SAHI 耗时高（133→5.8 FPS），不适合实时部署。

Q2: 为什么只测试了静态水面（泳池）？

答: 作者承认这是数据集的局限性，后续计划扩展到恶劣天气、大风浪场景。目前泳池环境可控，适合建立 baseline，但代表性与真实海域差距较大。

CANSURF: An ASV-View Can Dataset and Benchmark for Detection and Tracking of Surface-Level Debris ​

摘要 ​

1. Introduction ​

2. Literature Review ​

3. Methodology ​

A. 数据集 ​

B. 目标检测 ​

C. 多目标跟踪 ​

4. Experiments ​

检测结果 ​

跟踪结果 ​

5. Conclusion ​

个人评价 ​

疑问解答 (Q&A) ​

Q1: SAHI 为什么 Recall 提升但 Precision 大幅下降？ ​

Q2: 为什么只测试了静态水面（泳池）？ ​