Skip to content

arXiv日报 - 2026

2026-06-25

今日 cs.CV 共 94 篇论文,命中 1 篇。

1. LEVIRDet: A Million-Scale 159-Category Dataset and Foundation Model for Universal Remote Sensing Object Detection

  • 作者: Qinzhe Yang, Dongyu Wang, Haohan Niu, Jia Xu, Zhenwei Shi, Zhengxia Zou
  • 关键词: object detection
  • 推荐度: ⭐值得深入
  • 推荐理由: 百万级遥感目标检测数据集+基础模型。LEVIRDet-159 是当前最大的遥感检测数据集(159类/256万框),LEVIRDetNet 通过在线 GSD 预测+层次检测头实现零样本跨域泛化,在9个外部基准上平均超全监督 SOTA 5.02 mAP。数据集和模型将开源,对遥感检测通用化有重要推动。

提出 LEVIRDet-159 数据集(159类、256万边界框、70万细粒度标注)和 LEVIRDetNet 基础模型,通过在线 GSD 预测与层次感知检测头实现跨传感器/跨分辨率通用遥感目标检测,零样本在9个外部基准达到 SOTA。


2026-06-24

今日 cs.CV 共 116 篇论文,命中 4 篇。

1. From Spatial to Spectral: An Efficient, Frequency-Guided Feature Representation Learner for Small Object Detection

  • 作者: Yuhan Rui, Shihan Qiao, Yibin Lou, Mingxi Yu, Yutong Wan, Yanqiao Chen, Dongsheng Hou, Zhen Cao, Athena Zhuoming Zhong, Qi Hao
  • 关键词: object detection, small object, yolo
  • 推荐度: ⭐值得深入
  • 推荐理由: 小目标检测直接相关,提出频域特征范式(从 spatial 转向 spectral),DER 算子灵活通用(CNN/Transformer),DERNet 在同等规模下超越 YOLOv11 且参数仅 1/6,多基准验证(VisDrone, UAVDT, TinyPerson, DOTA)。方向新颖且实用性强。

提出频域特征表示框架 DERNet,通过 Decompose-Enhance-Reconstruct 算子在 backbone/neck/head 注入频域调制,高效恢复小目标的高频细节。在 VisDrone/UAVDT/TinyPerson/DOTAv1 上达到 SOTA,DERNet 以仅 1/6 的参数超越 YOLOv11。


2026-06-09

今日 cs.CV 共 217 篇论文,命中 7 篇。

  • 作者: Wuming Lei, Yanbin Gao, Mingyan Sun, Xiaobin Li, Xuechen Liang
  • 关键词: object detection
  • 推荐度: ⭐值得深入
  • 推荐理由: 将量子启发进化算法用于轻量无人机检测网络的结构搜索,结合 P2 高分辨率分支提升小目标检测。VisDrone 上 AP_small 提升 31%

在 YOLOX-Nano 基础上引入 P2 高分辨率分支和量子启发进化算法进行轻量结构搜索,VisDrone 上小目标 AP 提升 31%


2026-06-05

今日 cs.CV 共 101 篇论文,命中 2 篇。

1. BMCR: Adaptive Backbone Module Composition via Reinforcement Learning for Remote Sensing Object Detection

  • 作者: Liu, Wenlin, Hu, Xikun, Zhong, Ping
  • 关键词: object detection
  • 推荐度: 📖可浏览
  • 推荐理由: 遥感目标检测方向,用RL动态组合CNN和ViT模块构建自适应backbone。核心创新是模块分解+OT对齐+RL路由。遥感领域非主要关注方向,但跨backbone动态组合的思路值得了解。

遥感目标检测中CNN和ViT骨干的动态组合方法。通过强化学习从可复用模块中自适应组装推理路径,使用最优传输接口实现跨族对齐。

2. Unveiling the Unknown: Open Vocabulary Object Detection with Scene Graphs

  • 作者: Chen, Yi, Lu, Yinghao, Li, Zhehao 等
  • 关键词: object detection
  • 推荐度: ⭐值得深入
  • 推荐理由: 开放词汇检测直接相关。用场景图建模区域间语义和空间关系来解决OVOD中novel category检测问题,思路新颖。涉及Relation Attention Module和scene-based textual alignment,与猴哥的检测+场景理解方向相关。

开放词汇目标检测方法。通过场景图结构引导检测器识别未见类别。


2026-06-03

今日 cs.CV 共 123 篇论文,命中 3 篇。

3. Ultralytics YOLO26: Unified Real-Time End-to-End Vision Models

  • 作者: Glenn Jocher, Jing Qiu, Mengyu Liu, Shuai Lyu
  • 关键词: yolo
  • 推荐度: ⭐值得深入
  • 推荐理由: YOLO26 官方论文,Ultralytics 发布。NMS-Free 端到端架构、MuSGD 优化器、Progressive Loss。

摘要:YOLO26 通过 dual-head 设计实现原生 NMS-free 推理,移除 DFL,引入 MuSGD(从 LLM 训练引入的 Muon+SGD),STAL 小目标标签分配,ProgLoss 动态损失。


2026-06-02

今日 cs.CV 共 299 篇论文,命中 6 篇。

1. FlowOVD: Learning Generative Latent Flows for Zero-shot Open-vocabulary Detection

  • 作者: Yao Wei, Andrea Cavallaro, Changjae Oh
  • 关键词: object detection, open-vocabulary detection
  • 推荐度: ⭐值得深入
  • 推荐理由: 把 decoder query 生成建模为 rectified flow,替代传统离散 query 构造。COCO 49.5 AP (+1.2 over GroundingDINO), LVIS 31.5 AP (+4.1)。思路干净效果扎实。

提出 FlowOVD,通过 rectified flow 将 text-agnostic query 渐进转化为 text-guided query。无需额外训练数据即超越 GroundingDINO。

2. LFA: Layer Feature Attention for Run-Time Introspection of 2D Object Detectors in Automated Driving

  • 作者: Mert Keser, Alois Knoll
  • 关键词: object detection, object detector
  • 推荐度: ⭐值得深入
  • 推荐理由: 利用 attention 聚合多层 backbone 特征预测检测器错误,比单层 last-layer 方法更好。与检测器可靠性分析方向相关。

轻量级 introspection 方法,学习多 backbone 层的重要性权重。在 KITTI 和 BDD100K 上达到 SOTA introspection 性能。

3. Self-Improving Small Object Grounding in LVLMs

  • 作者: Tianze Yang, Yucheng Shi, Ruitong Sun, Ninghao Liu, Jin Sun
  • 关键词: small object
  • 推荐度: 📖可浏览
  • 推荐理由: 用 LVLM attention map 训 IoU 回归器优化小目标定位,无需 fine-tune。ACS-Free 的训-free selector 思路可参考。

提出 ACS 框架,用 attention 编码定位质量选择最优 box。COCO 和 Objects365 小目标定位提升最高 19%。

4. Collaborative Space Object Detection with Multi-Satellite Viewpoints

  • 作者: Xingyu Qu, Wenxuan Zhang, Peng Hu
  • 关键词: object detection, yolo
  • 推荐度: 📖可浏览
  • 推荐理由: 多视角融合空间目标检测,YOLOv9-m baseline。领域特殊,但多视角融合思路可借鉴。

多卫星视角融合 + YOLO,三视角 RGB 将 mAP50 从 0.638 提升到 0.732。


2026-05-27(补)

今日 cs.CV 共 105 篇论文,命中 2 篇。

1. LV-OSD: Language-Vision-Complementary Open-Set Object Detection

  • 作者: Yupeng Zhang, Ruize Han, Wei Feng, Song Wang, Liang Wan
  • 关键词: object detection, open-set, multi-modal
  • 推荐度: 📖可浏览
  • 推荐理由: 提出双分支开放检测框架 LVDor,同时支持文本和图像 prompts,TPDW 模块动态加权对齐多模态语义。

摘要:提出 LV-OSD 问题,设计 LVDor 框架同时接收文本和图像提示,TPDW 模块动态对齐目标语义。


2026-05-27

今日 cs.CV 共 254 篇论文,命中 7 篇。

1. DisDop: Distillation with Domain Priors for Open-Vocabulary Aerial Object Detection

  • 作者: Ruihao Xu 等
  • 关键词: object detection, open-vocabulary, distillation, aerial detection
  • 推荐度: ⭐值得深入
  • 推荐理由: 面向无人机航拍场景的开放词汇检测,用 RemoteCLIP+DINOv3 蒸馏领域先验,在遥感数据集上 SOTA。
  • 阅读笔记: 2026-05-23-disdop

摘要:针对无人机视角图像稀缺、与自然图像差异大的问题,提出 DisDop 框架,从遥感基础模型(RemoteCLIP、DINOv3)中蒸馏多层次领域先验到轻量检测器。

2. AdaFuse-Det: Adaptive Cross-Modal Fusion of Event Cameras for Robust Object Detection in Low-Light RGB Imagery

  • 作者: Bharatesh Chakravarthi 等
  • 关键词: object detection, event camera, cross-modal fusion
  • 推荐度: 📖可浏览
  • 推荐理由: 事件相机+RGB 融合用于低光目标检测,理论证明优雅(最小方差线性估计),在 LLE-VOS 基准上提升明显。

摘要:提出 AdaFuse-Det,双流框架融合 CLAHE 增强的 RGB 和事件相机数据,使用自适应跨模态融合模块。

3. Calibrating Probabilistic Object Detectors with Annotator Disagreement

  • 作者: Zhi Qin Tan 等
  • 关键词: object detector, calibration, uncertainty
  • 推荐度: 📖可浏览
  • 推荐理由: 解决标注不一致问题下的检测器校准,不使用 GT,对齐预测不确定性与标注者分布。方法通用。

摘要:针对模糊目标标注不一致问题,提出无需 GT 的概率检测器校准框架,对齐分类和定位的置信度与标注分布。

4. Multiscale Real-Time Object Detection in the NMS-Free Era: YOLOv8 vs YOLO26

  • 作者: Ozioma C. Oguine
  • 关键词: yolo, nms-free, object detection
  • 推荐度: ⏭不推荐
  • 推荐理由: YOLOv8 和 YOLO26 的对比分析文章,无新方法。YOLO26 在 Pascal VOC 更强,YOLOv8 在 GPU 延迟仍有优势。

摘要:在 Pascal VOC 和 VisDrone 上对比 YOLOv8 和 YOLO26,NMS-free 设计不一定在所有场景有优势。

5. TinyFormer: Preserving Tiny Objects in YOLO-DETR Hybrid Real-time Detectors

  • 作者: Jun-Wei Hsieh 等
  • 关键词: yolo, detr, tiny object detection, real-time
  • 推荐度: ⭐值得深入
  • 推荐理由: YOLO-DETR 混合架构解决小目标检测,SOTA 性能(58.4% AP small objects)。PBM 模块和 SSA 设计针对性强。
  • 阅读笔记: 2026-05-24-tinyformer

摘要:TinyFormer 统一 YOLO 和 DETR 混合实时检测器,提出 PBM 保持高分辨率特征,SSA 补偿 token 化带来的空间损失。

6. Weakly Supervised Camouflaged Object Detection Based on SAM Model and Mask Guidance

  • 作者: Xia Li 等
  • 关键词: camouflaged object detection, sam, weakly supervised
  • 推荐度: 📖可浏览
  • 推荐理由: 用 SAM 生成 pseudo labels 做弱监督伪装目标检测,BoxSAM + MGNet 思路可参考。

摘要:提出 MGNet 和 BoxSAM,用 SAM 结合边界框提示生成高质量 pseudo labels 进行弱监督训练。

7. SAM3-Assisted Training of Lightweight YOLO Models for Precision Pig Farming

  • 作者: Marcos Faria 等
  • 关键词: yolo, sam, precision agriculture
  • 推荐度: ⏭不推荐
  • 推荐理由: 农业应用,用 SAM3 蒸馏 YOLO 到猪场检测,方法常规,应用导向。

摘要:用 SAM3 零样本生成 pseudo labels 训练 YOLOv8,在 PigLife 数据集上 mAP 79.4%,推理延迟降低 200 倍。


2026-05-26

今日 cs.CV 共 179 篇论文,命中 10 篇。

5. MDS-DETR: DETR with Masked Duplicate Suppressor

  • 推荐度: ⭐值得深入
  • 说明: DETR 改进,Masked Duplicate Suppressor 在单解码器内同时利用 one-to-one 和 one-to-many 监督

2026-05-21

今日 cs.CV 共 141 篇论文,命中 6 篇。

1. Decoupling Ego-Motion from Target Dynamics for UAV Detection

  • 推荐度: 📖可浏览
  • 说明: 双间隔运动线索解耦自运动与目标运动,YOLOv8 基线在 VisDrone-VID 上提升

2. SADGE: Structure and Appearance Domain Gap Estimation

  • 推荐度: 📖可浏览
  • 说明: 合成/真实数据域差距量化指标,DINOv3+MASt3R 融合 Pearson r=0.88

3. Synthetic RAW Augmentations for Low-Light Person Detection

  • 推荐度: 📖可浏览
  • 说明: 行人夜间检测,合成 RAW 低光照增强,性能指标与真实低光数据一致

5. Impact of Atmospheric Turbulence and Pointing Error on Earth Observation

  • 推荐度: 📖可浏览
  • 说明: 大气湍流/抖动对卫星目标检测的影响,YOLOv8 召回从 91% 降至 <40%,RetinaNet 更鲁棒

2026-05-20

今日 cs.CV 共 134 篇新论文,命中 7 篇(arXiv API 429/503,通过 HTML 列表页降级获取)。

1. LER-YOLO: RGB-IR UAV Detection

  • 推荐度: 📖可浏览
  • 说明: 可靠性感知 MoE,RGB-IR 双模态小 UAV 检测,89.9% AP50

2. GSA-YOLO: X-ray Security Inspection

  • 推荐度: 📖可浏览
  • 说明: 结构化稀疏 + 自适应知识蒸馏,X 光安检,8.0G FLOPs / 189 FPS