近两年来,有关Transformer的文章可谓是井喷式爆发,许多研究员都在设计各种任务上的Transformer模型。然而,Attention作为Transformer的核心模块,真的比卷积强吗?今天的这篇文章或许能带给你新视角,微软亚洲研究院的研究员们从Local Attention和Dynamic Depth-wise ...
自动驾驶中的视觉感知模块通过图像或视频数据来了解车辆周围环境,具体的任务包括物体检测和跟踪(2D或3D物体),语义分割(2D或3D场景),深度估计,光流估计等。 这篇文章里我们先介绍一下基于图像或视频的2D物体检测和跟踪,以及2D场景的语义分割。这几个 ...
这些,但是并不清楚它们实际意味着什么,本文就是带大家学习这些卷积到底是如何工作的。 在本文中,我尽量使用简单明了的方式向大家解释深度学习中常用的几种卷积,希望能够帮助你建立学习体系,并为你的研究提供参考。 Convolution VS Cross-correlation 卷积 ...