RomanticQq

保持对生活的热爱，唯有生活不可被辜负

0%

swim transformer的理解

发表于 2023-03-16 分类于计算机视觉阅读次数： Valine：

本文字数： 191 阅读时长 ≈ 1 分钟

在Patch Partition中，对于图片的下采样不是采用卷积的形式，而是采用真正分割的方式；
在进行注意力计算时，token的长度和通道数相等，比如[h,w,c]，那么就有h*w个token；
添加偏置项是在Q*K之后进行的；
SW-MSA中的mask是在添加完偏置项以后加上去的，W-MSA省略这一步；
每个stage只创建一次mask，因此尺寸大小相等，不用重复创建；