swim transformer的理解 发表于 2023-03-16 分类于 计算机视觉 阅读次数: Valine: 本文字数: 191 阅读时长 ≈ 1 分钟 参考博客 参考视频 在Patch Partition中,对于图片的下采样不是采用卷积的形式,而是采用真正分割的方式; 在进行注意力计算时,token的长度和通道数相等,比如[h,w,c],那么就有h*w个token; 添加偏置项是在Q*K之后进行的; SW-MSA中的mask是在添加完偏置项以后加上去的,W-MSA省略这一步; 每个stage只创建一次mask,因此尺寸大小相等,不用重复创建;