swim transformer的理解

参考博客

参考视频

image-20230316150350681

2

  1. Patch Partition中,对于图片的下采样不是采用卷积的形式,而是采用真正分割的方式;
  2. 在进行注意力计算时,token的长度和通道数相等,比如[h,w,c],那么就有h*w个token;
  3. 添加偏置项是在Q*K之后进行的;
  4. SW-MSA中的mask是在添加完偏置项以后加上去的,W-MSA省略这一步;
  5. 每个stage只创建一次mask,因此尺寸大小相等,不用重复创建;