本文提出了一个模块化的 Split-Attention 块，能够跨特征图组进行注意力操作

通过将这些 Split-Attention 块以 ResNet 方式叠加得到的一个新ResNet变体，称之为ResNeSt。

本文网络保留了整个ResNet结构，可以直接用于下游任务，而不会引入额外的计算成本。

介绍

我们研究了了ResNet的一个简单的结构性修改，在各个网络块中加入了特征图分割注意力机制。

我们的每个块都将特征图沿通道维度分为若干组和更细的子组或分块，其中每组的特征表示(输出?)是通过其分块的表示的加权组合来确定的.

我们把这样的单元称为 Split-Attention块。

通过堆叠几个 Split-Attention 块，我们创建了一个类似 ResNet 的网络，称为ResNeSt.

ResNeSt很容易被用作其他视觉任务的骨干网络,并且在多个任务上得到最先进的性能.

`Split-Attention` 网络

Split-Attention 块可以在不同的特征图组中进行特征图注意力机制.

特征图组的数目由cardinality超参数 $K$ 给出.我们将得到的特征图组称为 cardinal组.

我们引入了一个新的radix超参数 $R$ ,它表示cardinal组内进一步划分的splits数.

可以对每个单独的 split 应用一系列变换 $\{\mathcal{F}_1,\mathcal{F}_2,...,\mathcal{F}_G\}$ ,那么每个 split 的中间表示便是 $U_i = \mathcal{F}_i(X)$ .

每个cardinal组的表示可以通过多个split的元素求和获得。

第 $K$ 个cardinal组的表示为 $\hat{U}^k=\sum^{Rk}_{j=R(k-1)+1}U_j$ .

其中 $\hat{U}^k \in \mathbb{R}^{H \times W \times C/K},\;k\in 1,2,...,K$ .

$H,W,C$ 是块的输出的特征图的尺寸.

嵌入通道统计的全局上下文信息可以用全局平均池化收集各空间维度的数据

第 $c$ 个通道为

s^k_c = \frac{1}{H \times W}\sum^H_{i=1}\sum^W_{j=1}\hat{U}^k(i,j)

其中 $s^k \in \mathbb{R}^{C/K}$

cardinal组表示的加权融合 $V^k \in \mathbb{R}^H \times W \times C \times K$ 通过按通道软注意力聚合的

每个特征图通道都使用channel-wise soft attention的加权组合生成,每个通道计算如下:

V^k_c=\sum^R_{i=1}a^k_i(c)U_{R(k-1)+i}

其中 $\alpha^k_i(c)$ 表示(软)分配权重:

a^k_i(c)= \begin{cases} \frac{\exp(\mathcal{G}^c_i(s^k))}{\sum^R_{j=0}\exp(\mathcal{G}^c_j(s^k))} & if R>1 \\ \frac{1}{1+\exp(-\mathcal{G}^c_j(s^k))}& if R=1 \end{cases}

映射 $\mathcal{G}^c_i$ 根据全局上下文表示 $s^k$ 确定第 $c$ 个通道的每个 splits 的权重.

将cardinal组的表示沿着通道维度拼接: $V=Concat\{V^1,V^2,...,V^K\}$

如同标准的残差块一样,若输入和输出特征图形状相同,最终输出 $Y$ 是由跳层链接产生的: $Y=V+X$ .

对于有stride的块,将适当的变换 $\mathcal{T}$ 应用于跳层连接以对齐输出形状: $Y = V + T (X)$ .例如, $\mathcal{T}$ 可以是跨步卷积或卷积和池化的组合。

组变换 $\mathcal{F}_i$ 由 1×1 卷积与3×3 卷积组成,映射(注意力权重函数) $\mathcal{G}$ 使用两个全连接层(ReLU)进行参数化.

具有相同的基数和通道数量下Split-Attention 块的参数数量和FLOPS与残差块大致相同

这项工作提出了具有新颖的Split-Attention块的ResNeSt架构,可以普遍提高学习到的特征表示,在很多下游任务中作为骨干网络可以大大提升网络性能.

Split-Attention块容易操作,计算成本第,因此应该广泛适用于各种视觉任务