目标检测Backbone系列（2）：CBAM —— Spatial Attention空间注意力及Resnet_cbam实现

作者：热心市民鹿先生2024.03.12 23:08浏览量：110

简介：本文将介绍CBAM（Convolutional Block Attention Module）中的空间注意力机制，并展示如何在ResNet网络中集成CBAM模块。CBAM通过增强网络对输入特征的空间关系理解，提升目标检测性能。我们将通过代码实例和图表来详细解释CBAM的实现过程。

在深度学习中，注意力机制被广泛用于增强模型对输入数据的敏感性和理解能力。其中，CBAM（Convolutional Block Attention Module）是一种有效的注意力机制，它通过结合通道注意力（Channel Attention）和空间注意力（Spatial Attention）来增强卷积神经网络（CNN）的特征提取能力。在上一篇文章中，我们详细探讨了CBAM的通道注意力部分，本文将重点关注空间注意力，并展示如何在ResNet网络中加入CBAM模块。

空间注意力（Spatial Attention）

空间注意力关注的是输入特征图中不同位置的信息重要性。在图像识别任务中，空间注意力可以帮助模型确定图像中哪些区域对于当前任务更为关键。空间注意力通常通过生成一个二维的空间权重图来实现，该权重图与输入特征图的尺寸相同，每个位置的值表示该位置在特征图中的重要性。

空间注意力的计算通常基于输入特征图的全局信息，常见的实现方式有使用平均池化或最大池化对特征图进行压缩，然后通过全连接层或卷积层生成空间权重图。

ResNet中的CBAM实现

为了将CBAM集成到ResNet中，我们需要在每个残差块（Residual Block）之后添加CBAM模块。这包括通道注意力模块和空间注意力模块。

下面是一个简单的ResNet_CBAM的PyTorch实现示例，以ResNet-50为例：

```python
import torch
import torch.nn as nn
from torchvision.models import resnet50

class CBAM(nn.Module):
def init(self, channel, reduction=16):
super(CBAM, self).init()
self.avg_pool = nn.AdaptiveAvgPool2d(1)
self.max_pool = nn.AdaptiveMaxPool2d(1)

    self.fc1 = nn.Conv2d(channel, channel // reduction, 1, bias=False)
    self.relu1 = nn.ReLU(inplace=True)
    self.fc2 = nn.Conv2d(channel // reduction, channel, 1, bias=False)
    self.sigmoid_channel = nn.Sigmoid()
    self.sigmoid_spatial = nn.Sigmoid()
def forward(self, x):
    avg_out = self.fc2(self.relu1(self.fc1(self.avg_pool(x))))
    max_out = self.fc2(self.relu1(self.fc1(self.max_pool(x))))
    out = avg_out + max_out
    attention = self.sigmoid_channel(out)
    avg_out_spatial = torch.mean(x, dim=1, keepdim=True)
    max_out_spatial, _ = torch.max(x, dim=1, keepdim=True)
    x = torch.cat([avg_out_spatial, max_out_spatial], dim=1)
    x = self.fc2(self.relu1(self.fc1(x)))
    spatial_attention = self.sigmoid_spatial(x)
    out = x * attention * spatial_attention
    return out

class ResNetCBAM(nn.Module):
def init(self, block, layers, numclasses=1000):
super(ResNet_CBAM, self).__init()
self.inplanes = 64
self.conv1 = nn.Conv2d(3, 64, kernel_size=7, stride=2, padding=3, bias=False)
self.bn1 = nn.BatchNorm2d(64)
self.relu = nn.ReLU(inplace=True)
self.maxpool = nn.MaxPool2d(kernel_size=3, stride=2, padding=1)
self.layer1 = self._make_layer(block, 64, layers[0])
self.layer2 = self._make_layer(block, 128, layers[1], stride=2)
self.layer3

发表评论

开发者关注产品榜

最热文章

关于作者

被阅读数
被赞数
被收藏数

开发者热搜

目标检测Backbone系列（2）：CBAM —— Spatial Attention空间注意力及Resnet_cbam实现

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

百度千帆·大模型服务及Agent开发平台

百度千帆·数据智能平台

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者