【汇总】CV 图像分类常见的 36 个模型
2024.02.16 02:19浏览量:15简介:本文将介绍计算机视觉(CV)中常见的 36 个图像分类模型,帮助您了解不同模型的特点和应用场景。
千帆应用开发平台“智能体Pro”全新上线 限时免费体验
面向慢思考场景,支持低代码配置的方式创建“智能体Pro”应用
在计算机视觉(CV)领域,图像分类是常见的任务之一。随着深度学习技术的发展,许多优秀的图像分类模型不断涌现。本文将为您介绍 36 个常见的图像分类模型,帮助您了解它们的原理、特点和优缺点。
LeNet-5
LeNet-5 是最早的卷积神经网络(CNN)之一,主要用于数字识别。AlexNet
AlexNet 是一个深度卷积神经网络,因在 ImageNet 竞赛中取得突破性成果而广为人知。VGGNet
VGGNet 通过使用连续的小滤波器来增加感受野,并在 ImageNet 竞赛中取得了很好的成绩。GoogLeNet
GoogLeNet 采用了一种称为“Inception”的结构,以减少参数数量并提高计算效率。ResNet
ResNet(残差网络)通过引入残差块来克服深度神经网络的训练难题。DenseNet
DenseNet 通过连接每一层到多层来提高特征复用,并在 ImageNet 竞赛中表现出色。SqueezeNet
SqueezeNet 旨在减少参数数量和计算复杂度,同时保持较高的分类精度。MobileNet
MobileNet 是为移动设备和嵌入式设备设计的轻量级 CNN,具有较低的计算复杂度和参数数量。ShuffleNet
ShuffleNet 通过在通道维度上重新排列特征图来提高计算效率和性能。EfficientNet
EfficientNet 结合了宽度、深度和分辨率的扩展,以实现更高的精度和更小的模型大小。NASNet
NASNet 是通过神经架构搜索(NAS)技术找到的优秀模型,在 ImageNet 竞赛中取得了最高精度。PNASNet
PNASNet 是通过使用一种称为“progressive neuro-evolution”的方法找到的模型,在 ImageNet 竞赛中取得了高精度。Inception-v4
Inception-v4 是 GoogLeNet 的一个改进版本,具有更高的准确率和更小的模型大小。Xception
Xception 通过使用深度分离卷积来改进 CNN,提高了计算效率和分类精度。ResNeXt
ResNeXt 结合了 ResNet 和多路径思想,通过使用“cardinality”扩展来提高性能。PyramidNet
PyramidNet 通过将多个不同大小的卷积核应用于同一输入来提高特征提取能力。Transformer
Transformer 结构最初是为自然语言处理任务设计的,但在图像分类任务中也表现出色。Vision Transformer (ViT)
ViT 是将 Transformer 结构应用于图像分类任务的模型,通过将图像划分为多个patches并逐个处理来提高性能。DeiT (Data-efficient Image Transformers)
DeiT 是一种数据效率高的图像分类模型,通过使用知识蒸馏技术从预训练模型中提取知识。Swin Transformer
Swin Transformer 是一种基于“windowed attention”机制的模型,通过局部自注意力机制来提高对图像局部结构的关注度。MAE (Masked Autoencoders for Denoising扩散模型
MAE通过将图像编码为一组掩码的像素嵌入来训练有损的图像编码器,从而实现去噪和超分辨率。在预训练过程中,MAE对原始图像进行掩码以破坏其部分像素信息,并迫使模型仅依赖于其他未被破坏的部分来恢复原始图像。由于MAE专注于保留图像中的重要结构信息,因此它能够生成高质量的超分辨率图像和去噪结果。ESRGAN (Enhanced Super-Resolution Generative Adversarial Networks)
ESRGAN是一种用于超分辨率的生成对抗网络(GAN),它通过使用残差块和自适应实例标准化等技术来提高生成图像的质量。ESRGAN在训练过程中采用对抗性损失和重构损失,以生成逼真的超分辨率图像。GauGAN (Generative Adversarial Networks with Conditional Generators)
G

发表评论
登录后可评论,请前往 登录 或 注册