计算机视觉:图像分类实践

📁学习日志📆2023-05-07 🤯PH 👀1,081 次浏览

1、基本概念

图像分类

应用:电商图片分类、图片内容检索、垃圾分类、相册分类等

划分为:多类别、细粒度、多标签、零样本图像分类

计算机视觉:图像分类实践-BtoAI 波特埃

传统图像分类手工提取特征+分类器

深度学习分类是从数据中学习特征

评估指标有:精度、召回率、F1-score、PR曲线、ROC曲线、混淆矩阵

计算机视觉:图像分类实践-BtoAI 波特埃

经典的开源数据集有:

•MNIST:手写数字数据集,6万张图片,10类,1x28x28,均匀分布

•CIFAR10:真实彩色图片,6万张图片,10类,3x32x32,均匀分布

•CIFAR100:真实彩色图片,6万张图片,100类,3x32x32,均匀分布

•PASCAL:真实彩色图片,9963张图片,20类,24640个标注目标

•ImageNet:真实彩色图片,14,197,122张图片,1000类,百万标准框

2、CNN模型

深度学习分类思想

视觉分层理论,从底层到高层不断抽象

CNN即卷积神经网络

3、Transformer模型

Transformer-SA/MHA

ViT(Vision Transformer):

  • 第一个纯transformer的视觉模型,没有卷积层
  • 在大规模数据集上进行预训练时优于cnn
  • 使用image patches
  • 应用多个transformer编码器

DeiT:

  • 使用蒸馏方式,帮助transformer学习local信息
  • 使用蒸馏方式,大大降低了训练transformer的数据量,使用CNN做teacher(如RegNetY)
  • 减少数据量和训练时间

Swin:

  • 分层特征表示
  • SW-MSA (SW-MSA,shifted window-MSA)、W-MSA(window-MSA)
  • Patch Partition、 Patch merging
  • 堆叠swin-transformer块

4、魔搭实践

计算机视觉:图像分类实践-BtoAI 波特埃

*模型是transformer模型在视觉中的一个应用,我们简称为ViT。ViT模型,是自然语言领域中的transformer模型在计算机视觉上的一个开山之作。ModelScope上的模型采用的是基于transformer的ViT-Base结构,并在此基础上加入了蒸馏token进行知识蒸馏,也就是采用了DeiT的知识蒸馏的训练方式。

*实践文档:

https://blog.csdn.net/tantanweiwei/article/details/130139458

*实践效果:

https://www.modelscope.cn/studios/lskhh/flower_classification14/summary

更多文章

回到顶部