1、基本概念
图像分类
应用:电商图片分类、图片内容检索、垃圾分类、相册分类等
划分为:多类别、细粒度、多标签、零样本图像分类
传统图像分类手工提取特征+分类器
深度学习分类是从数据中学习特征
评估指标有:精度、召回率、F1-score、PR曲线、ROC曲线、混淆矩阵
经典的开源数据集有:
•MNIST:手写数字数据集,6万张图片,10类,1x28x28,均匀分布
•CIFAR10:真实彩色图片,6万张图片,10类,3x32x32,均匀分布
•CIFAR100:真实彩色图片,6万张图片,100类,3x32x32,均匀分布
•PASCAL:真实彩色图片,9963张图片,20类,24640个标注目标
•ImageNet:真实彩色图片,14,197,122张图片,1000类,百万标准框
2、CNN模型
深度学习分类思想
视觉分层理论,从底层到高层不断抽象
CNN即卷积神经网络
3、Transformer模型
Transformer-SA/MHA
ViT(Vision Transformer):
- 第一个纯transformer的视觉模型,没有卷积层
- 在大规模数据集上进行预训练时优于cnn
- 使用image patches
- 应用多个transformer编码器
DeiT:
- 使用蒸馏方式,帮助transformer学习local信息
- 使用蒸馏方式,大大降低了训练transformer的数据量,使用CNN做teacher(如RegNetY)
- 减少数据量和训练时间
Swin:
- 分层特征表示
- SW-MSA (SW-MSA,shifted window-MSA)、W-MSA(window-MSA)
- Patch Partition、 Patch merging
- 堆叠swin-transformer块
4、魔搭实践
*模型是transformer模型在视觉中的一个应用,我们简称为ViT。ViT模型,是自然语言领域中的transformer模型在计算机视觉上的一个开山之作。ModelScope上的模型采用的是基于transformer的ViT-Base结构,并在此基础上加入了蒸馏token进行知识蒸馏,也就是采用了DeiT的知识蒸馏的训练方式。
*实践文档:
https://blog.csdn.net/tantanweiwei/article/details/130139458
*实践效果:
https://www.modelscope.cn/studios/lskhh/flower_classification14/summary