计算机视觉：图像分类实践

1、基本概念

图像分类

应用：电商图片分类、图片内容检索、垃圾分类、相册分类等

划分为：多类别、细粒度、多标签、零样本图像分类

传统图像分类手工提取特征+分类器

深度学习分类是从数据中学习特征

评估指标有：精度、召回率、F1-score、PR曲线、ROC曲线、混淆矩阵

经典的开源数据集有：

•MNIST：手写数字数据集，6万张图片，10类，1x28x28，均匀分布

•CIFAR10：真实彩色图片，6万张图片，10类，3x32x32，均匀分布

•CIFAR100：真实彩色图片，6万张图片，100类，3x32x32，均匀分布

•PASCAL：真实彩色图片，9963张图片，20类，24640个标注目标

•ImageNet：真实彩色图片，14,197,122张图片，1000类，百万标准框

2、CNN模型

深度学习分类思想

视觉分层理论，从底层到高层不断抽象

CNN即卷积神经网络

3、Transformer模型

Transformer-SA/MHA

ViT(Vision Transformer)：

第一个纯transformer的视觉模型，没有卷积层
在大规模数据集上进行预训练时优于cnn
使用image patches
应用多个transformer编码器

DeiT：

使用蒸馏方式，帮助transformer学习local信息
使用蒸馏方式，大大降低了训练transformer的数据量，使用CNN做teacher（如RegNetY）
减少数据量和训练时间

Swin：

分层特征表示
SW-MSA (SW-MSA，shifted window-MSA)、W-MSA(window-MSA)
Patch Partition、 Patch merging
堆叠swin-transformer块

4、魔搭实践

*模型是transformer模型在视觉中的一个应用，我们简称为ViT。ViT模型，是自然语言领域中的transformer模型在计算机视觉上的一个开山之作。ModelScope上的模型采用的是基于transformer的ViT-Base结构，并在此基础上加入了蒸馏token进行知识蒸馏，也就是采用了DeiT的知识蒸馏的训练方式。

*实践文档：

https://blog.csdn.net/tantanweiwei/article/details/130139458

*实践效果：

https://www.modelscope.cn/studios/lskhh/flower_classification14/summary

1、基本概念

2、CNN模型

3、Transformer模型

4、魔搭实践

更多文章

Python爬虫示例-豆瓣电影TOP250

计算机视觉：目标检测、人脸识别