计算机视觉:目标检测、人脸识别

学习日志2023-05-07创建Howard 1,223 次浏览

1、目标检测

图像分类:分类、概率

目标检测:给出位置、分类、概率

数据标注:坐上坐标,右下坐标 矩形框 (x1,y1,x2,y2,class)

目标检测常用数据集:PASCAL VOC、MS COCO(30W+图片,80个分类)

计算机视觉:目标检测、人脸识别-BtoAI

目标检测的操作:

  • IoU 表示两个矩形的重叠程度
  • NMS 去掉多个重复的预测框,设置一个IoU阈值,然后对分数进行排序,计算IoU选一个最好的

评价指标:

计算机视觉:目标检测、人脸识别-BtoAI

2、检测方法

计算机视觉:目标检测、人脸识别-BtoAI

二阶段目标检测—Faster RCNN,速度慢

一阶段目标检测—YOLO V8,快

目标检测新范式—DETR,训练时间长

3、实战

计算机视觉:目标检测、人脸识别-BtoAI
计算机视觉:目标检测、人脸识别-BtoAI
# 模型推理
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
from modelscope.outputs import OutputKeys

realtime_detector = pipeline(Tasks.image_object_detection, model=os.path.join(work_dir,'output'))
result = realtime_detector('./p001.png')
# 打印结果
print(result)

模型:

https://www.modelscope.cn/models/damo/cv_cspnet_image-object-detection_yolox/summary

4、人脸检测

计算机视觉:目标检测、人脸识别-BtoAI
face_detection = pipeline(task=Tasks.face_detection, model='damo/cv_ddsar_face-detection_iclr23-damofd-2.5G')
# 支持 url image and abs dir image path
img_path = './p02.png'
result = face_detection(img_path)

# 提供可视化结果
from modelscope.utils.cv.image_utils import draw_face_detection_result
from modelscope.preprocessors.image import LoadImage
img = LoadImage.convert_to_ndarray(img_path)
cv2.imwrite('srcImg.jpg', img)
img_draw = draw_face_detection_result('srcImg.jpg', result)
import matplotlib.pyplot as plt
plt.imshow(img_draw)

模型:

https://www.modelscope.cn/models/damo/cv_ddsar_face-detection_iclr23-damofd-2.5G/summary

更多文章

计算机视觉:图像分类实践

1、基本概念 图像分类 应用:电商图片分类、图片内容检索、垃圾分类、相册分类等 划分为:多类别、细粒度、多标签、零样本图像分类 传统图像分类手工提取特征+分类器 深度学习分类是从数据中学习特征 评估指标有:精度、召回率、F1-score、PR曲线、ROC曲线、混淆矩阵 经典的开源数据集有: •MNIST:手写数字数据集,6万张图片,10类,1x28x28,均匀分布 •CIFAR10:真实彩色图片,…

学习日志 2023-05-07
计算机视觉:图像分类实践

大模型学习路线

整理了一下大模型与多模态大模型的技术路线,包括基础课程、经典教材、开源项目等。 1.什么是大模型 大模型全称是大型语言模型(Large Language Model, LLM),指具有超大规模参数量(通常超过十亿个)的深度神经网络模型。 大模型是自然语言处理(NLP)领域的重要技术分支,从技术角度来看,大模型特指近年来以Transformer架构(谷歌2017年首次提出)为核心的超大规模神经网络模…

机器学习 资料库 2025-06-06
大模型学习路线
回到顶部