机器视觉 CV

1. 传统视觉

  • 均值滤波

2. 模型

2.1 分类

  • ResNet

    • 解决网络过深带来的梯度消失问题

  • ConvNext

  • ViT

    • Transformer模型的视觉应用

  • 深度可分离卷积

2.2 检测

参考物体检测系统设计

  • 一阶段检测

    • YOLO: 网格负责预测真实的bbox

    • SSD

    • RetinaNet

  • 二阶段检测

    • rcnn, fast-rcnn, faster-rcnn

    • 特征抽取(feature extraction),候选区域提取(Region proposal提取),边框回归(bounding box regression),分类(classification)

  • 多阶段

    • Cascade-rcnn: 不同级采用不同 IoU 阈值来进行重新计算正负样本和采样策略来逐渐提高 bbox 质量

  • anchor_base or anchor_free

  • RPN

  • 旋转目标检测

  • NMS 非极大值抑制

2.3 分割

语义分割

  • Unet

实例分割

2.4 生成

What are Diffusion Models?

图像生成相关:文本生成图像,图像生成图像,文本生成视频,文本生成语音。GAN、扩散模型、图像生成、多模态生成等。

扩散模型 存在一系列高斯噪声(T轮),将输入图片x0变为纯高斯噪声xt。模型则负责将xt复原回图片x0

  • autoencoder (VAE)

  • U-Net

  • text-encoder, CLIP Text Encoder

3. 代码

IOU

  • nms

  • DDPM

4. 问答

  • 感受野

  • 深度可分离卷积

  • 数据增强

  • diffusion model和stable diffusion公司的latent diffusion model特点

  • Diffusion process

  • 为什么diffusion model训练的时候需要1000 time steps,推理时只需要几十步

    • 训练采用的逻辑是基于DDPM的马尔可夫链逻辑,完整执行从t到t+1时刻的扩散过程;推理时采用的是DDIM类似的采样方法,将公式转化为非马尔可夫链的形式,求解任意两个时刻之间的对应公式,因此根据该公式可以在sample过程中跨步。

参考

Last updated