机器视觉 CV
1. 传统视觉
均值滤波
2. 模型
2.1 分类
ResNet
解决网络过深带来的梯度消失问题
ConvNext
ViT
Transformer模型的视觉应用
深度可分离卷积
2.2 检测
参考物体检测系统设计
一阶段检测
YOLO: 网格负责预测真实的bbox
SSD
RetinaNet
二阶段检测
rcnn, fast-rcnn, faster-rcnn
特征抽取(feature extraction),候选区域提取(Region proposal提取),边框回归(bounding box regression),分类(classification)
多阶段
Cascade-rcnn: 不同级采用不同 IoU 阈值来进行重新计算正负样本和采样策略来逐渐提高 bbox 质量
anchor_base or anchor_free
RPN
旋转目标检测
NMS 非极大值抑制
2.3 分割
语义分割
Unet
实例分割
2.4 生成
图像生成相关:文本生成图像,图像生成图像,文本生成视频,文本生成语音。GAN、扩散模型、图像生成、多模态生成等。
扩散模型 存在一系列高斯噪声(T轮),将输入图片x0变为纯高斯噪声xt。模型则负责将xt复原回图片x0

autoencoder (VAE)
U-Net
text-encoder, CLIP Text Encoder
3. 代码
IOU
nms
DDPM
4. 问答
感受野
深度可分离卷积
数据增强
diffusion model和stable diffusion公司的latent diffusion model特点
Diffusion process
为什么diffusion model训练的时候需要1000 time steps,推理时只需要几十步
训练采用的逻辑是基于DDPM的马尔可夫链逻辑,完整执行从t到t+1时刻的扩散过程;推理时采用的是DDIM类似的采样方法,将公式转化为非马尔可夫链的形式,求解任意两个时刻之间的对应公式,因此根据该公式可以在sample过程中跨步。
参考
https://github.com/DeepTecher/awesome-ChatGPT-resource-zh
https://github.com/hua1995116/awesome-ai-painting
https://www.zhihu.com/question/577079491/answer/2954363993
https://www.zhihu.com/question/596230048
Last updated