diff --git a/4.人工智能/4.6.7.1VIT.md b/4.人工智能/4.6.7.1VIT.md index c4d1419..7a0e16c 100644 --- a/4.人工智能/4.6.7.1VIT.md +++ b/4.人工智能/4.6.7.1VIT.md @@ -11,13 +11,18 @@ 在本节内容中我们会带你了解这一框架。 +## 论文 + +[知乎](https://zhuanlan.zhihu.com/p/356155277) +[论文](https://arxiv.org/abs/2010.11929) + ## 模型详解 ![](https://hdu-cs-wiki.oss-cn-hangzhou.aliyuncs.com/boxcn1wqKtwBc6MCJDm7ehvhXac.png) ### 模型主题结构 -结构上,VIT 采取的是原始 Transformer 模型,方便开箱即用,即在 encoder-decoder 结构上与 NLP 的 Transform 模型并无差别 +结构上,VIT 采取的是原始 Transformer 模型,方便开箱即用,即在 encoder-decoder 结构上与 NLP 的 Transform 模型并无差别。 主要做出的贡献在于数据处理和分类头 @@ -55,9 +60,14 @@ 具体来说 1. 先对图片作分块 -2. 假设原始输入的图片数据是 H x W x C, -3. 假设每个块的长宽为(P, P),那么分块的数目为 N=H∗W/(P∗P) -4. 其中 vit 的分块是定下每一块的大小然后块的数量为计算结果 -5. 然后对每个图片块展平成一维向量 -6. 每个向量大小为 P*P*C -7. 接着对每个向量都做一个线性变换(即全连接层),得到 patch embedding + 1. 假设原始输入的图片数据是 H * W * C, + 2. 假设每个块的长宽为(P, P),那么分块的数目为 N=H ∗ W / (P ∗ P) + 3. 其中 vit 的分块是定下每一块的大小然后块的数量为计算结果 +2. 然后对每个图片块展平成一维向量 + 1. 每个向量大小为 P * P * C +3. 接着对每个向量都做一个线性变换(即全连接层),得到 patch embedding + + +## 视频 + +https://www.bilibili.com/video/BV15P4y137jb \ No newline at end of file