fix: 4.6.7.1 格式

This commit is contained in:
camera-2018
2023-04-22 14:27:20 +08:00
parent 7d42aa5577
commit f16e5ae11d

View File

@@ -11,13 +11,18 @@
在本节内容中我们会带你了解这一框架。
## 论文
[知乎](https://zhuanlan.zhihu.com/p/356155277)
[论文](https://arxiv.org/abs/2010.11929)
## 模型详解
![](https://hdu-cs-wiki.oss-cn-hangzhou.aliyuncs.com/boxcn1wqKtwBc6MCJDm7ehvhXac.png)
### 模型主题结构
结构上VIT 采取的是原始 Transformer 模型,方便开箱即用,即在 encoder-decoder 结构上与 NLP 的 Transform 模型并无差别
结构上VIT 采取的是原始 Transformer 模型,方便开箱即用,即在 encoder-decoder 结构上与 NLP 的 Transform 模型并无差别
主要做出的贡献在于<strong>数据处理和分类头</strong>
@@ -55,9 +60,14 @@
具体来说
1. 先对图片作分块
2. 假设原始输入的图片数据是 H x W x C,
3. 假设每个块的长宽为(P, P),那么分块的数目为 N=HW/(PP)
4. 其中 vit 的分块是定下每一块的大小然后块的数量为计算结果
5. 然后对每个图片块展平成一维向量
6. 每个向量大小为 P*P*C
7. 接着对每个向量都做一个线性变换(即全连接层),得到 patch embedding
1. 假设原始输入的图片数据是 H * W * C,
2. 假设每个块的长宽为(P, P),那么分块的数目为 N=H W / (P P)
3. 其中 vit 的分块是定下每一块的大小然后块的数量为计算结果
2. 然后对每个图片块展平成一维向量
1. 每个向量大小为 P * P * C
3. 接着对每个向量都做一个线性变换(即全连接层),得到 patch embedding
## 视频
https://www.bilibili.com/video/BV15P4y137jb