fix: 4.6.7.1 格式
This commit is contained in:
@@ -11,13 +11,18 @@
|
||||
|
||||
在本节内容中我们会带你了解这一框架。
|
||||
|
||||
## 论文
|
||||
|
||||
[知乎](https://zhuanlan.zhihu.com/p/356155277)
|
||||
[论文](https://arxiv.org/abs/2010.11929)
|
||||
|
||||
## 模型详解
|
||||
|
||||

|
||||
|
||||
### 模型主题结构
|
||||
|
||||
结构上,VIT 采取的是原始 Transformer 模型,方便开箱即用,即在 encoder-decoder 结构上与 NLP 的 Transform 模型并无差别
|
||||
结构上,VIT 采取的是原始 Transformer 模型,方便开箱即用,即在 encoder-decoder 结构上与 NLP 的 Transform 模型并无差别。
|
||||
|
||||
主要做出的贡献在于<strong>数据处理和分类头</strong>
|
||||
|
||||
@@ -55,9 +60,14 @@
|
||||
具体来说
|
||||
|
||||
1. 先对图片作分块
|
||||
2. 假设原始输入的图片数据是 H x W x C,
|
||||
3. 假设每个块的长宽为(P, P),那么分块的数目为 N=H∗W/(P∗P)
|
||||
4. 其中 vit 的分块是定下每一块的大小然后块的数量为计算结果
|
||||
5. 然后对每个图片块展平成一维向量
|
||||
6. 每个向量大小为 P*P*C
|
||||
7. 接着对每个向量都做一个线性变换(即全连接层),得到 patch embedding
|
||||
1. 假设原始输入的图片数据是 H * W * C,
|
||||
2. 假设每个块的长宽为(P, P),那么分块的数目为 N=H ∗ W / (P ∗ P)
|
||||
3. 其中 vit 的分块是定下每一块的大小然后块的数量为计算结果
|
||||
2. 然后对每个图片块展平成一维向量
|
||||
1. 每个向量大小为 P * P * C
|
||||
3. 接着对每个向量都做一个线性变换(即全连接层),得到 patch embedding
|
||||
|
||||
|
||||
## 视频
|
||||
|
||||
https://www.bilibili.com/video/BV15P4y137jb
|
||||
Reference in New Issue
Block a user