fix: 4.6.7.1 格式

2023-04-22 14:27:20 +08:00
parent 7d42aa5577
commit f16e5ae11d
1 changed files with 17 additions and 7 deletions
--- a/4.人工智能/4.6.7.1VIT.md
+++ b/4.人工智能/4.6.7.1VIT.md
@@ -11,13 +11,18 @@

 在本节内容中我们会带你了解这一框架。

+## 论文
+
+[知乎](https://zhuanlan.zhihu.com/p/356155277)
+[论文](https://arxiv.org/abs/2010.11929)
+
 ## 模型详解

 ![](https://hdu-cs-wiki.oss-cn-hangzhou.aliyuncs.com/boxcn1wqKtwBc6MCJDm7ehvhXac.png)

 ### 模型主题结构

-结构上，VIT 采取的是原始 Transformer 模型，方便开箱即用，即在 encoder-decoder 结构上与 NLP 的 Transform 模型并无差别
+结构上，VIT 采取的是原始 Transformer 模型，方便开箱即用，即在 encoder-decoder 结构上与 NLP 的 Transform 模型并无差别。

 主要做出的贡献在于<strong>数据处理和分类头</strong>

@@ -55,9 +60,14 @@
 具体来说

 1. 先对图片作分块
-2. 假设原始输入的图片数据是 H x W x C,
-3. 假设每个块的长宽为(P, P)，那么分块的数目为 N=H∗W/(P∗P)
-4. 其中 vit 的分块是定下每一块的大小然后块的数量为计算结果
-5. 然后对每个图片块展平成一维向量
-6. 每个向量大小为 P*P*C
-7. 接着对每个向量都做一个线性变换（即全连接层），得到 patch embedding
+   1. 假设原始输入的图片数据是 H * W * C,
+   2. 假设每个块的长宽为(P, P)，那么分块的数目为 N=H ∗ W / (P ∗ P)
+   3. 其中 vit 的分块是定下每一块的大小然后块的数量为计算结果
+2. 然后对每个图片块展平成一维向量
+   1. 每个向量大小为 P * P * C
+3. 接着对每个向量都做一个线性变换（即全连接层），得到 patch embedding
+
+
+## 视频
+
+https://www.bilibili.com/video/BV15P4y137jb