chore: change pic to cos

2023-07-02 00:33:36 +08:00
parent 08fa485f6f
commit cd9d239d20
91 changed files with 462 additions and 462 deletions
--- a/4.人工智能/4.6.5.4.2NeRF的改进方向.md
+++ b/4.人工智能/4.6.5.4.2NeRF的改进方向.md
@@ -12,19 +12,19 @@

 <strong>Pixel-nerf</strong><strong> </strong>对输入图像使用卷积进行特征提取再执行 nerf，若有多个输入，对每个视角都执行 CNN，在计算光线时，取每一个已有视角下该坐标的特征，经过 mlp 后算平均。可以在少量视角下重建视图，需要进行预训练才能使用，有一定自动补全能力（有限）

-![](https://hdu-cs-wiki.oss-cn-hangzhou.aliyuncs.com/boxcnEiUODOd4FOBxYIZmmihyef.png)
+![](https://pic-hdu-cs-wiki-1307923872.cos.ap-shanghai.myqcloud.com/boxcnEiUODOd4FOBxYIZmmihyef.png)

 ### 2.IBRnet

 <strong>IBRnet</strong><strong> </strong>是 pixel-nerf 的改进版，取消了 CNN，并且在 mlp 后接入了 transformer 结构处理体密度（不透明度），对这条光线上所有的采样点进行一个 transformer。同时，在获取某个体素的颜色和密度时，作者用了本视角相邻的两个视角，获取对应体素在这两张图片中的像素，以图片像素颜色，视角，图片特征作为 mlp 的输入。

-![](https://hdu-cs-wiki.oss-cn-hangzhou.aliyuncs.com/boxcnwH75jIO9NiVwQaBqDrbe8e.png)
+![](https://pic-hdu-cs-wiki-1307923872.cos.ap-shanghai.myqcloud.com/boxcnwH75jIO9NiVwQaBqDrbe8e.png)

 ### 3.MVSnerf

 <strong>MVSnerf</strong><strong> </strong>它用 MVS 的方法构建代价体然后在后面接了一个 nerf，MVS 是使用<strong>多视角立体匹配</strong>构建一个代价体，用 3D 卷积网络进行优化，这里对代价体进行 nerf 采样，可以得到可泛化网络。它需要 15min 的微调才能在新数据上使用。<strong>多视角立体匹配是一种传统算法，通过光线，几何等信息计算图像中小块的相似度，得出两个相机视角之间的位置关系。这个算法也被广泛使用在得到我们自己采样的数据的相机变换矩阵上（我就是这么干的）</strong>

-![](https://hdu-cs-wiki.oss-cn-hangzhou.aliyuncs.com/boxcnbd2YxumunZR9LZG3ANrPrb.png)
+![](https://pic-hdu-cs-wiki-1307923872.cos.ap-shanghai.myqcloud.com/boxcnbd2YxumunZR9LZG3ANrPrb.png)

 此处涉及较多图形学，使用了平面扫描算法，其中有单应性变换这个角度变换算法，推导与讲解如下：

@@ -34,7 +34,7 @@

 平面扫描就是把 A 视角中的某一像素点（如图中红色区域）的相邻的几个像素提取出来，用单应性变换转换到 B 视角中，这时候用的深度是假设的深度，遍历所有假设的深度，计算通过每一个假设深度经过单应性变换得到的像素小块和 B 视角中对应位置的差值（loss），取最小的 loss 处的深度作为该像素的深度。

-![](https://hdu-cs-wiki.oss-cn-hangzhou.aliyuncs.com/boxcn5JmWUh1Gu283biqHq3Op0r.png)
+![](https://pic-hdu-cs-wiki-1307923872.cos.ap-shanghai.myqcloud.com/boxcn5JmWUh1Gu283biqHq3Op0r.png)

 构建代价体：

@@ -55,7 +55,7 @@

 展开说说：其实这也是神经网络发展的一个方向，以前的深层网络倾向于把所有东西用网络参数表示，这样推理速度就会慢，这里使用哈希表的快速查找能力存储一些数据信息，instant-ngp 就是把要表达的模型数据特征按照不同的精细度存在哈希表中，使用时通过哈希表调用或插值调用。

-![](https://hdu-cs-wiki.oss-cn-hangzhou.aliyuncs.com/boxcnXSUge0BqBCecdDJLQr4cRc.png)
+![](https://pic-hdu-cs-wiki-1307923872.cos.ap-shanghai.myqcloud.com/boxcnXSUge0BqBCecdDJLQr4cRc.png)

 # 3.可编辑（指比如人体运动等做修改工作的）

@@ -63,7 +63,7 @@

 <strong>Human-nerf</strong><strong> </strong>生成可编辑的人体运动视频建模，输入是一段人随便动动的视频。输出的动作可以编辑修改，并且对衣物折叠等有一定优化。使用的模型并非全隐式的，并且对头发和衣物单独使用变换模型。使用了逆线性蒙皮模型提取人物骨骼（可学习的模型），上面那个蓝色的就是姿态矫正模块，这个模块赋予骨骼之间运动关系的权重（因为使用的是插值处理同一运动时不同骨骼的平移旋转矩阵，一块骨骼动会牵动其他骨骼）图中的 Ω 就是权重的集合，它通过 mlp 学习得到。然后得到显式表达的人物骨骼以及传入视频中得到的对应骨骼的 mesh，skeletal motion 就是做游戏人物动作用的编辑器这种，后面残差链接了一个 non-rigid-motion（非刚性动作），这个是专门处理衣物和毛发的，主要通过学习得到，然后粗暴的加起来就能得到模型，再经过传统的 nerf 渲染出图像。

-![](https://hdu-cs-wiki.oss-cn-hangzhou.aliyuncs.com/boxcnHRnNXHvwVXrRmM8wnl53p9.png)
+![](https://pic-hdu-cs-wiki-1307923872.cos.ap-shanghai.myqcloud.com/boxcnHRnNXHvwVXrRmM8wnl53p9.png)

 ### 2.Neural Body

@@ -75,7 +75,7 @@

 EasyMocap 是通过多视角视频生成骨架以及 SMPL 模型的一个工作，演示视频右下。

-![](https://hdu-cs-wiki.oss-cn-hangzhou.aliyuncs.com/boxcnYmy1MnyWSPNEWvFWj9mzCf.png)
+![](https://pic-hdu-cs-wiki-1307923872.cos.ap-shanghai.myqcloud.com/boxcnYmy1MnyWSPNEWvFWj9mzCf.png)

 这是 EasyMocap 的演示。

@@ -87,7 +87,7 @@ EasyMocap 是通过多视角视频生成骨架以及 SMPL 模型的一个工作

 是个预训练模型，<strong>训练的模块就是这个 3D 卷积神经网络</strong>。

-![](https://hdu-cs-wiki.oss-cn-hangzhou.aliyuncs.com/boxcnbclBwg3BsubGOrt8vZf0qb.png)
+![](https://pic-hdu-cs-wiki-1307923872.cos.ap-shanghai.myqcloud.com/boxcnbclBwg3BsubGOrt8vZf0qb.png)

 ### 3.wild-nerf

@@ -101,11 +101,11 @@ EasyMocap 是通过多视角视频生成骨架以及 SMPL 模型的一个工作

 在此网络的单个输出上貌似是不监督的，因为没办法进行人为标注。这点我不是很确定，以后如果发现了会来修改的。

-![](https://hdu-cs-wiki.oss-cn-hangzhou.aliyuncs.com/boxcnYeaiioqtFzQlztsTwiEpzg.png)
+![](https://pic-hdu-cs-wiki-1307923872.cos.ap-shanghai.myqcloud.com/boxcnYeaiioqtFzQlztsTwiEpzg.png)

 渲染经过形变的物体时，光线其实是在 t=0 时刻进行渲染的，因为推土机的铲子放下去了，所以<strong>光线是弯曲的</strong>。

-![](https://hdu-cs-wiki.oss-cn-hangzhou.aliyuncs.com/boxcng7xDooDmmpbCJRyLJBucwe.png)
+![](https://pic-hdu-cs-wiki-1307923872.cos.ap-shanghai.myqcloud.com/boxcng7xDooDmmpbCJRyLJBucwe.png)

 # 4.用于辅助传统图像处理

@@ -123,23 +123,23 @@ EasyMocap 是通过多视角视频生成骨架以及 SMPL 模型的一个工作

 <strong>GRAF</strong><strong> </strong>把 GAN 与 nerf 结合，增加了两个输入，分别是<strong>外观/形状编码 z</strong>和<strong>2D 采样编码 v</strong>，z 用来改变渲染出来东西的特征，比如把生成的车变色或者变牌子，suv 变老爷车之类的。v(s,u)用来改变下图 2 中训练时选择光线的标准。这里训练时不是拿 G 生成的整张图扔进 D 网络，而是根据 v 的参数选择一些光线组成的 batch 扔进 D 进行辨别

-![](https://hdu-cs-wiki.oss-cn-hangzhou.aliyuncs.com/boxcnVyFqHIoA2MGGc4JJo9tObh.png)
+![](https://pic-hdu-cs-wiki-1307923872.cos.ap-shanghai.myqcloud.com/boxcnVyFqHIoA2MGGc4JJo9tObh.png)

-![](https://hdu-cs-wiki.oss-cn-hangzhou.aliyuncs.com/boxcnvBzqwCn9i8GGBIkMFEs3ne.png)
+![](https://pic-hdu-cs-wiki-1307923872.cos.ap-shanghai.myqcloud.com/boxcnvBzqwCn9i8GGBIkMFEs3ne.png)

 ### 2.GIRAFFE

 <strong>GIRAFFE</strong> 是 GRAF 的改进工作，可以把图片中的物品，背景一个个解耦出来单独进行改变或者移动和旋转，也可以增加新的物品或者减少物品，下图中蓝色是不可训练的模块，橙色可训练。以我的理解好像要设置你要解耦多少个(N)物品再训练，网络根据类似 k 近邻法的方法在特征空间上对物品进行分割解耦，然后分为 N 个渲染 mlp 进行训练，训练前加入外观/形状编码 z。最后还是要扔进 D 训练。

-![](https://hdu-cs-wiki.oss-cn-hangzhou.aliyuncs.com/boxcnB04hwHA1o64WBvYSyVTDod.png)
+![](https://pic-hdu-cs-wiki-1307923872.cos.ap-shanghai.myqcloud.com/boxcnB04hwHA1o64WBvYSyVTDod.png)

-![](https://hdu-cs-wiki.oss-cn-hangzhou.aliyuncs.com/boxcnC2bKVHOANjGOePLHk7jfZe.png)
+![](https://pic-hdu-cs-wiki-1307923872.cos.ap-shanghai.myqcloud.com/boxcnC2bKVHOANjGOePLHk7jfZe.png)

 ### 3.OSF

 <strong>OSF</strong>Object-Centric Neural Scene Rendering，可以给移动的物体生成合理的阴影和光照效果。加入了新的坐标信息：光源位置，与相机坐标等一起输入。对每个小物件构建一个单独的小 nerf，计算这个小 nerf 的体素时要先经过光源照射处理（训练出来的）然后在每个小物件之间也要计算反射这样的光线影响，最后进行正常的渲染。<del>这篇文章没人写 review，有点冷门，这些都是我自己读完感觉的，不一定对。</del>

-![](https://hdu-cs-wiki.oss-cn-hangzhou.aliyuncs.com/boxcnV7YcKIq5y8TkOGEGzrPc5g.png)
+![](https://pic-hdu-cs-wiki-1307923872.cos.ap-shanghai.myqcloud.com/boxcnV7YcKIq5y8TkOGEGzrPc5g.png)

 ### 4.Hyper-nerf-gan

@@ -153,7 +153,7 @@ EasyMocap 是通过多视角视频生成骨架以及 SMPL 模型的一个工作

 左边是常规卷积网络生成图像，右边是用 INR 生成图像。

-![](https://hdu-cs-wiki.oss-cn-hangzhou.aliyuncs.com/boxcnGCCZ8qXD1Hhc531NxfLzLd.png)
+![](https://pic-hdu-cs-wiki-1307923872.cos.ap-shanghai.myqcloud.com/boxcnGCCZ8qXD1Hhc531NxfLzLd.png)

 这种方法存在两个问题：

@@ -165,8 +165,8 @@ EasyMocap 是通过多视角视频生成骨架以及 SMPL 模型的一个工作

 FMM 主要是把要学习的矩阵转化为两个低秩矩阵，去先生成他们俩再相乘，减少网络计算量。

-![](https://hdu-cs-wiki.oss-cn-hangzhou.aliyuncs.com/boxcn0oHY54dgL2bxmryxjqxC6f.png)
+![](https://pic-hdu-cs-wiki-1307923872.cos.ap-shanghai.myqcloud.com/boxcn0oHY54dgL2bxmryxjqxC6f.png)

 现在开始讲 Hyper-nerf-gan 本身，它看上去其实就是 nerf 接在 gan 上。不过有一些变化，比如输入不再包含视角信息，我<strong>很怀疑它不能很好表达反光效果</strong>。而且抛弃了粗网络细网络的设计，只使用粗网络减少计算量。这里的 generator 完全就是 INR-Gan 的形状，生成权重，然后再经过 nerf 的 mlp 层生成，没啥别的了，就这样吧。

-![](https://hdu-cs-wiki.oss-cn-hangzhou.aliyuncs.com/boxcnc9bZ1nqt3Lighlrj9zSrdd.png)
+![](https://pic-hdu-cs-wiki-1307923872.cos.ap-shanghai.myqcloud.com/boxcnc9bZ1nqt3Lighlrj9zSrdd.png)