fix: 4.11 latex
This commit is contained in:
@@ -15,60 +15,23 @@ author:廖总
|
|||||||
## 消息传递
|
## 消息传递
|
||||||
|
|
||||||
那么,消息是什么呢?在大多数时候,我们将消息理解为节点(但其实在特定场合,边或者全局信息都是可以或者需要考虑的),即“实体”包含的,要传递的信息。对于一个结构相对复杂的节点而言,假设其拥有 n 个属性,我们便用一个 n 维的向量(或是其他什么)
|
那么,消息是什么呢?在大多数时候,我们将消息理解为节点(但其实在特定场合,边或者全局信息都是可以或者需要考虑的),即“实体”包含的,要传递的信息。对于一个结构相对复杂的节点而言,假设其拥有 n 个属性,我们便用一个 n 维的向量(或是其他什么)
|
||||||
$$
|
$\mathbf{x}$
|
||||||
\mathbf{x}
|
|
||||||
$$
|
|
||||||
|
|
||||||
表示节点中储存的信息。然后,节点上的信息要怎么传递呢?
|
表示节点中储存的信息。然后,节点上的信息要怎么传递呢?
|
||||||
|
|
||||||
答案必然是通过节点之间的连接。
|
答案必然是通过节点之间的连接。
|
||||||
|
|
||||||
在离散数学中,我们使用邻接矩阵来刻画图上所有节点之间的联系,即 Adjacency Matrix,记作
|
在离散数学中,我们使用邻接矩阵来刻画图上所有节点之间的联系,即 Adjacency Matrix,记作
|
||||||
$$
|
$\mathbf{A}$。在不考虑边权重的情况下,我们将存在节点$x_{i},x_{j}$之间的联系表示为$A_{ij}=1$,在存在权重的情况下,我们将$A_{ij}$的值记作两节点之间边的权重。值得注意的是,$\mathbf{A}$对角线上的值,即节点之间自连接的系数,在不做考虑自连接时都被记作 0。
|
||||||
\mathbf{A}
|
|
||||||
$$
|
|
||||||
|
|
||||||
。在不考虑边权重的情况下,我们将存在节点
|
|
||||||
$$
|
|
||||||
x_{i},x_{j}
|
|
||||||
$$
|
|
||||||
|
|
||||||
之间的联系表示为
|
|
||||||
$$
|
|
||||||
A_{ij}=1
|
|
||||||
$$
|
|
||||||
|
|
||||||
,在存在权重的情况下,我们将
|
|
||||||
$$
|
|
||||||
A_{ij}
|
|
||||||
$$
|
|
||||||
|
|
||||||
的值记作两节点之间边的权重。值得注意的是,
|
|
||||||
$$
|
|
||||||
\mathbf{A}
|
|
||||||
$$
|
|
||||||
|
|
||||||
对角线上的值,即节点之间自连接的系数,在不做考虑自连接时都被记作 0。
|
|
||||||
|
|
||||||
另外,我们特殊定义节点的度为该点所有连接权重之和,即
|
|
||||||
$$
|
|
||||||
D_i=\sum_{j=0}^n A_{ij}
|
|
||||||
$$
|
|
||||||
|
|
||||||
,使用对角矩阵
|
|
||||||
$$
|
|
||||||
\mathbf{D}=diag(D_1,D_2,\cdots,D_n)
|
|
||||||
$$
|
|
||||||
|
|
||||||
|
另外,我们特殊定义节点的度为该点所有连接权重之和,即$D_i=\sum_{j=0}^n A_{ij} $,使用对角矩阵$\mathbf{D}=diag(D_1,D_2,\cdots,D_n)$
|
||||||
进行统一描述。
|
进行统一描述。
|
||||||
|
|
||||||
如此,我们便通过了两个矩阵刻画了一张图上所有节点之间的传递关系。为了方便计算,以及因为种种特性,一张图最终的传递特性,被描述成了拉普拉斯矩阵
|
如此,我们便通过了两个矩阵刻画了一张图上所有节点之间的传递关系。为了方便计算,以及因为种种特性,一张图最终的传递特性,被描述成了拉普拉斯矩阵
|
||||||
$$
|
$\mathbf{L}=\mathbf{D}-\mathbf{A}$
|
||||||
\mathbf{L}=\mathbf{D}-\mathbf{A}
|
|
||||||
$$
|
|
||||||
|
|
||||||
|
|
||||||
我们通过拉普拉斯矩阵 $$L$$ 来考虑图上的消息传递特性。
|
我们通过拉普拉斯矩阵 $L$ 来考虑图上的消息传递特性。
|
||||||
|
|
||||||
同时,我们可以理解为,拉普拉斯矩阵描述了图的结构。
|
同时,我们可以理解为,拉普拉斯矩阵描述了图的结构。
|
||||||
|
|
||||||
@@ -77,11 +40,8 @@ $$
|
|||||||
为了方便拉普拉斯矩阵在机器学习等众多需要迭代求解问题中的实际使用,我们要求对拉普拉斯矩阵进行归一化操作,从而避免在多次传递后导致的梯度爆炸和梯度消失。我们需要令其对角线上元素统一等于 1。
|
为了方便拉普拉斯矩阵在机器学习等众多需要迭代求解问题中的实际使用,我们要求对拉普拉斯矩阵进行归一化操作,从而避免在多次传递后导致的梯度爆炸和梯度消失。我们需要令其对角线上元素统一等于 1。
|
||||||
|
|
||||||
我们已知的是,主对角线上的元素只会同
|
我们已知的是,主对角线上的元素只会同
|
||||||
$$
|
$D$矩阵有关,因此,我们引入了
|
||||||
D$$矩阵有关,因此,我们引入了
|
$\mathbf{D}^{-\tfrac{1}{2}}$ 作为归一化算子,令归一化拉普拉斯矩阵为
|
||||||
$$
|
|
||||||
|
|
||||||
\mathbf{D}^{-\tfrac{1}{2}}$$ 作为归一化算子,令归一化拉普拉斯矩阵为
|
|
||||||
|
|
||||||
$$
|
$$
|
||||||
\mathbf{L}^{sym}
|
\mathbf{L}^{sym}
|
||||||
@@ -94,18 +54,13 @@ $$
|
|||||||
$$
|
$$
|
||||||
L_{ij}^{sym}=
|
L_{ij}^{sym}=
|
||||||
\begin{cases}
|
\begin{cases}
|
||||||
1 i=j{\color{red}{\backslash and}}deg(v_i)\ne0\\
|
1 \quad\quad\quad\quad\quad\quad i=j{\color{red}{\backslash and}}deg(v_i)\ne0\\
|
||||||
-\frac{1}{\sqrt{deg(v_i)deg(v_j)}}i\ne j{\color{red}{\backslash and}}v_i adj v_j \\
|
-\frac{1}{\sqrt{deg(v_i)deg(v_j)}}i\ne j{\color{red}{\backslash and}}v_i adj v_j \\
|
||||||
0 else.
|
0 \quad\quad\quad\quad\quad\quad else.
|
||||||
\end{cases}
|
\end{cases}
|
||||||
$$
|
$$
|
||||||
|
|
||||||
现在,我们可以尝试用
|
现在,我们可以尝试用$\mathbf{L}$对图进行表示了。
|
||||||
$$
|
|
||||||
\mathbf{L}
|
|
||||||
$$
|
|
||||||
|
|
||||||
对图进行表示了。
|
|
||||||
|
|
||||||
另外还有个<em>随机游走归一化拉普拉斯矩阵</em>
|
另外还有个<em>随机游走归一化拉普拉斯矩阵</em>
|
||||||
$$
|
$$
|
||||||
@@ -122,12 +77,11 @@ $$
|
|||||||
|
|
||||||
我们将 L 矩阵进行特征分解,有
|
我们将 L 矩阵进行特征分解,有
|
||||||
|
|
||||||
$$
|
$\mathbf{L}=\mathbf{U}\boldsymbol{\Lambda}\mathbf{U}^\mathsf{T}$,其中特征值描述的是图像的频谱强度,而特征向量描述了分解的基底,即频率,对应频谱分析中的$e^{-j\omega t}$。
|
||||||
\mathbf{L}=\mathbf{U}\boldsymbol{\Lambda}\mathbf{U}^\mathsf{T}$$,其中特征值描述的是图像的频谱强度,而特征向量描述了分解的基底,即频率,对应频谱分析中的$$e^{-j\omega t}$$。
|
|
||||||
|
|
||||||
于是,我们考虑滤波和滤波器,我们设计$$g\theta=diag(\theta)$$,有滤波器改变了基底上信号的强度,即有$$g\theta(\Lambda)$$为特征值的函数。我们有$$g\theta$$在图$$\mathbf{L}$$上对输入信号$$x$$的卷积等于$$g\theta$$、$$x$$在频域相乘:$$g\theta\star
|
于是,我们考虑滤波和滤波器,我们设计$g\theta=diag(\theta)$,有滤波器改变了基底上信号的强度,即有$g\theta(\Lambda)$为特征值的函数。我们有$g\theta$在图$\mathbf{L}$上对输入信号$x$的卷积等于$g\theta$、$x$在频域相乘:$g\theta\star
|
||||||
x=\mathbf{U}g\theta\mathbf{U}^\mathsf{T}x
|
x=\mathbf{U}g\theta\mathbf{U}^\mathsf{T}x
|
||||||
$$
|
$
|
||||||
|
|
||||||
如此,我们完成了在图神经网络上进行分析的基础。
|
如此,我们完成了在图神经网络上进行分析的基础。
|
||||||
|
|
||||||
@@ -137,17 +91,7 @@ $$
|
|||||||
|
|
||||||
ChebNet 的引入是当今神经网络大热门的开端,也是图卷积网络的基础。其思路为,使用切比雪夫多项式对卷积过程 K 阶拟合([参考](https://zhuanlan.zhihu.com/p/138420723))
|
ChebNet 的引入是当今神经网络大热门的开端,也是图卷积网络的基础。其思路为,使用切比雪夫多项式对卷积过程 K 阶拟合([参考](https://zhuanlan.zhihu.com/p/138420723))
|
||||||
|
|
||||||
ChebNet 假设
|
ChebNet 假设$g\theta$对$\Lambda$的滤波结果是原始特征值多项式函数,而网络的目的是抛弃原本通过矩阵相乘来对卷积结果进行求解,而通过参数学习来对结果进行表示,给出下式
|
||||||
$$
|
|
||||||
g\theta
|
|
||||||
$$
|
|
||||||
|
|
||||||
对
|
|
||||||
$$
|
|
||||||
\Lambda
|
|
||||||
$$
|
|
||||||
|
|
||||||
的滤波结果是原始特征值多项式函数,而网络的目的是抛弃原本通过矩阵相乘来对卷积结果进行求解,而通过参数学习来对结果进行表示,给出下式
|
|
||||||
|
|
||||||
$$
|
$$
|
||||||
g\theta(\Lambda)=\sum_{k=0}^K \beta_kT_k(\hat{\Lambda})=\begin{pmatrix}
|
g\theta(\Lambda)=\sum_{k=0}^K \beta_kT_k(\hat{\Lambda})=\begin{pmatrix}
|
||||||
@@ -163,12 +107,7 @@ $$
|
|||||||
T_0(L) = I\ T_1(L)=L\ T_{n+1}(L)=2LT_n(L) - T_{n-1}(L)
|
T_0(L) = I\ T_1(L)=L\ T_{n+1}(L)=2LT_n(L) - T_{n-1}(L)
|
||||||
$$
|
$$
|
||||||
|
|
||||||
有
|
有$\beta_k$为网络的待学习参数
|
||||||
$$
|
|
||||||
\beta_k
|
|
||||||
$$
|
|
||||||
|
|
||||||
为网络的待学习参数
|
|
||||||
|
|
||||||
我们将原式
|
我们将原式
|
||||||
$$
|
$$
|
||||||
@@ -184,12 +123,10 @@ $$
|
|||||||
\end{matrix}
|
\end{matrix}
|
||||||
$$
|
$$
|
||||||
|
|
||||||
,并对其中无关输入信号 $$x$$ 的部分进行改写
|
,并对其中无关输入信号 $x$ 的部分进行改写
|
||||||
|
|
||||||
```
|
|
||||||
$$\mathbf{U}\begin{matrix}\sum_{k=0}^K
|
|
||||||
```
|
|
||||||
|
|
||||||
|
$$\mathbf{U}\begin{matrix}\sum_{k=0}^K
|
||||||
\beta_kT_k(\hat{\Lambda})
|
\beta_kT_k(\hat{\Lambda})
|
||||||
\mathbf{U}^\mathsf{T}
|
\mathbf{U}^\mathsf{T}
|
||||||
\end{matrix}\\$$
|
\end{matrix}\\$$
|
||||||
|
|||||||
Reference in New Issue
Block a user