fix: http to https

2023-04-25 20:11:02 +08:00
parent 78828f70da
commit aa2d06bc00
19 changed files with 105 additions and 105 deletions
--- a/4.人工智能/ch02/ch2.1/ch2.1.2/word2vec.md
+++ b/4.人工智能/ch02/ch2.1/ch2.1.2/word2vec.md
@@ -56,7 +56,7 @@ one-hot向量的维度是词汇表的大小（如：500，000）
 如果我们可以使用某种方法为每个单词构建一个合适的dense vector，如下图，那么通过点积等数学计算就可以获得单词之间的某种联系


-<img src="http://ryluo.oss-cn-chengdu.aliyuncs.com/图片1.png" /> 
+<img src="https://ryluo.oss-cn-chengdu.aliyuncs.com/图片1.png" /> 


 # Word2vec
@@ -71,7 +71,7 @@ one-hot向量的维度是词汇表的大小（如：500，000）
 我们先引入上下文context的概念：当单词 w 出现在文本中时，其**上下文context**是出现在w附近的一组单词（在固定大小的窗口内），如下图


-<img src="http://ryluo.oss-cn-chengdu.aliyuncs.com/图片2.png" />
+<img src="https://ryluo.oss-cn-chengdu.aliyuncs.com/图片2.png" />
 

 这些上下文单词context words决定了banking的意义
@@ -97,13 +97,13 @@ Word2vec包含两个模型，**Skip-gram与CBOW**。下面，我们先讲**Skip-
 下图展示了以“into”为中心词，窗口大小为2的情况下它的上下文词。以及相对应的$P(o|c)$


-<img src="http://ryluo.oss-cn-chengdu.aliyuncs.com/图片3.png" /> 
+<img src="https://ryluo.oss-cn-chengdu.aliyuncs.com/图片3.png" /> 


 我们滑动窗口，再以banking为中心词


-<img src="http://ryluo.oss-cn-chengdu.aliyuncs.com/图片4.png"在这里插入图片描述"  /> 
+<img src="https://ryluo.oss-cn-chengdu.aliyuncs.com/图片4.png"在这里插入图片描述"  /> 


 那么，如果我们在整个语料库上不断地滑动窗口，我们可以得到所有位置的$P(o|c)$，我们希望在所有位置上**最大化单词o在单词c周围出现了这一事实**，由极大似然法，可得：
@@ -115,13 +115,13 @@ $$
 此式还可以依图3写为：


-<img src="http://ryluo.oss-cn-chengdu.aliyuncs.com/图片5.png" /> 
+<img src="https://ryluo.oss-cn-chengdu.aliyuncs.com/图片5.png" /> 


 加log,加负号，缩放大小可得：


-<img src="http://ryluo.oss-cn-chengdu.aliyuncs.com/图片7.png" /> 
+<img src="https://ryluo.oss-cn-chengdu.aliyuncs.com/图片7.png" /> 


 上式即为**skip-gram的损失函数**，最小化损失函数，就可以得到合适的词向量
@@ -141,7 +141,7 @@ $$
 又P(o|c)是一个概率，所以我们在整个语料库上使用**softmax**将点积的值映射到概率，如图6


-<img src="http://ryluo.oss-cn-chengdu.aliyuncs.com/图片6.png" /> 
+<img src="https://ryluo.oss-cn-chengdu.aliyuncs.com/图片6.png" /> 


 注：注意到上图，中心词词向量为$v_{c}$,而上下文词词向量为$u_{o}$。也就是说每个词会对应两个词向量，**在词w做中心词时，使用$v_{w}$作为词向量，而在它做上下文词时，使用$u_{w}$作为词向量**。这样做的原因是为了求导等操作时计算上的简便。当整个模型训练完成后，我们既可以使用$v_{w}$作为词w的词向量，也可以使用$u_{w}$作为词w的词向量，亦或是将二者平均。在下一部分的模型结构中，我们将更清楚地看到两个词向量究竟在模型的哪个位置。
@@ -153,7 +153,7 @@ $$
 ## Word2vec模型结构


-<img src="http://ryluo.oss-cn-chengdu.aliyuncs.com/图片8.png" /> 
+<img src="https://ryluo.oss-cn-chengdu.aliyuncs.com/图片8.png" /> 


 如图八所示，这是一个输入为1 X V维的one-hot向量（V为整个词汇表的长度，这个向量只有一个1值，其余为0值表示一个词），单隐藏层（**隐藏层的维度为N，这里是一个超参数，这个参数由我们定义，也就是词向量的维度**），输出为1 X V维的softmax层的模型。
@@ -175,13 +175,13 @@ $W^{I}$为V X N的参数矩阵，$W^{O}$为N X V的参数矩阵。
 如上文所述，Skip-gram为给定中心词，预测周围的词，即求P(o|c)，如下图所示：


-<img src="http://ryluo.oss-cn-chengdu.aliyuncs.com/图片image-20220424105817437.png" /> 
+<img src="https://ryluo.oss-cn-chengdu.aliyuncs.com/图片image-20220424105817437.png" /> 


 而CBOW为给定周围的词，预测中心词，即求P(c|o),如下图所示：


-<img src="http://ryluo.oss-cn-chengdu.aliyuncs.com/图片10.png" /> 
+<img src="https://ryluo.oss-cn-chengdu.aliyuncs.com/图片10.png" /> 



@@ -194,7 +194,7 @@ $W^{I}$为V X N的参数矩阵，$W^{O}$为N X V的参数矩阵。
 我们再看一眼，通过softmax得到的$P(o|c)$，如图：


-<img src="http://ryluo.oss-cn-chengdu.aliyuncs.com/图片image-20220424105958191.png" /> 
+<img src="https://ryluo.oss-cn-chengdu.aliyuncs.com/图片image-20220424105958191.png" /> 



@@ -209,7 +209,7 @@ $W^{I}$为V X N的参数矩阵，$W^{O}$为N X V的参数矩阵。
 我们首先给出负采样的损失函数：


-<img src="http://ryluo.oss-cn-chengdu.aliyuncs.com/图片12.png" /> 
+<img src="https://ryluo.oss-cn-chengdu.aliyuncs.com/图片12.png" />