fix: http to https

2023-04-25 20:11:02 +08:00
parent 78828f70da
commit aa2d06bc00
19 changed files with 105 additions and 105 deletions
--- a/4.人工智能/ch02/ch2.1/ch2.1.2/Airbnb.md
+++ b/4.人工智能/ch02/ch2.1/ch2.1.2/Airbnb.md
@@ -16,11 +16,11 @@
 - 当用户在查看某一个房源时，接下来的有两种方式继续搜索：
   - 返回搜索结果页，继续查看其他搜索结果。

-<img src="http://ryluo.oss-cn-chengdu.aliyuncs.com/图片1653049527431-0b09af70-bda0-4a30-8082-6aa69548213a.png" alt="img" style="zoom:50%;" />
+<img src="https://ryluo.oss-cn-chengdu.aliyuncs.com/图片1653049527431-0b09af70-bda0-4a30-8082-6aa69548213a.png" alt="img" style="zoom:50%;" />

   - 在当前房源的详情页下，「相似房源」板块（你可能还喜欢）所推荐的房源。

-<img src="http://ryluo.oss-cn-chengdu.aliyuncs.com/图片1653049385995-7a775df1-a36f-4795-9e79-8e577bcf2097.png" alt="img" style="zoom:50%;" />
+<img src="https://ryluo.oss-cn-chengdu.aliyuncs.com/图片1653049385995-7a775df1-a36f-4795-9e79-8e577bcf2097.png" alt="img" style="zoom:50%;" />

 -  Airbnb 平台 99% 的房源预订来自于搜索排序和相似房源推荐。
 # Embedding 方法
@@ -59,7 +59,7 @@ $$
   - Airbnb 将最终预定的房源，始终作为滑窗的上下文，即全局上下文。如下图：
     - 如图，对于当前滑动窗口的 central listing，实线箭头表示context listings，虚线（指向booked listing）表示 global context listing。

-<img src="http://ryluo.oss-cn-chengdu.aliyuncs.com/图片1653053823336-0564b2da-c993-46aa-9b22-f5cbb784dae2.png" alt="img" style="zoom:50%;" />
+<img src="https://ryluo.oss-cn-chengdu.aliyuncs.com/图片1653053823336-0564b2da-c993-46aa-9b22-f5cbb784dae2.png" alt="img" style="zoom:50%;" />

   - booked listing 作为全局正样本，故优化的目标函数更新为：

@@ -103,12 +103,12 @@ $$
   - 理论上，同一区域的房源相似性应该更高，不同区域房源相似性更低。
   - Airbnb 利用 k-means 聚类，将加利福尼亚州的房源聚成100个集群，来验证类似位置的房源是否聚集在一起。

-<img src="http://ryluo.oss-cn-chengdu.aliyuncs.com/图片1653056809526-15401069-6fff-40d8-ac5e-35871d3f254a.png" alt="img" style="zoom:50%;" />
+<img src="https://ryluo.oss-cn-chengdu.aliyuncs.com/图片1653056809526-15401069-6fff-40d8-ac5e-35871d3f254a.png" alt="img" style="zoom:50%;" />

 - 评估不同类型、价格区间的房源之间的相似性。
   - 简而言之，我们希望类型相同、价格区间一致的房源它们之间的相似度更高。

-<img src="http://ryluo.oss-cn-chengdu.aliyuncs.com/图片1653056981037-18edee91-493a-4d5b-b066-57f0b200032d.png" alt="img" style="zoom:50%;" />
+<img src="https://ryluo.oss-cn-chengdu.aliyuncs.com/图片1653056981037-18edee91-493a-4d5b-b066-57f0b200032d.png" alt="img" style="zoom:50%;" />

 - 评估房源的隐式特征
   - Airbnb 在训练房源（listing）的 Embedding时，并没有用到房源的图像信息。
@@ -117,7 +117,7 @@ $$
      - 大致原理就是，利用训练好的 Embedding 进行 K 近邻相似度检索。
      - 如下，与查询房源在 Embedding 相似性高的其他房源，它们之间的外观风格也很相似。

-<img src="http://ryluo.oss-cn-chengdu.aliyuncs.com/图片1653057336798-fd8451cb-84b6-40fb-8733-1e3d08a39793.png" alt="img"  />
+<img src="https://ryluo.oss-cn-chengdu.aliyuncs.com/图片1653057336798-fd8451cb-84b6-40fb-8733-1e3d08a39793.png" alt="img"  />

 ## User-type & Listing-type Embedding

@@ -169,7 +169,7 @@ Airbnb 除了挖掘 Listing 的短期兴趣特征表示外，还对 User 和 Lis
 - 所有的属性，都基于一定的规则进行了分桶（buckets）。例如21岁，被分桶到 20-30 岁的区间。
 - 对于首次预定的用户，他的属性为 buckets 的前5行，因为预定之前没有历史预定相关的信息。

-<img src="http://ryluo.oss-cn-chengdu.aliyuncs.com/图片1653125260611-7d33731b-9167-4fcc-b83b-0a2407ea89ca.png" alt="img" style="zoom: 67%;" />
+<img src="https://ryluo.oss-cn-chengdu.aliyuncs.com/图片1653125260611-7d33731b-9167-4fcc-b83b-0a2407ea89ca.png" alt="img" style="zoom: 67%;" />

 看到过前面那个简单的例子后，现在可以看一个原文的 Listing-type 的例子：

@@ -233,7 +233,7 @@ Type Embedding 的学习同样是基于 Skip-Gram 模型，但是有两点需要
        \end{aligned}
        $$

-<img src="http://ryluo.oss-cn-chengdu.aliyuncs.com/图片1653131985447-e033cb39-235b-4f46-9634-3b7faec284be.png" alt="img" style="zoom:50%;" />
+<img src="https://ryluo.oss-cn-chengdu.aliyuncs.com/图片1653131985447-e033cb39-235b-4f46-9634-3b7faec284be.png" alt="img" style="zoom:50%;" />

 # 实验部分

@@ -276,13 +276,13 @@ Airbnb 的搜索排名的大致流程为：

 - 表中的 Embedding Features 包含了8种类型，前6种类型的特征计算方式相同。

-<img src="http://ryluo.oss-cn-chengdu.aliyuncs.com/图片1653139981920-a100085b-007b-4a9c-9edf-74297e9115ae.png" alt="img" style="zoom:50%;" />
+<img src="https://ryluo.oss-cn-chengdu.aliyuncs.com/图片1653139981920-a100085b-007b-4a9c-9edf-74297e9115ae.png" alt="img" style="zoom:50%;" />

 **① 基于 Listing Embedding Features 的特征构建**

 - Airbnb 保留了用户过去两周6种不同类型的历史行为，如下图：

-<img src="http://ryluo.oss-cn-chengdu.aliyuncs.com/图片1653140202230-1f49e1dd-5c8c-4445-bd0b-9a17788a7b3f.png" alt="img" style="zoom:50%;" />
+<img src="https://ryluo.oss-cn-chengdu.aliyuncs.com/图片1653140202230-1f49e1dd-5c8c-4445-bd0b-9a17788a7b3f.png" alt="img" style="zoom:50%;" />

 - 对于每个行为，还要将其按照 market （地域）进行划分。以 $ H_c $ 为例：

@@ -312,7 +312,7 @@ Airbnb 的搜索排名的大致流程为：

 为了验证上述特征的构建是否有效，Airbnb 还做了特征重要性排序，如下表：

-<img src="http://ryluo.oss-cn-chengdu.aliyuncs.com/图片1653142188111-1975bcc4-22a2-45cf-bff0-2783ecb00a0c.png" alt="img" style="zoom:50%;" />
+<img src="https://ryluo.oss-cn-chengdu.aliyuncs.com/图片1653142188111-1975bcc4-22a2-45cf-bff0-2783ecb00a0c.png" alt="img" style="zoom:50%;" />

 **（3)模型**
 特征构建完成后，开始对模型进行训练。
--- a/4.人工智能/ch02/ch2.1/ch2.1.2/word2vec.md
+++ b/4.人工智能/ch02/ch2.1/ch2.1.2/word2vec.md
@@ -56,7 +56,7 @@ one-hot向量的维度是词汇表的大小（如：500，000）
 如果我们可以使用某种方法为每个单词构建一个合适的dense vector，如下图，那么通过点积等数学计算就可以获得单词之间的某种联系


-<img src="http://ryluo.oss-cn-chengdu.aliyuncs.com/图片1.png" /> 
+<img src="https://ryluo.oss-cn-chengdu.aliyuncs.com/图片1.png" /> 


 # Word2vec
@@ -71,7 +71,7 @@ one-hot向量的维度是词汇表的大小（如：500，000）
 我们先引入上下文context的概念：当单词 w 出现在文本中时，其**上下文context**是出现在w附近的一组单词（在固定大小的窗口内），如下图


-<img src="http://ryluo.oss-cn-chengdu.aliyuncs.com/图片2.png" />
+<img src="https://ryluo.oss-cn-chengdu.aliyuncs.com/图片2.png" />
 

 这些上下文单词context words决定了banking的意义
@@ -97,13 +97,13 @@ Word2vec包含两个模型，**Skip-gram与CBOW**。下面，我们先讲**Skip-
 下图展示了以“into”为中心词，窗口大小为2的情况下它的上下文词。以及相对应的$P(o|c)$


-<img src="http://ryluo.oss-cn-chengdu.aliyuncs.com/图片3.png" /> 
+<img src="https://ryluo.oss-cn-chengdu.aliyuncs.com/图片3.png" /> 


 我们滑动窗口，再以banking为中心词


-<img src="http://ryluo.oss-cn-chengdu.aliyuncs.com/图片4.png"在这里插入图片描述"  /> 
+<img src="https://ryluo.oss-cn-chengdu.aliyuncs.com/图片4.png"在这里插入图片描述"  /> 


 那么，如果我们在整个语料库上不断地滑动窗口，我们可以得到所有位置的$P(o|c)$，我们希望在所有位置上**最大化单词o在单词c周围出现了这一事实**，由极大似然法，可得：
@@ -115,13 +115,13 @@ $$
 此式还可以依图3写为：


-<img src="http://ryluo.oss-cn-chengdu.aliyuncs.com/图片5.png" /> 
+<img src="https://ryluo.oss-cn-chengdu.aliyuncs.com/图片5.png" /> 


 加log,加负号，缩放大小可得：


-<img src="http://ryluo.oss-cn-chengdu.aliyuncs.com/图片7.png" /> 
+<img src="https://ryluo.oss-cn-chengdu.aliyuncs.com/图片7.png" /> 


 上式即为**skip-gram的损失函数**，最小化损失函数，就可以得到合适的词向量
@@ -141,7 +141,7 @@ $$
 又P(o|c)是一个概率，所以我们在整个语料库上使用**softmax**将点积的值映射到概率，如图6


-<img src="http://ryluo.oss-cn-chengdu.aliyuncs.com/图片6.png" /> 
+<img src="https://ryluo.oss-cn-chengdu.aliyuncs.com/图片6.png" /> 


 注：注意到上图，中心词词向量为$v_{c}$,而上下文词词向量为$u_{o}$。也就是说每个词会对应两个词向量，**在词w做中心词时，使用$v_{w}$作为词向量，而在它做上下文词时，使用$u_{w}$作为词向量**。这样做的原因是为了求导等操作时计算上的简便。当整个模型训练完成后，我们既可以使用$v_{w}$作为词w的词向量，也可以使用$u_{w}$作为词w的词向量，亦或是将二者平均。在下一部分的模型结构中，我们将更清楚地看到两个词向量究竟在模型的哪个位置。
@@ -153,7 +153,7 @@ $$
 ## Word2vec模型结构


-<img src="http://ryluo.oss-cn-chengdu.aliyuncs.com/图片8.png" /> 
+<img src="https://ryluo.oss-cn-chengdu.aliyuncs.com/图片8.png" /> 


 如图八所示，这是一个输入为1 X V维的one-hot向量（V为整个词汇表的长度，这个向量只有一个1值，其余为0值表示一个词），单隐藏层（**隐藏层的维度为N，这里是一个超参数，这个参数由我们定义，也就是词向量的维度**），输出为1 X V维的softmax层的模型。
@@ -175,13 +175,13 @@ $W^{I}$为V X N的参数矩阵，$W^{O}$为N X V的参数矩阵。
 如上文所述，Skip-gram为给定中心词，预测周围的词，即求P(o|c)，如下图所示：


-<img src="http://ryluo.oss-cn-chengdu.aliyuncs.com/图片image-20220424105817437.png" /> 
+<img src="https://ryluo.oss-cn-chengdu.aliyuncs.com/图片image-20220424105817437.png" /> 


 而CBOW为给定周围的词，预测中心词，即求P(c|o),如下图所示：


-<img src="http://ryluo.oss-cn-chengdu.aliyuncs.com/图片10.png" /> 
+<img src="https://ryluo.oss-cn-chengdu.aliyuncs.com/图片10.png" /> 



@@ -194,7 +194,7 @@ $W^{I}$为V X N的参数矩阵，$W^{O}$为N X V的参数矩阵。
 我们再看一眼，通过softmax得到的$P(o|c)$，如图：


-<img src="http://ryluo.oss-cn-chengdu.aliyuncs.com/图片image-20220424105958191.png" /> 
+<img src="https://ryluo.oss-cn-chengdu.aliyuncs.com/图片image-20220424105958191.png" /> 



@@ -209,7 +209,7 @@ $W^{I}$为V X N的参数矩阵，$W^{O}$为N X V的参数矩阵。
 我们首先给出负采样的损失函数：


-<img src="http://ryluo.oss-cn-chengdu.aliyuncs.com/图片12.png" /> 
+<img src="https://ryluo.oss-cn-chengdu.aliyuncs.com/图片12.png" />