style: html to md syntax

2023-08-24 10:31:27 +08:00
parent 229e847514
commit 0a96f3658b
88 changed files with 459 additions and 459 deletions
--- a/4.人工智能/4.6.7.2BERT.md
+++ b/4.人工智能/4.6.7.2BERT.md
@@ -6,9 +6,9 @@

 # 前言

-BERT 是一种基于 transformer 架构的自然语言处理模型，它把在 cv 领域广为应用的<strong>预训练(pre-trainning)</strong>和<strong>微调(fine-tune)</strong>的结构成功引入了 NLP 领域。
+BERT 是一种基于 transformer 架构的自然语言处理模型，它把在 cv 领域广为应用的**预训练(pre-trainning)**和**微调(fine-tune)**的结构成功引入了 NLP 领域。

-简单来说，BERT 就是一种<strong>认识几乎所有词的</strong>，<strong>训练好</strong>的网络，当你要做一些下游任务时，可以在 BERT 预训练模型的基础上进行一些微调，以进行你的任务。也就是 backbone 模型，输出的是文本特征。
+简单来说，BERT 就是一种**认识几乎所有词的**，**训练好**的网络，当你要做一些下游任务时，可以在 BERT 预训练模型的基础上进行一些微调，以进行你的任务。也就是 backbone 模型，输出的是文本特征。

 举个例子，我要做一个文本情感分析任务，也就是把文本对情感进行分类，那我只需要在 BERT 的基础上加一个 mlp 作为分类头，在我的小规模数据上进行继续训练即可（也就是微调）。

@@ -24,9 +24,9 @@ mlp 的重点和创新并非它的模型结构，而是它的训练方式，前

 在文本被输入模型之前，我们要对它进行一些处理：

-1. <strong>词向量</strong>(wordpiece embedding)：单词本身的向量表示。每个词(或者进行时过去时后缀之类的)会被记录为一个向量。它们被储存在一个字典里，这一步其实就是在字典中查找这个词对应的向量。
-2. <strong>位置向量</strong>(position embedding)：将单词的位置信息编码成特征向量。构建 position embedding 有两种方法：BERT 是初始化一个 position embedding，<strong>然后通过训练将其学出来</strong>；而 Transformer 是通过<strong>制定规则</strong>来构建一个 position embedding。
-3. <strong>句子向量</strong>(segment embedding)：用于区分两个句子的向量表示。这个在问答等非对称句子中是用于区别的。(这个主要是因为可能会用到对句子的分析中)
+1. **词向量**(wordpiece embedding)：单词本身的向量表示。每个词(或者进行时过去时后缀之类的)会被记录为一个向量。它们被储存在一个字典里，这一步其实就是在字典中查找这个词对应的向量。
+2. **位置向量**(position embedding)：将单词的位置信息编码成特征向量。构建 position embedding 有两种方法：BERT 是初始化一个 position embedding，**然后通过训练将其学出来**；而 Transformer 是通过**制定规则**来构建一个 position embedding。
+3. **句子向量**(segment embedding)：用于区分两个句子的向量表示。这个在问答等非对称句子中是用于区别的。(这个主要是因为可能会用到对句子的分析中)

 BERT 模型的输入就是上面三者的和，如图所示：

@@ -34,7 +34,7 @@ BERT 模型的输入就是上面三者的和，如图所示：

 ## 模型结构

-简单来说，BERT 是 transformer<strong>编码器</strong>的叠加，<strong>也就是下图左边部分</strong>。这算一个 block。
+简单来说，BERT 是 transformer**编码器**的叠加，**也就是下图左边部分**。这算一个 block。

 ![](https://cdn.xyxsw.site/boxcnPg8594YzCdnX6KZxpEYYod.png)

@@ -50,7 +50,7 @@ BERT 训练方式跟 cv 里的很多 backbone 模型一样，是先用几个具

 跟以往的 nlp 模型不同，BERT 的掩码并非 transformer 那样，给前面不给后面，而是在句子中随机把单词替换为 mask，让模型去猜，也就是完形填空。下面给个例子：

-<strong>划掉的单词是被 mask 的</strong>
+**划掉的单词是被 mask 的**

 正常的掩码：I am a <del>little cat</del>