Delete 4.人工智能 directory

This commit is contained in:
zzm
2023-07-22 21:50:05 +08:00
committed by GitHub
parent e8c1fad4da
commit d77a9b0c51
396 changed files with 0 additions and 19301 deletions

View File

@@ -1,27 +0,0 @@
# 定义正负样本的方式
因为涉及多篇论文,就不具体一个个讲了,在这里总结一下一些定义正负样本的方式,这两种方式虽然本身并不突出,但是都对后续一些重要工作有一些铺垫作用。
# 1.时序性定义(生成式模型)
![](https://pic-hdu-cs-wiki-1307923872.cos.ap-shanghai.myqcloud.com/boxcnC10uzdj0G0BJPlUZKFIi7C.png)
这是处理音频的一个例子,<strong>给模型 t 时刻以前的信息,让它抽取特征并对后文进行预测,真正的后文作为正样本,负样本当然是随便选取就好啦。</strong>
不同于之前说的个体判别,这个是<strong>生成式模型</strong>,这个模型不止可以处理音频,还可以处理图片(每一个块换成一个词)或者处理图片(以 patch 为单位)。
是不是有点眼熟?这跟我前面写的 BERT 和 MAE 其实异曲同工,不过这两位是随机 mask而非时序性的 mask。
# 2.以物体不同角度或者感官作为正样本
一只狗可以被我们用不同感官所感受到,比如看见狗,听见狗叫声,摸到狗,得到文字描述等等。如果我们能统一这些模态的信息,这未尝不是一种特征提取。
这里就用了几个不同感官下的数据进行训练,不过可能是找配对的音频比较困难,作者用的是
原始图片深度图swav ace normal分割图片这四个视角作为正样本其他不相关图片作为负样本。
这种多视角的特征提取也引出了后面 CLIP 这篇论文,它做到了文本和图像特征的统一,我们后续再讲
(这篇论文我准备开个新坑放着了,因为说实话不算对比学习,算多模态)
![](https://pic-hdu-cs-wiki-1307923872.cos.ap-shanghai.myqcloud.com/boxcnssaOVvp73SVIrzVvZPr1Je.png)