# 前言

# 写在前面

作为目前越来越主流的研究方向，AI 领域在科研界目前已经占到了一个举足轻重的位置。

<del>基本上就是如果你没有这个比赛都玩不了那种。</del>

是个项目都想和 AI 扯上点关系，不然感觉都不会讲话了。

那么是否意味着这个技术很难或者说就高深到了不可接触的地步呢？

并不!!!

不少项目，他并不是真正的所谓科学研究或者是工业项目，他只是劳动力和资源的无限叠加堆砌出来结果亦或是单纯的硬扯。

这的确是时代的浪潮，但是被时代的浪潮裹挟向前也许你并不会得到什么。

为了不让你成为那无数浪花的一朵，掌握真正的核心技术，我希望你可以认真完成该教程内部所提出的各种问题和要求。

我们的目标并不在于教会你高速的出成果，也不在于让你有了什么炫耀的资本。

而在于让你学会：

- 如何在汹涌而来的浪潮中看清楚时代发展的脉络
- 拥有完善且稳定的认知模式
- 拥有找到自己真正擅长或者愿意去付出时间和经历的东西

# 我需要说明的

在这个时代，相关内容是非常泛滥的，我们不会自己写过多的内容，最主要的是引导大家有一条清晰的路线。同时，我们也会在这里加入一些经典或优秀论文的解读等内容。

# AI 的大致方向分类

本模块会粗略地介绍目前 AI 的研究与应用领域，在这里提前说明：笔者也只是一名普通的杭电学生，视野与认知有限，某些领域我们了解较多就会介绍地更加详细，某些领域了解较少或笔者中无人从事相关研究，就难免会简略介绍甚至有所偏颇，欢迎大家的指正。

## CV(计算机视觉)

计算机视觉旨在<strong>用计算机模拟人类处理图片信息的能力</strong>，就比如这里有一张图片——手写数字 9(by：wy)

![](static/boxcnvQiaAx6WgPx64s8fBklVwh.png)

对我们人类而言，能够很轻松地知道这张图片中包含的信息（数字 9），而对计算机来说这只是一堆像素。计算机视觉的任务就是让计算机能够从这堆像素中得到‘数字 9’这个信息。

相信你通过上面简单的介绍应该能够了解到计算机视觉是在干嘛了，接下来我会举几个相对复杂的例子来让大家了解一下目前的 cv 是在做怎样的研究：

<strong>图像分割</strong>是在图片中对物体分类，并且把它们所对应的位置标示出来。下图就是把人的五官，面部皮肤和头发分割出来，效(小)果(丑)图如下：

![](static/boxcnxn5GlJZmsrMV5qKNwMlDPc.jpg)

![](static/boxcnokdWGegr2XCi1vfg0ZZiWg.png)

![](static/boxcn2o9ilOZg6jI6ssTYWhoeme.png)

<strong>图像生成</strong>相信大家一定不陌生，NovalAI 在 2022 年火的一塌糊涂，我觉得不需要我过多赘述，对它(Diffusion model)的改进工作也是层出不穷，这里就放一张由可控姿势网络(ControlNet)生成的图片吧：

![](static/boxcnUjnRociXua1yKj6dmU1A3c.png)

<strong>三维重建</strong>也是很多研究者关注的方向，指的是传入对同一物体不同视角的照片，来生成 3D 建模的任务。这方面比图像处理更加前沿并且难度更大。具体见[神经辐射场(NeRF)](https://gw9u39xwqi.feishu.cn/wiki/wikcn9RpvhVHpRNN0vZpaUdmavd) 章节。

如果对计算机视觉有兴趣，可以通过以下路线进行学习：深度学习快速入门—> 经典网络。本块内容的主要撰写者之一<strong>SRT 社团</strong>多数成员主要从事 CV 方向研究，欢迎与我们交流。

## NLP(自然语言处理)

这就更好理解了，让计算机能够像人类一样，理解文本中的“真正含义”。在计算机眼中，文本就是单纯的字符串，NLP 的工作就是把字符转换为计算机可理解的数据。举个例子，ChatGPT(或者 New Bing)都是 NLP 的成果。在过去，NLP 领域被细分为了多个小任务，比如文本情感分析、关键段落提取等。而 ChatGPT 的出现可以说是集几乎所有小任务于大成，接下来 NLP 方向的工作会向 ChatGPT 的方向靠近。

![](static/boxcnyh6pakAkcxCKq6pLylSdef.png)

![](static/boxcnwWnoEDulgWdqGkY0WeYogc.png)

## 多模态(跨越模态的处理)

模态，可以简单理解为数据形式，比如图片是一种模态，文本是一种模态，声音是一种模态，等等……

而多模态就是让计算机能够将不同模态的信息相对应，一种常用的方法就是让计算机把图片的内容和文本的内容理解为相同的语义（在这个领域一般用一个较长的向量来表示语义）。

也就是说我<strong>传入一张狗子的照片经过模型得到的向量</strong>与<strong>DOG 这个单词经过模型得到的向量</strong>相近。

具体的任务比如说<strong>图片问答</strong>，传入一张图片，问 AI 这张图片里面有几只猫猫，它们是什么颜色，它告诉我有一只猫猫，是橙色的：

![](static/boxcnrMvM1THshjXXOuh8WXi2zr.jpg)

## 对比学习

因为传统 AI 训练一般都需要数据集标注，比如说图片分割数据集需要人工在数万张图片上抠出具体位置，才能进行训练，这样的人力成本是巨大的，而且难以得到更多数据。因此，对比学习应运而生，这是一种不需要进行标注或者只需要少量标注的训练方式，具体可见[对比学习](https://gw9u39xwqi.feishu.cn/wiki/wikcngR1r66tof102Aof4WywlXf) 。

## 经典机器学习算法

<strong>是老东西了</strong>，<del>速速爆金币</del>

现在一般在数据分析领域使用，研究领域基本不拿它做文章了，大家可以去了解，但是深挖下去难度极大。如果你在阅读其他领域论文中遇到<strong>拿机器学习老算法文艺复兴的</strong>，可以看看我们写的[传统机器学习算法](https://gw9u39xwqi.feishu.cn/wiki/wikcnjgNF9bpP5f03abEiSG2aXe)

## 强化学习

这块我们涉猎较少，你可以理解为训练 AI 打游戏~