62 lines
2.7 KiB
Markdown
62 lines
2.7 KiB
Markdown
# CV 领域任务(研究目标)
|
||
|
||
### CV 领域的大任务
|
||
|
||

|
||
|
||
#### (a)Image classification **图像分类**
|
||
|
||
- 识别这个图片整体所属的类别,解决的是"what"问题,给这个图片打上相应的标签,在 a 图内标签是 `bottle,cup,cube`,其他类型的图片也都有它们自己的标签,然后把这些打上标签的图片带进网络结构里作为训练集训练。
|
||
|
||
#### (b)Object localization **目标检测**(对象定位)
|
||
|
||
- 识别图片中各个物体所在的位置,解决的是"where"问题,此处还细分两个问题:
|
||
|
||
- 定位:检测出图片中的物体位置,一般只需要进行画框。
|
||
- 检测:不仅想要知道这些物体所属的类别,还想知道他们所在的具体位置,比如这张图片有 `bottle,cup,cube`,我们不仅要检测出这些物体所在的位置,还要检测处在这个位置的物体所属的类别,这就是目标检测。
|
||
- 再看一个目标检测的例子(此处为 [Roboflow-数据集标注工具](https://roboflow.com/)的示例)
|
||
|
||
- 这张图我们需要标注两个类别 `head(头)、helmet(头盔)`
|
||
|
||

|
||
|
||
#### (c)Semantic segmentation **语义分割**
|
||
|
||
- 语义分割需要进一步判断图像中哪些像素属于哪个目标(进阶目标检测)。
|
||
- 看图右下角两个 `cube` 是连在一块的 并没有分出哪一部分是哪一个的 `cube`
|
||
|
||
#### (d)Instance segmentation **实例分割**
|
||
|
||
- 实例分割需要区分出哪些像素属于第一个物体、哪些像素属于第二个物体,即目标检测 + 语义分割。
|
||
- 看图右下角两个 `cube` 是分开的
|
||
|
||
#### (e)Key Point 人体关键点检测
|
||
|
||

|
||
|
||
通过人体关键节点的组合和追踪来识别人的运动和行为,对于描述人体姿态,预测人体行为至关重要。
|
||
|
||
#### (f)Scene Text Recognition(STR)场景文字识别
|
||
|
||

|
||
|
||
很多照片中都有一些文字信息,这对理解图像有重要的作用。
|
||
|
||
场景文字识别是在图像背景复杂、分辨率低下、字体多样、分布随意等情况下,将图像信息转化为文字序列的过程。
|
||
|
||
#### (g)Pattern Generation 图像生成
|
||
|
||
利用两张图片或者其他信息生成一张新的图片
|
||
|
||

|
||
|
||
利用左边两张小图生成右边的图片
|
||
|
||
#### (h)Super Resolution 超分辨率
|
||
|
||
将输入图片分辨率增加
|
||
|
||

|
||
|
||
当然还有一些新兴领域我们没有写入~
|