Files
fzu-product/4.人工智能/4.6.5.1CV领域任务(研究目标).md
2023-07-02 00:33:36 +08:00

3.0 KiB
Raw Blame History

CV 领域任务(研究目标)

CV 领域的大任务

aImage classification 图像分类

  • 识别这个图片整体所属的类别,解决的是"what"问题,给这个图片打上相应的标签,在 a 图内标签是 bottlecupcube,其他类型的图片也都有它们自己的标签,然后把这些打上标签的图片带进网络结构里作为训练集训练。

bObject localization 目标检测(对象定位)

  • 识别图片中各个物体所在的位置,解决的是"where"问题,此处还细分两个问题:

    • 定位:检测出图片中的物体位置,一般只需要进行画框。

    • 检测:不仅想要知道这些物体所属的类别,还想知道他们所在的具体位置,比如这张图片有 bottlecupcube,我们不仅要检测出这些物体所在的位置,还要检测处在这个位置的物体所属的类别,这就是目标检测。

    • 再看一个目标检测的例子(此处为 Roboflow-数据集标注工具的示例)

      • 这张图我们需要标注两个类别 head、helmet头盔

cSemantic segmentation 语义分割

  • 语义分割需要进一步判断图像中哪些像素属于哪个目标(进阶目标检测)。
  • 看图右下角两个 cube 是连在一块的 并没有分出哪一部分是哪一个的 cube

dInstance segmentation 实例分割

  • 实例分割需要区分出哪些像素属于第一个物体、哪些像素属于第二个物体,即目标检测 + 语义分割。
  • 看图右下角两个 cube 是分开的

eKey Point 人体关键点检测

通过人体关键节点的组合和追踪来识别人的运动和行为,对于描述人体姿态,预测人体行为至关重要。

fScene Text RecognitionSTR场景文字识别

很多照片中都有一些文字信息,这对理解图像有重要的作用。

场景文字识别是在图像背景复杂、分辨率低下、字体多样、分布随意等情况下,将图像信息转化为文字序列的过程。

gPattern Generation 图像生成

利用两张图片或者其他信息生成一张新的图片

利用左边两张小图生成右边的图片

hSuper Resolution 超分辨率

将输入图片分辨率增加

当然还有一些新兴领域我们没有写入~