如何为计算机视觉任务选择正确的标注类型

机器学习中的注释（Annotation）是标记数据的过程，可以是文本，视频，图像或音频等形式。在计算机视觉任务中，图像注释有助于计算机更好的理解图像，计算机尝试在带注释的数据中学习出适用于新数据识别的相似的规则。

有着以下几种不同类型的标注方式，具体使用那种标注方式还需要根据您的具体任务目标而定。

边界框是最常见的图像标注类型。正如其字面意思一样，标注者需要根据具体要求在目标物体周围画一个方框。可以使用边界框来训练目标检测模型。

多边形掩膜（mask）主要用于标注具有不规则形状的目标。标注者必须以高精度标注出图像中目标的边界，从而清楚地了解目标的形状和大小。不同于标注框标注方式，可以框选目标周围不必要区域从而有可能在某些任务中影响模型的训练，多边形标注由于有着较高的标注精度其在任务中可以获得更准确的定位结果。

Landmark标注主要适用于检测形状变化和小物体的视觉任务，其有助于更好地理解目标物体中每个点的运动变化。关键点标注可以帮助实现手势和面部识别，并且还可以用于检测人体部位并准确估计他们的姿势。

线标注是通过绘制车道线注释以适用于训练用于车道检测的车辆感知模型任务。与边界框不同，它避免了许多空白空间和额外的噪音。

3D长方体标注用于计算目标物体深度的视觉任务，如车辆，建筑物甚至人类，从而获得其总体积。它主要用于建筑和自动驾驶车辆系统领域。

在语义分割或像素级注释中，我们将具有相似属性的像素组合在一起。它适用于像素级特定目标的检测和定位视觉任务。与用于检测特定目标对象（或感兴趣区域）的多边形分割不同，语义分割提供了对图像中场景每个像素的完整理解。