通用原则:
- 像素级标注: 语义分割的核心在于对图像中的每个像素进行分类。因此,标注文件通常会以某种方式表示图像中每个像素所属的类别。
- 与原图对应: 标注文件必须与原始图像在尺寸上保持一致,以便能够将标注信息映射到原始图像的每个像素。
- 类别ID: 每个类别都会被分配一个唯一的ID,标注文件中会使用这些ID来表示像素所属的类别。
- 颜色编码: 为了可视化和方便理解,通常会为每个类别分配一个唯一的颜色。
具体数据集的标注格式:
Cityscapes:
- 格式: PNG图像,灰度图或彩色图。
- 灰度图: 每个像素的灰度值直接对应于类别ID。
- 彩色图: 使用预定义的颜色映射表,将每个类别ID映射到一个特定的RGB颜色。Cityscapes官方提供了一个颜色映射表。
- 目录结构: 通常包含
gtFine
和gtCoarse
两个目录,分别对应精细标注和粗略标注。每个目录又包含train
,val
,test
三个子目录。 - 文件名: 标注文件名与原始图像文件名对应,但通常会添加
_labelIds
或_color
后缀。例如,frankfurt_000001_000294_leftImg8bit.png
对应的标注文件可能是frankfurt_000001_000294_gtFine_labelIds.png
或frankfurt_000001_000294_gtFine_color.png
。
VOCdevkit (Pascal VOC):
- 格式: PNG图像,索引图像。
- 索引图像: 每个像素的值是颜色映射表的索引。颜色映射表定义了每个索引对应的RGB颜色。
- 目录结构: 标注文件通常位于
VOCdevkit/VOC2012/SegmentationClass
目录下。 - 文件名: 标注文件名与原始图像文件名对应,但通常会添加
.png
后缀。例如,2007_000032.jpg
对应的标注文件是2007_000032.png
。 - 类别ID: VOCdevkit通常包含20个物体类别和一个背景类别。类别ID从0开始,0表示背景,1-20表示20个物体类别。
ADE20K:
- 格式: PNG图像,索引图像。
- 索引图像: 每个像素的值是颜色映射表的索引。颜色映射表定义了每个索引对应的RGB颜色。
- 目录结构: 标注文件通常位于
images/training
和images/validation
目录下,对应的标注文件位于annotations/training
和annotations/validation
目录下。 - 文件名: 标注文件名与原始图像文件名对应,但通常会添加
_seg.png
后缀。例如,ADE_train_00000001.jpg
对应的标注文件是ADE_train_00000001_seg.png
。 - 类别ID: ADE20K包含150个物体类别。
COCO-Stuff10K & COCO-Stuff164K:
- 格式: RLE (Run-Length Encoding) 和 Polygon 两种格式,存储在JSON文件中。
- JSON格式: 使用COCO格式的JSON文件来存储标注信息。JSON文件包含图像信息、标注信息和类别信息。
- RLE: 使用游程编码来表示每个类别的像素位置。
- Polygon: 使用多边形来表示每个类别的边界。
- 目录结构: 标注文件通常位于
annotations
目录下,例如stuff_train2017.json
和stuff_val2017.json
。 - 类别ID: COCO-Stuff包含171个类别,包括80个COCO物体类别和91个stuff类别。
CHASE_DB1, DRIVE, HRF, STARE (视网膜血管分割):
- 格式: PNG图像,灰度图。
- 灰度图: 每个像素的灰度值表示该像素是否属于血管。通常,0表示背景,255表示血管。
- 目录结构: 标注文件通常与原始图像位于同一目录下,或者位于一个单独的
masks
或groundtruth
目录下。 - 文件名: 标注文件名与原始图像文件名对应,但通常会添加
_1stHO.png
或_manual1.png
等后缀。
Dark Zurich & Nighttime Driving Test:
- 格式: PNG图像,灰度图或彩色图。
- 灰度图: 每个像素的灰度值直接对应于类别ID。
- 彩色图: 使用预定义的颜色映射表,将每个类别ID映射到一个特定的RGB颜色。
- 目录结构: 标注文件通常位于
gtFine
目录下,与Cityscapes类似。 - 文件名: 标注文件名与原始图像文件名对应,但通常会添加
_labelIds
或_color
后缀。
LoveDA:
- 格式: GeoTIFF图像,灰度图。
- 灰度图: 每个像素的灰度值直接对应于类别ID。
- 目录结构: 标注文件通常位于
train/masks
和val/masks
目录下。 - 文件名: 标注文件名与原始图像文件名对应,但通常会添加
.tif
后缀。
Potsdam & Vaihingen (ISPRS 2D Semantic Labeling Contest):
- 格式: GeoTIFF图像,灰度图。
- 灰度图: 每个像素的灰度值直接对应于类别ID。
- 目录结构: 标注文件通常位于
labels
目录下。 - 文件名: 标注文件名与原始图像文件名对应,但通常会添加
_label.tif
后缀。
iSAID:
- 格式: RLE (Run-Length Encoding),存储在JSON文件中。
- JSON格式: 使用COCO格式的JSON文件来存储标注信息。
- RLE: 使用游程编码来表示每个类别的像素位置。
- 目录结构: 标注文件通常位于
annotations
目录下。
Synapse (医学图像分割):
- 格式: NIfTI (Neuroimaging Informatics Technology Initiative) 格式,灰度图。
- 灰度图: 每个像素的灰度值直接对应于类别ID。
- 目录结构: 标注文件通常与原始图像位于同一目录下。
- 文件名: 标注文件名与原始图像文件名对应,但通常会添加
_seg.nii.gz
后缀。
REFUGE (青光眼视盘和视杯分割):
- 格式: PNG图像,灰度图。
- 灰度图: 每个像素的灰度值表示该像素是否属于视盘或视杯。通常,0表示背景,255表示视盘或视杯。
- 目录结构: 标注文件通常位于
Disc_Cup_Masks
目录下。 - 文件名: 标注文件名与原始图像文件名对应,但通常会添加
_mask.png
后缀。
Mapillary Vistas:
- 格式: PNG图像,灰度图或彩色图。
- 灰度图: 每个像素的灰度值直接对应于类别ID。
- 彩色图: 使用预定义的颜色映射表,将每个类别ID映射到一个特定的RGB颜色。
- 目录结构: 标注文件通常位于
labels
目录下。 - 文件名: 标注文件名与原始图像文件名对应,但通常会添加
_labels.png
或_labelTrainIds.png
后缀。
BDD100K:
- 格式: JSON文件,使用多边形来表示每个类别的边界。
- JSON格式: 使用JSON文件来存储标注信息。JSON文件包含图像信息、标注信息和类别信息。
- 目录结构: 标注文件通常位于
labels
目录下。
NYU Depth V2:
- 格式: PNG图像,灰度图。
- 灰度图: 每个像素的灰度值直接对应于类别ID。
- 目录结构: 标注文件通常位于
labels
目录下。 - 文件名: 标注文件名与原始图像文件名对应,但通常会添加
_labels.png
后缀。
总结:
| 数据集 | 格式 | 像素值/内容 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~