MSCOCO数据集标注格式解析

MSCOCO数据集标注格式解析
COCO是微软提供的⼀个图像识别的数据集。其中包括3个tasks,分别是object instances, object keypoints, 和image captions,存储格式为JSON。
基本的数据结构定义如下:
{
学生证制作
"info" : info, "images" : [image], "annotations" : [annotation], "licenses" : [license],
}
info{
"year" : int, "version" : str, "description" : str, "contributor" : str, "url" : str, "date_created" : datetime,
}
image{
"id" : int, "width" : int, "height" : int, "file_name" : str, "license" : int, "flickr_url" : str, "coco_url" : str, "date_captured" : datetime,
}
license{
关闭起重装置
"id" : int, "name" : str, "url" : str,
}
其中images和licenses是包含多个实例数组
三个tasks的格式相近,这⾥以⼀段object keypoints的实例代码为例进⾏解析。
{
"info" : info, "images" : [image], "annotations" : [annotation], "licenses" : [license],
无人机测量}
"info":{
"description":"This is stable 1.0 version of the 2014 MS COCO dataset.",
"url":"http:\/\/",
"version":"1.0","year":2014,
"contributor":"Microsoft COCO group",
"date_created":"2015-01-27 09:11:52.357475"
},
"image":{
"license":3,
"file_name":"COCO_val2014_000000391895.jpg",
"coco_url":"http:\/\/\/images\/391895",
"height":360,"width":640,"date_captured":"2013-11-14 11:18:45",
"flickr_url":"http:\/\/farm9.staticflickr\/8186\/8119368305_4e622c8349_z.jpg",
"id":391895
},
"licenses":{
"url":"http:\/\/\/licenses\/by-nc-sa\/2.0\/",正弦波发生器
"id":1,
"name":"Attribution-NonCommercial-ShareAlike License"
},
"annotations":{
"segmentation": [[125.12,539.69,140.94,]],
"num_keypoints": 10,
"area": 47803.27955,
"iscrowd": 0,
"keypoints": [0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,142,309,1,177,320,2,],
"image_id": 425226,"bbox": [73.35,206.02,300.58,372.5],"category_id": 1,
"id": 183126
},
"category":{
"supercategory": "person",
"id": 1,
"name": "person",
"keypoints": ["nose","left_eye","right_eye","left_ear","right_ear","left_shoulder","right_shoulder","left_
elbow","right_elbow","left_wrist","right_wrist","left_hip","right_ "skeleton": [[16,14],[14,12],[17,15],[15,13],[12,13],[6,12],[7,13],[6,7],[6,8],[7,9],[8,10],[9,11],[2,3],[1,2],[1,3],[2,4],[3,5],[4,6],[5,7]]
}
先看annotation字段。segmentation格式取决于这个实例是⼀个单个的对象(即iscrowd=0,将使⽤polygons格式)还是⼀组对象(即
iscrowd=1,将使⽤RLE格式)。单个的对象(iscrowd=0)可能需要多个polygon来表⽰,⽐如这个对象在图像中被挡住了。⽽
iscrowd=1时(将标注⼀组对象,⽐如⼀⼈)的segmentation使⽤的就是RLE格式。⽽只要是iscrowd=0那么segmentation就是
polygon格式;只要iscrowd=1那么segmentation就是RLE格式。另外,每个对象(不管是iscrowd=0还是iscrowd=1)都会有⼀个矩形
框bbox ,矩形框左上⾓的坐标和矩形框的长宽会以数组的形式提供,数组第⼀个元素就是左上⾓的横坐标值。area是area of encoded
masks,是标注区域的⾯积。如果是矩形框,那就是⾼乘宽;如果是polygon或者RLE,那就复杂点。
keypoints是⼀个长度为3*k的数组,其中k是category中keypoints的总数量。每⼀个keypoint是⼀个长度为3的数组,第⼀和第⼆个元素
分别是x和y坐标值,第三个元素是个标志位v,v为0时表⽰这个关键点没有标注(这种情况下x=y=v=0),v为1时表⽰这个关键点标注了
但是不可见(被遮挡了),v为2时表⽰这个关键点标注了同时也可见。num_keypoints表⽰这个⽬标上被标注的关键点的数量(v>0),
卷纸架⽐较⼩的⽬标上可能就⽆法标注关键点。
再看category字段,存储的是当前对象所属的category的id,以及所属的supercategory的name(在object keypoint任务中只有⼀类,
即person)。keypoints是⼀个长度为k的数组,包含了每个关键点的名字;skeleton定义了各个关键点之间的连接性(⽐如⼈的左⼿腕和
左肘就是连接的,但是左⼿腕和右⼿腕就不是)。
注:⼈体关键点检测任务,COCO中有18个关键点,⽽MPI有15个。COCO关键点顺序如下:
家谱管理系统
References:

本文发布于:2024-09-21 22:32:43,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/167916.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:标注   关键点   数组   格式   实例   数据   时表   解析
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议