AI Hub 데이터 품질 유감

U2 PIA
5 min readDec 18, 2021

데이터댐 구축사업으로 만들어진 사이트. 방대한 RAW 데이터 있음.

얘를 함 받아보자.

대충 라벨 데이터와 이미지 데이터 있는 것 같다. 라벨 데이터는 COCO 데이터셋에 맞춰 만들어 졌다. **데이터에 대한 설명이 부실하긴 하지만, 뭐..**

json 파일 하나 열어보자.

{"images": [{"id": 1830374,"width": "5472","height": "3648","file_path": "s3://aidata-2020-02-024/069.시설 작물 개체 영상/069.시설 작물 개체 영상/01.데이터//라벨링데이터_NIA/null/가지/","pl_name": "가지","pl_code": "15","fext": "JPG","license": 1,"date_captured": "2020:12:31 14:58:29","create_de": "2020-12-31","fname": "15_20201231_1830374.JPG","create_t": 12,"create_pos": "12","create_angle": -45,"create_dist": "원거리","resolution": "5472*3648","f_stop": "f/11.0","shutter_speed": "1/400 sec","iso": "1600","white_balance": "Auto white balance","focal_length": "9.1 mm","weather": "구름조금","pl_type": "팡파레","pl_step": "수확기","pl_leaf": "1","pl_stem": "1","pl_grpoint": "1","pl_fruit": "1","pl_flower": "1","offical_dt": "2020.09.17"}],"annotations": [{"segmentation": [2519.82, 2692.11, 3214.47, 2692.11, 3214.47, 3025.63, 2519.82, 3025.63],"area": 231679.66,"bbox": [2519.82, 2692.11, 694.65, 333.52],"isCrowd": 0,"id": 0,"image_id": 1830374,"category_id": 0},{"segmentation": [3267.76, 1895.16, 3551.05, 1895.16, 3551.05, 2399.13, 3267.76, 2399.13],"area": 142769.66,"bbox": [3267.76, 1895.16, 283.29, 503.97],"isCrowd": 0,"id": 1,"image_id": 1830374,"category_id": 1}],"licenses": [{ "id": 1, "name": "CCMediaService", "url": "" }],"categories": [{ "id": 0, "name": "잎", "supercategory": "none" },{ "id": 1, "name": "잎", "supercategory": "none" }]}

쓸모 있는 데이터는 segmentation, bbox 정도?

근데, segmentation 값이 조금 이상하다?

원래 COCO 데이터셋에서 segmentation은 [X1,Y1, X2,Y2, …] 이런 식으로 기재되기는 하는데 꼴랑 4점? 그럼 사각형인데??

Categories에 id는 다름에도 불구하고 “name” 값은 같네? 오호…

일단 sgementation 에 기재된 내용대로 사진에 그려보자.

어……

어…………

음….

어……

결론

segmentation 과 bbox를 혼용해서 사용함. 즉, segmentation 데이터는 없음.

한 이미지에서 몇 개만 annotation함. 이를테면, 한 그림에 꽃이 100개 있어도 몇 개만 annotate 되어 있음.

인공지능 학습에 활용하기에는… 쫌.. 품질이.. 일단 annotation은 음…

활용되는 목적을 고려하고 데이터를 쌓아야 하는데..

농업 분야 인공지능 하시는 분 많던데….

검수는 실제 활용하는 수요자들한테 받아야 하지 않았을까?

다른 데이터도 함 더 알아봐야 겠다.

쓸만한 게 있을런지..

--

--