이미지인식 엔진은 이미지에 포함되어 있는 객체들을 인식하고 인식된 결과를 바탕으로 이미지가 어떤 장면인지를 분류할 수 있는 엔진입니다. 이미지인식 엔진은 향후 앞서 소개한 시각기반 검색, 비디오 캡셔닝, 자율주행, 시각적 질의응답 등의 응용 분야에 적용하기 위한 기반 기능을 지원합니다. 솔트룩스는 현재의 이미지인식 엔진의 고도화를 통해 이미지를 단순 설명하는 수준을 넘어 이미지속 장면의 의미를 이해하는 수준으로 발전시켜 아래 그림과 같은 기술 스택을 달성할 계획입니다.
< 이미지인식 엔진 기술 스택 >
이미지인식 엔진은 카메라 등을 통해 들어온 이미지를 실시간으로 처리해 상황을 인식하고, 인식된 정보를 응용 어플리케이션에 제공하는 역할을 합니다. 이를 위해 이미지에서 다양한 정보를 분석하는 시각 분석 모듈과 분석된 정보를 바탕으로 상황을 이해하기 위한 시각 이해 모듈로 구성될 수 있습니다.
< 이미지인식 엔진 구성도 >
< 객체 인식 및 객체 분할 예시 >
< Pose Estimation의 예시 >
< 손 제스처 인식의 예시 >
< 얼굴 특징 추출 및 검증 예시 >
< 나이/성별 분류 예시 >
< 안면 인식 및 검증의 예시 >
앞서 소개한 이미지 인식 엔진의 각 기능들은 지속적인 연구 및 개발 진행 중에 있습니다. 현재까지의 SOTA(Status-Of-The-Art)는 아래 표와 같습니다.
분석 기능 | 데이터 셋 | 모델/방법론 | 측정 값 | 측정 기준 |
---|---|---|---|---|
Semantic Segmentation | Cityscapes | DeepLab v3+ | 80.6 | mIoU |
VOC2012 | DeepLab v3+ | 81.2 | mIoU | |
Pose Estimation | Leeds Sports Poses | - Pyramid Residual Modules - Stacked Hourglass |
93.9 | PCK |
Hand Gesture Recognition | NYU Hands | V2V-PoseNet | 8.42 | Average 3D Error |
Face Landmark Detection | 300W | SAN GT | 3.98 | NME |
Age-Group/Gender Classification | AFAD | CORAL | 3.48 | MAE |
Face Recognition | Olivetti Faces 5 Image | RMDL | 95 | Accuracy |
Face Verification | Labeled Faces in the Wild | ArcFace | 99.83 | Accuracy |
< 이미지 인식 기능별 Status-Of-The-Art >