컴퓨터 비전과 영상인식 문제 소개

얼굴 인식부터 물체 검출까지

Jan 16. 2023

컴퓨터 비전(Computer Vision)은 컴퓨터가 이미지나 비디오를 이해하고 처리하는 영상인식 기술을 의미합니다. 즉, 컴퓨터가 사람의 눈이 수행하는 역할을 수행할 수 있도록 연구하는 분야라고 생각할 수 있습니다.

컴퓨터 비전이라는 단어는 큰 카테고리를 의미하고 컴퓨터 비전에서 각각의 구체적인 문제영역을 살펴보면 아래와 같습니다.

이미지 분류(Image Classification)

얼굴 검출(Face Detection)

얼굴 인식(Face Recognition)

얼굴 검증(Face Verification)

얼굴 정렬(Face Alignment)

의미론적 이미지 분할(Semantic Image Segmentation)

뇌 종양 검출(Brain Tumor Segmentation)

핸들 각도 예측(Steering Angle Prediction)

초해상화(Super Resolution)

얼굴 복원(Face Hallucination)

글자 영역 검출(Text Detection)

Optical Character Recognition(OCR)

차량 번호판 인식(License Plate Detection)

이미지 캡셔닝(Image Captioning)

신경망 스타일 전이(Neural Style Transfer)

생성 모델(Generative Model)

인간 동작 추정(Human Pose Estimation)

불량 검출(Defect Detection)

물체 검출(Object Detection)

각각의 컴퓨터 비전 문제영역을 구체적으로 살펴봅시다.

이미지 분류(Image Classification)

이미지 분류(Image Classification)은 컴퓨터 비전의 가장 기본적인 문제 영역 중 하나이며, 인풋 이미지가 어떤 레이블(Label)에 대응되는지 인풋 이미지에 대한 분류(Classification)를 수행하는 문제 영역을 의미합니다. (예를 들어, 이 이미지는 강아지이다, 이 이미지는 고양이이다.)

Face Detection(얼굴 검출)

Face Detection(얼굴 검출)은 이미지 내에 얼굴이 있는 영역의 위치정보를 Bounding box로 찾는 문제영역을 의미합니다. 즉, 이미지 내에 얼굴이 있는 위치정보를 찾는 문제영역이라고 생각할 수 있습니다. 얼굴 인식 등의 다른 문제 해결을 위해서는 먼저 얼굴의 위치를 찾는 과정이 선행되어야만 합니다.

얼굴 인식(Face Recognition)

얼굴 인식(Face Recognition)은 Face Detection(얼굴 검출)이 진행된 상태에서 해당 Bounding box 위치에 존재하는 얼굴이 누구인지 신원(Identity)을 식별하는 문제영역입니다. 얼굴 검출(Face Detection)은 이미지 내에 얼굴이 있는 위치를 찾는 것이며, 얼굴 인식(Face Recognition)은 얼굴 검출이 진행된 상태에서 해당 Bounding box 위치에 존재하는 얼굴이 누구인지 신원(Identity)을 식별하는 것입니다.

얼굴 검증(Face Verification)

얼굴 검증(Face Verification)은 두개의 얼굴 이미지가 주어지면 주어진 얼굴 이미지가 일치하는지 확인하는 문제영역입니다. 예를 들어, 사용자가 제공한 얼굴 이미지와 시스템에 저장된 얼굴 이미지가 일치하는지 확인하는 것을 말합니다. 이는 인증이나 범죄자 검출 등에 활용될 수 있습니다.

얼굴 정렬(Face Alignment)

얼굴 정렬(Face Alignment)은 얼굴의 특징점(Feature Point)을 이용하여 얼굴을 일정한 기준으로 배치하는 것입니다. 이렇게 정렬된 얼굴 이미지는 이후 얼굴 인식, 검출, 검증 등의 기법에서 사용될 수 있습니다. 이는 얼굴의 특징점을 기준으로 얼굴을 정렬하기 때문에 얼굴의 각도, 크기, 위치에 상관없이 얼굴을 동일한 기준으로 정렬할 수 있고, 얼굴 인식의 정확도를 향상시킬 수 있습니다.

의미론적 이미지 분할(Semantic Image Segmentation)

의미론적 이미지 분할(Semantic Image Segmentation)은 이미지 속 각 픽셀이 어떤 클래스에 속하는지를 식별하는 것을 말합니다. 예를 들어, 이미지 속 각 픽셀이 사람, 동물, 건물, 나무 등의 클래스에 속하는지를 구분하는 것을 말합니다. 이는 이미지 인식, 로봇, 의료 영상 분석 등 여러 분야에서 사용될 수 있습니다.

뇌 종양 검출(Brain Tumor Segmentation)

뇌 종양 검출(Brain Tumor Segmentation)은 Semantic Image Segmentation을 이용해서 MRI로 촬영한 뇌(Brain) 이미지 내에 종양(Tumor)이 있는지를 검출하는 문제영역입니다. 컴퓨터 비전 기술을 이용하면 기존에 의사가 수행하던 작업을 더 빠르고 정확하게 수행할 수 있습니다.

핸들 각도 예측(Steering Angle Prediction)

핸들 각도 예측(Steering Angle Prediction)은 주행 자동차나 드론, 로봇 등에서 핸들의 각도를 예측하는 것을 말합니다. 이는 영상인식, 머신러닝 기술을 이용하여 자동차가 이동할 방향을 예측해서 자율주행(Autopilot) 기술을 구현하는데 활용될 수 있습니다.

초해상화(Super Resolution)

초해상화(Super Resolution)은 저해상도 이미지를 인풋으로 받으면 이를 고해상도 이미지로 변경해주는 문제영역입니다. 이는 의료 영상 처리나 영상 편집등의 다양한 분야에 응용될 수 있습니다.

얼굴 복원(Face Hallucination)

얼굴 복원(Face Hallucination)은 얼굴 이미지에 대한 Super Resolution을 수행하는 문제 영역을 의미합니다. 이 기술을 이용해서 CCTV 내에 범죄자 얼굴의 해상도를 확대해서 얼굴 인식 등의 정확도를 높일 수 있습니다.

글자 영역 검출(Text Detection)

글자 영역 검출(Text Detection)은 이미지 내에 텍스트가 존재하는 영역의 위치정보를 Bounding Box로 찾는 문제 영역입니다. 글자 영역 검출 결과를 OCR과 결합해서 이미지 내에 텍스트를 찾고 텍스트의 의미를 파악할 수 있습니다.

Optical Character Recognition(OCR)

Optical Character Recognition(OCR)은 Text Detection이 수행된 Bounding Box 내에 존재하는 글자가 어떤 글자인지를 인식하는 문제 영역입니다. Text Detection은 이미지에서 텍스트가 존재하는 영역을 Bounding Box로 검출하는 기술이며, OCR은 이 Bounding Box 내에 있는 텍스트를 인식하여 컴퓨터가 이해할 수 있는 형태로 변환하는 기술입니다. 즉 Text Detection은 이미지에서 텍스트 위치를 찾는 것이고, OCR은 그 위치에 있는 텍스트를 인식하는 것입니다.

차량 번호판 인식(License Plate Recognition)

차량 번호판 인식(License Plate Recognition) 문제영역은 Text Detection과 OCR을 이용해서 차량 번호판의 이미지나 비디오를 입력으로 받아 차량 번호판의 위치를 검출하고, 검출된 위치에 있는 텍스트를 인식하여 차량 번호를 추출하는 기술을 의미합니다.

Text Detection을 통해 차량 번호판 영역을 Bounding Box로 검출하고, OCR을 통해 Bounding Box 내에 있는 텍스트를 인식하여 차량 번호를 추출하는 과정을 거칩니다. 이러한 기술을 이용해 차량 번호를 인식하면 자동차 관리, 통행료 청구, 교통 정보 수집 등 다양한 분야 응용할 수 있습니다.

이미지 캡셔닝(Image Captioning)

이미지 캡셔닝(Image Captioning)은 이미지에 대한 설명문을 자동 생성하는 문제 영역입니다.

이미지 캡셔닝 기술은 아래와 같이 다양한 방식으로 응용할 수 있습니다.

이미지 검색: 이미지에서 어떤 객체나 장소, 행동 등이 포함되어 있는지를 텍스트로 설명하는 기능을 제공하여 이미지 검색을 더욱 쉽게 할 수 있습니다.

이미지 분류: 이미지를 설명하는 텍스트를 이용하여 이미지를 여러 개의 카테고리로 분류할 수 있습니다.

장애인 지원: 이미지를 설명하는 텍스트를 이용하여 장애인이 이미지를 이해할 수 있도록 도움을 줄 수 있습니다.

사진 기록: 이미지를 설명하는 텍스트를 이용하여 사진에 대한 기록을 남길 수 있습니다.

자연어 생성: 이미지를 기반으로 자연어를 생성하는 기능을 제공하여 이미지를 설명하는 자연어를 생성할 수 있습니다.

신경망 스타일 전이(Neural Style Transfer)

신경망 스타일 전이(Neural Style Transfer)는 변환을 원하는 이미지 스타일을 적용하여 새로운 이미지를 생성하는 기술입니다. 이 기술을 사용하면 이미지를 입력받아 원하는 스타일을 적용하여 새로운 이미지를 생성할 수 있습니다.

생성 모델(Generative Model)

생성 모델(Generative Model)은 트레이닝 데이터의 분포를 학습하고 이를 이용해서 새로운 가짜 데이터를 생성하는 문제영역입니다. 이러한 모델은 주로 이미지, 음성, 텍스트 등의 자연어 데이터를 생성하는데 사용됩니다. 생성 모델은 일반적으로 생성자(Generator)와 판별자(Discriminator)라는 두 가지 모델로 구성되며, 생성자는 가짜 데이터를 생성하고 판별자는 이를 실제 데이터와 구분하는 기능을 합니다. 이렇게 학습된 생성자는 실제 데이터와 유사한 가짜 데이터를 생성할 수 있습니다. 생성모델은 이미지 생성, 자연어 생성, 음성 생성 등 다양한 응용 사례를 가지고 있습니다.

인간 동작 추정(Human Pose Estimation)

인간 동작 추정(Human Pose Estimaton)은 인간의 중요 신체 부위를 Keypoint라는 점으로 추정해서 현재 포즈를 예측하는 문제영역입니다. 이를 이용해 다양한 응용 사례를 가질 수 있습니다. 예를 들어, 인간 동작 인식을 통해 운동 정보를 수집하거나 인간 추적을 통해 인간의 움직임을 추적하는 응용, 인간 인식을 통해 인간을 구분하는 응용 등이 있습니다.

불량 검출(Defect Detection)

불량 검출(Defect Detection)은 공정 과정상에 불량(Defect)을 검출하는 문제 영역입니다. 이는 이미지나 영상으로부터 불량을 검출하는 기술로, 이를 이용하면 생산라인에서 불량을 빠르게 식별하고 검출할 수 있습니다. 불량 검출은 생산 품질 관리, 보안 관리, 자동화 등 다양한 분야에서 사용됩니다.

물체 검출(Object Detection)

물체 검출(Object Detection)은 이미지 내에 존재하는 물체를 찾고, 이들을 구분하는 기술입니다. 이를 위해 이미지를 입력으로 받은 물체가 있는 영역의 위치를 Bounding Box로 표시하며, Bounding Box 내에 존재하는 물체를 레이블(Label)로 분류합니다. 이를 통해 이미지 인식, 로봇, 자율 주행 자동차, 인공지능 인터랙션 등 다양한 분야에서 사용될 수 있습니다. 예를 들어, 이미지 인식을 통해 사람, 물체, 차량 등을 인식하거나, 자율 주행 자동차에서 운전자가 앞에 보이는 길을 인식하는데 사용될 수 있습니다.

최근에는 이런 다양한 컴퓨터 비전 문제들을 딥러닝 기술을 활용하여 해결하고 있습니다. 딥러닝과 컴퓨터 비전 기술을 이용하면 자율 주행, 생산 공정 자동화, 로봇 등 다양한 산업에서 많은 부가가치를 생성할 수 있습니다.

References

[1] https://www.tugraz.at/fileadmin/user_upload/Institute/ICG/Documents/lrs/pubs/koestinger_cvpr_2012.pdf

[2] https://arxiv.org/abs/1902.10859

[3] https://arxiv.org/abs/1505.03540

[4] https://github.com/commaai/research

[5] https://arxiv.org/abs/1609.04802

[6] https://arxiv.org/abs/1806.10726

[7] https://arxiv.org/abs/1411.4555

[8] https://arxiv.org/abs/1508.06576

[9] https://arxiv.org/abs/2001.00179

[10] https://arxiv.org/abs/1903.06593

keyword

작가의 이전글Semantic Segmentation과 U-NetYOLO(You Only Look Once) 모델 소개작가의 다음글