저는 궁금하면 못 참아요 시리즈
저는 2016년 박사학위 귀국 후 한 벤처사무실에서 호주시절 박사공부를 같이 한 공대출신 후배 사무실에서 Start-up 경험을 했는데, 드론으로 지도를 완성하는 그런 사업이었고, 우리가 보는 2차원적인 지도가 아니라, 길의 높낮이 등이 더 표현되는 Digital map을 연구 중이었다. 그중에는 Pot-hole이라고 도로에 생긴 구멍을 드론을 정기적으로 운행하면서 구멍 난 이미지를 식별하는 그런 기술도 있었다. 물론 당시에는 획기적이었지만, 지금은 보통 수준의 기술이었던 것 같다. 나는 그 후배 덕에 이미지 인식의 원리가 뭘 까를 고민해 보았고, 이런 기술이 CNN (Convolutional Neural Networks, 합성곱 신경망)이라는 것을 알고 나서, 새로운 언어인 Python도 공부하면서 이미지 인식에 대해 약 6개월 정도를 공부한 기억이 있다. 당시에는 개와 고양이도 인식하고 1~10의 숫자도 판별하고 하는 그런 공부였다. 그 이후로는 나의 분야인 RNN, LSTM을 거쳐 작년에는 PINN-LPPLS라는 인공지능+물리학의 힘을 빌어서 금융시장을 전망하는 그런 인공지능도 금융시장에 도입하는 등 인공지능 예측전문가로 변신을 했다. 기억을 되살려 보면 당시 실시간으로 자동차가 앞뒤 간격을 조정하고 차선을 인식하는 내용도 동영상도 공부하고 열의가 많았던 것 같다. 그래서 이런 세상도 있다는 글을 써서 여러분들의 교양도 늘려드리고, 실제도 내 주변에서 벌어지고 있는 세상에 대해 더 현실적인 스토리를 만들어 보려고, 약 1주일 정도 이 시리즈를 기획했어요. 정말 인공지능 비서들이 귀찮아할 정도로 제가 궁금한 질문들을 많이 했습니다.
실생활에서 찾을 수 있는 이미지 인식 기술
� 1. 이미지 인식이란 무엇인가요?
이미지 인식(Image Recognition)은 인간의 눈과 뇌처럼 컴퓨터가 사진 속 사물이나 사람을 이해하고 판단하는 기술입니다. 이 기술은 인공지능(AI) 중에서도 특히 딥러닝(Deep Learning) 기반으로 발전했고, 다양한 분야에서 실시간으로 활용되고 있습니다.
� 2. 실생활에서 쓰이는 이미지 인식 사례들
� 3. 핵심 알고리즘 설명
� CNN (Convolutional Neural Networks)
CNN은 이미지 인식 분야에서 가장 널리 쓰이는 딥러닝 모델입니다. 컴퓨터가 이미지를 이해하도록 만드는 ‘시각 뇌’라고 표현할 수 있어요.
**합성곱 연산(Convolution)**을 통해 이미지의 ‘특징’(edges, colors, shapes)을 추출합니다.
각 층(layer)을 거치며 이미지 속 사물의 패턴을 점점 더 복잡하게 인식합니다.
이를 통해 자율주행차는 도로의 차선, 보행자, 신호등 등 다양한 사물을 분별할 수 있게 됩니다.
예를 들어 자동차 번호판을 인식할 때, CNN은 사각형 모양, 알파벳/숫자 형상, 대비가 강한 경계선을 찾아내는 방식으로 학습합니다.
� YOLO (You Only Look Once)
YOLO는 이미지 속 객체들을 빠르게 탐지하는 데 특화된 알고리즘입니다. 이름처럼 “한 번에 전체를 본다”는 철학을 바탕으로 동작합니다.
이미지 전체를 한 번의 계산으로 처리해 객체 위치와 종류를 동시에 예측
자율주행에서는 실시간성이 중요하기 때문에 YOLO는 이상적인 선택
예를 들어 횡단보도를 건너는 보행자를 빠르게 인식하고 차량 제동을 판단할 수 있도록 돕습니다
YOLO는 버전이 업그레이드될수록 정확도와 속도가 개선되었습니다. 최신 YOLOv8은 콤팩트한 구조로 모바일이나 임베디드 시스템에도 잘 작동합니다.
� FaceNet & MTCNN
두 알고리즘은 얼굴 인식 분야에서 자주 함께 사용됩니다.
MTCNN (Multi-task Cascaded Convolutional Networks): 얼굴의 위치를 정밀하게 검출
FaceNet: 얼굴의 특징을 벡터로 추출해 DB에 있는 정보와 비교
예를 들어, 헬스장 출입 시스템에서 MTCNN은 카메라에 찍힌 이미지에서 얼굴을 찾아내고, FaceNet은 그 얼굴이 나인지 아닌지를 판별하게 됩니다.
� OCR (Optical Character Recognition)
OCR은 이미지 속에 포함된 글자를 텍스트로 변환하는 기술입니다.
번호판 인식, 문서 스캔, 광고판 해석 등 텍스트 기반 정보 처리에 사용
CNN 기반으로 문자의 모양을 분류해 실제 문자로 바꾸는 방식
자율주행차에서 OCR은 도로 위 속도 제한 표지판 등 글자가 포함된 정보를 읽어내는 데 활용됩니다.
� 4. 실제 적용 시나리오
① 자율자동차
카메라로 주행 중 주변을 끊임없이 촬영
YOLO로 실시간 객체 탐지 (신호등, 보행자, 다른 차량)
CNN 기반의 거리·위치 계산으로 판단과 제어 수행
② 차량번호 인식 시스템
CCTV로 차량 탐지 후 번호판 위치 검출
OCR로 번호판 텍스트 추출 및 저장
③ 얼굴 인식 출입 시스템
정면 얼굴 촬영 → MTCNN으로 얼굴 위치 탐지
FaceNet으로 얼굴 특성 벡터 생성 → 데이터베이스와 비교
� 5. 마무리하며 – 기술의 방향성과 고려 사항
이미지 인식 기술은 실시간성과 정확성의 조화가 핵심입니다.
앞으로는 경량 모델과 다중 센서 융합 모델이 더욱 주목받게 될 것입니다.
또한, 얼굴 인식 등 개인 정보와 연결된 기술은 AI 윤리와 프라이버시의 중요성이 커지고 있습니다.